HỘI NGHỊ KHOA HỌC – KỸ THUẬT LẦN THỨ 34
Đề tài
PHÂN CỤM DỮ LIỆU ỨNG DỤNG
TRONG PHÂN TÍCH DỮ LIỆU
CÔNG THỨC DƯỢC PHẨM
Báo cáo
viên
Hà Siu
1
NỘI DUNG CHÍNH
1. Giới thiệu đề tài
2. Cơ sở lý thuyết
3. Chương trình minh họa
4. Kết quả thực nghiệm
5. Kết luận và hướng phát triển
2
1.
Giới thiệu đề tài
3
5
Các phương pháp nghiên cứu
Phương
Mâupháp
thuẫn
thống kê
cổ điển
-Tuyến tính
- Chậm
- Đơn giản
- Hiệu quả
tốt (95%)
tiềm tàng
vs
Các kỹ
thuật khai
phá dữ
liệu
- Phi tuyến
- Nhanh
- Phức tạp
- Hiệu quả
tốt (98%)
6
8
Công thức dược phẩm
• Dược phẩm hay thuốc là những chất dưới dạng đơn chất hoặc hỗn
hợp có nguồn gốc rõ ràng, được dùng cho người hoặc sinh vật để chẩn
đoán, phòng và chữa bệnh, hạn chế hoặc thay đổi điều kiện bệnh lý hay
sinh lý.
Mâu thuẫn tiềm tàng
• Thiết lập công thức dược phẩm là thiết lập các dạng công thức có liều
lượng khác nhau. Thiết lập công thức dược phẩm có thể được định
nghĩa là một tập hợp các hoạt động với mục tiêu tạo ra thuốc có thông
số kỹ thuật nhất định và đảm bảo việc duy trì các đặc điểm hiệu quả và
an toàn của thuốc. Mục tiêu chính của thiết lập công thức dược phẩm là
làm cho thuốc có thể vận chuyển dễ dàng trong cơ thể và tương thích
với bệnh nhân. Hiện nay mục tiêu mới được quan tâm trong thiết lập
công thức dược phẩm là sinh khả dụng của thuốc.
9
Thuật toán k-means
• K-means là thuật toán rất quan trọng và được sử dụng phổ
biến trong kỹ thuật phân cụm dữ liệu
• Ý tưởng chính của thuật toán k-means là tìm cách phân
nhóm các đối
tượng
Mâu
thuẫn(objects)
tiềm tàngđã cho vào k cụm (k là số các
• Thuật toán k-means thực hiện qua các bước chính sau:
1. Chọn ngẫu nhiên k tâm (centroid) cho k cụm (cluster). Mỗi cụm
được đại diện bằng các tâm của cụm.
2. Tính khoảng cách giữa các đối tượng (objects) đến k tâm
Mâukhoảng
thuẫn cách
tiềm Euclide).
tàng
(thường dùng
3. Nhóm các đối tượng vào nhóm gần nhất.
4. Xác định lại tâm mới cho các nhóm.
5. Thực hiện lại bước 2 cho đến khi không có sự thay đổi nhóm
nào của các đối tượng.
• Thuật toán k-means được phát triển bởi nhiều nhà nghiên cứu
khác nhau, điển hình là Lloyd (1957), Forgey (1965), Friedman
(1967), Rubin (1967), McQueen (1967).
12
Thuật toán k-means
Mâu thuẫn tiềm tàng
Hình 1: Lưu đồ thuật toán k-means
13
Logic mờ
• Trong logic cổ điển, hàm thành viên chỉ có một
Cấu hình
•
Intel® Core™ i3-3227U CPU @ 1.90 GHz 1.90
GHz, 4.00 GB RAM
• Windows 7 32-bit
• C# 2013
• 2 module chính:
• Dữ liệu
• Phân cụm dữ liệu với thuật toán k-means
17
Bộ dữ liệu
•
•
•
•
•
Công thức viên nén matrix
Công trình của Bodea và Leucuta, năm 1997
13 công thức thực nghiệm
3 biến độc lập x1, x2 và x3
3 biến phụ thuộc y1, y2 và y3
18
19
Dữ liệu cụ thể
Bảng 2: Dữ liệu thực nghiệm của viên nén matrix
x1
x2
x3
y1
y2
y3
1
0,34
0
0,66
0,152
0,683
0,992
0,66
0
0,34
0,122
0,448
0,712
5
0,446
0
0,553
0,148
0,585
0,866
6
0,506
0,5
0,084
0,512
0,856
9
0,35
0,15
0,5
0,087
0,518
0,862
10
0,35
0,15
0,5
0,352
0,672
13
0,553
0
0,446
0,143
0,518
0,792
20
Giao diện chương trình – Module 1: Dữ liệu
Hình 3: Giao diện module 1 – Dữ liệu
21
Giao diện chương trình – Module 2: Phân cụm dữ liệu
0,052
0,352
0,672
0,66
0,46
0,66
0,152
0,683
0,992
0,373692
0,154769
0,471154
0,103769
0,520692
0,843538
0,085084
24
0,100106
Phân cụm dữ liệu bằng Weka
Thuộc tính
Dữ liệu ban đầu
Cụm 1
Cụm 2
Cụm 3
x1
0.3737
0.2
0.393
0.3872
x2
0.5207
0.612
0.634
0.4889
y3
0.8435
0.986
0.929
0.8122
Tổng số thực thể
13
1
2
10
Tỉ lệ