BỘ GIÁO DỤC VÀ ĐÀO TẠO
VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------
TRẦN MẠNH TUẤN
NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP PHÂN CỤM BÁN
GIÁM SÁT MỜ TRONG PHÂN ĐOẠN ẢNH NHA KHOA
LUẬN ÁN TIẾN SỸ TOÁN HỌC
HÀ NỘI – 2016
i
VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
--------------------------
TRẦN MẠNH TUẤN
NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP PHÂN
CỤM BÁN GIÁM SÁT MỜ TRONG PHÂN ĐOẠN
ẢNH NHA KHOA
LUẬN ÁN TIẾN SỸ TOÁN HỌC
giả trong suốt quá trình thực hiện luận án là không thể nào kể hết đƣợc.
Xin chân thành cảm ơn các thầy các cô, các nhà khoa học thuộc Viện
Công nghệ thông tin - Viện hàm lâm và khoa học Việt Nam đã tận tình giúp
đỡ và tạo một môi trƣờng làm việc hết sức thuận lợi giúp tác giả thực hiện tốt
công việc nghiên cứu của mình.
Xin chân thành gửi lời cảm ơn tới các anh chị em và các bạn trong
Trung tâm tính toán hiệu năng cao, Trƣờng Đại học Khoa học Tự Nhiên đã
giúp đỡ tác giả trong suốt quá trình học tập và nghiên cứu tại trung tâm. Xin
đặc biệt cảm ơn TS. Lê Hoàng Sơn ngƣời đã nhiệt tình hƣớng dẫn, tạo điều
kiện thuận lợi giúp tác giả hoàn thành luận án một cách tốt nhất.
Xin gửi lời cảm ơn chân thành tới PGS. TS. Võ Trƣơng Nhƣ Ngọc,
Viện đào tạo Răng Hàm Mặt, Đại học Y Hà Nội đã cung cấp số liệu, tƣ vấn
chuyên môn, cung cấp các tài liệu cần thiết trong quá trình nghiên cứu và
hoàn thành luận án.
Xin chân thành cảm ơn Ban Giám Hiệu Trƣờng đại học Công nghệ
thông tin và Truyền thông – Đại học Thái Nguyên đã hết sức tạo điều kiện về
thời gian và công việc để tác giả có thể tập trung hoàn thành quá trình học tập,
nghiên cứu của mình. Đặc biệt xin gửi lời cảm ơn đến các thầy cô, các bạn
đồng nghiệp trong Khoa Công nghệ thông tin đã động viên, giúp đỡ tác giả
trong suốt quá trình nghiên cứu.
Cuối cùng, xin gửi lời cảm ơn sâu sắc nhất tới gia đình, bạn bè và
ngƣời thân, những ngƣời đã luôn là nguồn động viên để tác giả có thể học tập
và nghiên cứu, luôn sẻ chia những khó khăn vất vả trong quá trình nghiên cứu
và hoàn thiện đề tài.
Hà Nội, ngày…..tháng….năm 2016
Tác giả luận án
Trần Mạnh Tuấn
ii
2.2.3. Xác định thông tin bổ trợ........................................................... 44
2.2.4. Thuật toán phân cụm bán giám sát mờ SSFC-SC ................... 46
2.2.5. Phân tích và đánh giá thuật toán SSFC-SC ............................. 51
2.3. Thuật toán phân cụm bán giám sát mờ giải nghiệm bằng thỏa
dụng mờ ................................................................................................... 52
2.3.1. Thuật toán phân cụm bán giám sát mờ (SSFC-FS) ................ 52
2.3.2. Các tính chất và hệ quả từ phân tích nghiệm của thuật toán . 57
2.3.3. Phân tích và đánh giá thuật toán SSFC-FS ............................. 69
2.4. Xác định thông tin bổ trợ phù hợp cho thuật toán SSFC-FS ...... 70
2.4.1. Lược đồ tổng quát ...................................................................... 71
2.4.2. Xây dựng tập các hàm thông tin bổ trợ .................................... 71
2.4.3. Xác định hàm thông tin bổ trợ phù hợp cho ảnh nha khoa .... 74
2.5. Kết luận............................................................................................. 78
CHƢƠNG 3. ĐÁNH GIÁ THỰC NGHIỆM...................................................79
3.1. Mô tả dữ liệu ảnh X-quang nha khoa ............................................ 79
3.1.1. Đặc tả dữ liệu ............................................................................. 79
3.1.2. Xác định các đặc trưng của ảnh nha khoa .............................. 82
3.2. Độ đo và tiêu chí đánh giá kết quả ................................................. 85
3.3. Các kết quả so sánh phân đoạn ảnh............................................... 88
3.3.1. Kết quả trên tập cơ sở dữ liệu ảnh nha khoa ........................... 88
3.3.2. Kết quả với các tham số thay đổi ............................................... 91
3.4. Ứng dụng phân đoạn ảnh trong hỗ trợ chẩn đoán bệnh nha khoa
............................................................................................................. 98
3.4.1. Mô hình hóa bài toán ................................................................ 99
3.4.2. Chọn phân đoạn có khả năng mắc bệnh ................................ 102
3.4.3. Chẩn đoán từng phân đoạn ................................................... 103
3.4.4 . Xây dựng bảng tổng hợp của các đoạn ................................. 106
Ball and Hall
BR
Banfeld-Raftery
CH
Calinski-Harabasz
DB
Davies-Bouldin
DDS
Dental Diagnosis System
DL
Difference-Like
EEI
Entropy, Edge and Intensity
eSFCM
Semi-supervised Entropy regularized Fuzzy Clustering
Mean Squared Error
PBM
Pakhira, Bandyopadhyay and Maulik
RGB
Red-Green-Blue
vi
SSFCM
Semi-Supervised Fuzzy C-Mean
SSFC-FS
Semi-Supervised Fuzzy Clustering algorithm with Spatial
Constraints using Fuzzy Satisficing method
Semi-Supervised Fuzzy Clustering algorithm with Spatial
Constraints using Fuzzy Satisficing method on the
Additional Function
SSFC-FSAI
SSFC-SC
Semi-Supervised Fuzzy Clustering algorithm with Spatial
vii
DANH MỤC BẢNG BIỂU
Bảng 1.1. Thuật toán phân cụm mờ .................................................................21
Bảng 1.2. Thuật toán phân cụm bán giám sát mờ chuẩn .................................23
Bảng 1.3. Thuật toán phân cụm bán giám sát mờ theo quy tắc entropy ..........25
Bảng 1.4. Thuật toán phân cụm bán giám sát mờ ............................................26
Bảng 2.1. Thuật toán tách ngƣỡng Otsu ..........................................................35
Bảng 2.2. Thuật toán phân cụm bán giám sát mờ lai ghép ..............................37
Bảng 2.3. Ma trận độ thuộc cuối cùng của FCM .............................................45
Bảng 2.4. Xác định u1 ......................................................................................45
Bảng 2.5. Trọng số các đặc trƣng nha khoa .....................................................46
Bảng 2.6. Xác định u2 ......................................................................................46
Bảng 2.7. Xác định ma trận bổ trợ ...................................................................46
Bảng 2.8. Thuật toán SSFC-SC .......................................................................51
Bảng 2.9. Bảng đánh giá hàm mục tiêu (pay-off) của phƣơng pháp thỏa dụng
mờ .....................................................................................................................55
Bảng 2.10. Các giá trị của IFV để chọn hàm bổ trợ thích hợp nhất ................76
Bảng 3.1. Thông tin về các nhóm bệnh nhân ...................................................80
Bảng 3.2. Đặc trƣng của tập dữ liệu.................................................................82
Bảng 3.3. Thống kê các ảnh trong toàn bộ dữ liệu ảnh X-quang. ...................85
Bảng 3.4. Các giá trị kỳ vọng và phƣơng sai của các thuật toán .....................89
Bảng 3.5. So sánh hiệu năng của các thuật toán trên bộ dữ liệu thực .............89
Bảng 3.6. Giá trị độ đo khi thực hiện thuật toán SSFC-SC với C = 3 và giá trị
.......................................................................................................................91
Bảng 3.7. Giá trị độ đo khi thực hiện thuật toán SSFC-SC với C = 5 và giá trị
.......................................................................................................................92
Hình 2.7. Sơ đồ hoạt động của phƣơng pháp SSFC-FSAI ..............................71
Hình 2.8. Minh họa các giá trị màu của ảnh ....................................................75
Hình 2.9. Giá trị đặc trƣng của từng điểm ảnh ................................................76
Hình 2.10. Giá trị tâm cụm và độ thuộc sau phân cụm bằng thuật toán FCM 76
Hình 3.1. Ảnh X-quang nha khoa theo từng nhóm bệnh .................................81
Hình 3.2. Ảnh phân đoạn .................................................................................90
Hình 3.3. Độ chính xác của các phƣơng pháp phân cụm với số cụm thay đổi 94
Hình 3.5. Biểu đồ biểu diễn vùng phân đoạn và 4 mẫu bệnh. .......................103
Hình 3.6. Kết quả thực nghiệm trên đồ thị.....................................................111
x
MỞ ĐẦU
Phân đoạn ảnh là chia nhỏ một ảnh thành các vùng đồng nhất cấu tạo nên
ảnh hoặc các đối tƣợng [17], [52]. Phân đoạn ảnh thƣờng đƣợc sử dụng để xác
định vị trí đối tƣợng (chẳng hạn nhƣ các loại cây trồng, khu vực đô thị, rừng của
một hình ảnh vệ tinh, v.v.) và các đƣờng biên, ranh giới (đƣờng thẳng, đƣờng
cong, v.v.) trong ảnh. Với ảnh nha khoa thì mục đích của phân đoạn ảnh nha khoa
là bƣớc xử lý quan trọng trong nha khoa thực hành nhằm hỗ trợ bác sĩ chẩn đoán
một cách hiệu quả các bệnh quanh răng.
Ảnh X-quang nha khoa gồm 3 phần chính [54]: i) Phần răng: phần có độ
xám cao và là phần ta nhìn thấy rõ nhất trên ảnh; ii) Phần cấu trúc răng: là phần có
độ xám trung bình gồm lợi răng, xƣơng, phần khác (tủy, xi măng v.v.); iii) Phần
nền: là phần có giá trị độ xám nhỏ nhất, là nền tảng của cấu trúc răng. Với cấu trúc
của ảnh X-quang nha khoa thì việc phân đoạn ảnh phức tạp hơn phân đoạn ảnh
thông thƣờng [70].
Bài toán phân đoạn ảnh nha khoa đã đƣợc sử dụng để hỗ trợ việc chẩn đoán
bệnh nha khoa và dự đoán tuổi nha khoa [51]. Đồng thời, phân đoạn ảnh nha khoa
mang lại những thông tin có giá trị cho nha sĩ trong quá trình phân tích các thông
ảnh nha khoa nhƣ cấu trúc ảnh, màu sắc, hình dáng trong quá trình phân đoạn gồm
phƣơng pháp lấy ngƣỡng [21], [27], phƣơng pháp phân cụm [70]. Tuy nhiên, trong
nghiên cứu này, chƣa có kết quả nào của phân cụm bán giám sát mờ đƣợc áp dụng
cho các ảnh X-quang nói chung và ảnh X-quang nha khoa nói riêng. Các nghiên
cứu trƣớc cũng đã sử dụng phân cụm mờ cùng với các đặc trƣng của ảnh nha khoa
nhƣng chƣa khai thác thông tin không gian của ảnh.
Nội dung nghiên cứu chính của luận án tập trung vào việc đề xuất, cải tiến
các kỹ thuật phân đoạn ảnh bằng thuật toán phân cụm bán giám sát mờ. Trong quá
trình phân đoạn ảnh nha khoa, các kỹ thuật phân cụm mờ (FCM) [10], phân cụm
bán giám sát mờ (eSFCM) [67] và kỹ thuật tách ngƣỡng Otsu [43] là các kỹ thuật
2
cơ bản làm tiền đề cho các phƣơng pháp mới đƣợc đề xuất trong luận án. Trong
các phƣơng pháp mới trình bày trong luận án, thông tin bổ trợ đƣợc xác định là ma
trận độ thuộc của thuật toán phân cụm mờ FCM kết hợp với các thông tin đặc
trƣng của ảnh nha khoa. Đây là một cách tiếp cận mới mà các phƣơng pháp trƣớc
đó chƣa đề cập đến. Đồng thời, luận án trình bày một số cách xác định thông tin bổ
trợ phù hợp ứng với từng đối tƣợng đầu vào khác nhau. Từ đó thực hiện việc cài
đặt và đánh giá các đề xuất trên máy tính.
Mục tiêu nghiên cứu:
Nghiên cứu các thuật toán phân cụm bán giám sát mờ vào phân đoạn ảnh.
Phát triển các nghiên cứu đề xuất cải tiến các phƣơng pháp phân cụm bán giám sát
mờ cho phân đoạn ảnh nha khoa. Các thuật toán cải tiến đƣợc đề xuất dựa trên
các thông tin không gian đặc trƣng của ảnh nha khoa nhằm mục đích nâng cao
chất lƣợng phân cụm của các thuật toán phân cụm bán giám sát mờ áp dụng với
bài toán phân đoạn ảnh nha khoa.
Với mục tiêu nghiên cứu ở trên luận án đã thu đƣợc một số đóng góp
mới nhƣ sau:
cụm bán giám sát mờ, từ đó lựa chọn hàm thông tin bổ trợ phù hợp với từng ảnh
đầu vào để chất lƣợng cụm đƣợc tốt hơn.
Cài đặt thực nghiệm các thuật toán cải tiến dựa trên thu thập và phân
tích dữ liệu ảnh về các mẫu bệnh nha khoa. Ứng dụng phân đoạn ảnh trong hệ hỗ
trợ chẩn đoán nha khoa.
Ngoài phần phần mở đầu và kết luận, luận án đƣợc cấu trúc thành ba chƣơng:
Chƣơng 1 trình bày về tổng quan về phân cụm bán giám sát mờ trong bài
toán phân đoạn ảnh. Đồng thời trình bày các lý thuyết cơ sở sử dụng trong quá
trình học tập và nghiên cứu. Thông qua chƣơng này, luận án đƣa ra đƣợc cái nhìn
tổng quan về bài toán nghiên cứu, các khái niệm và thuật toán cơ bản sử dụng
trong nghiên cứu của luận án.
Các đóng góp chính của luận án lần lƣợt đƣợc trình bày trong chƣơng 2,
chƣơng 3.
Chƣơng 2 trình bày kết quả nghiên cứu các phƣơng pháp phân cụm bán giám
sát mờ sử dụng cho phân đoạn ảnh nha khoa. Chƣơng này trình bày về phân cụm
bán giám sát mờ lai ghép. Đặc biệt luận án còn trình bày đề xuất phát triển của phân
cụm bán giám mờ có sử dụng thông tin đặc trƣng không gian và áp dụng phƣơng
pháp nhân tử Lagrange và thỏa dụng mờ giải bài toán tối ƣu đa mục tiêu. Đồng thời,
trong chƣơng 2, luận án xây dựng cách xác định thông tin bổ trợ phù hợp từng ảnh
đầu vào để có đƣợc kết quả phù hợp nhất.
Chƣơng 3 trình bày các kết quả thực nghiệm thu đƣợc khi cài đặt các thuật
toán phân cụm bán giám sát mờ đề xuất ở chƣơng 2 trên bộ dữ liệu ảnh X-quang
nha khoa. Trong đó có trình bày về dữ liệu sử dụng và các tiêu chí đánh giá thông
qua các độ đo. Các kết quả này đƣợc sử dụng để đánh giá hiệu năng của các thuật
toán đề xuất và so sánh với các thuật toán khác đã đƣợc nghiên cứu gần đây đối với
4
Hình 1.1. Ảnh phân đoạn
(a) Ảnh X-quang nha khoa; (b) Ảnh phân đoạn.
6
Kết quả của phân đoạn ảnh là một tập các phân đoạn mà nó bao trùm toàn
bộ ảnh. Mỗi một điểm ảnh trong một phân đoạn là tƣơng đồng nhau về một số
thuộc tính hoặc tính chất tính toán, ví dụ nhƣ màu sắc, cƣờng độ hoặc cách cấu tạo,
v.v. Việc áp dụng với ảnh phân đoạn nha khoa ngƣời ta có thể xây dựng lên các
ứng dụng nhƣ: hỗ trợ việc thu thập thông tin trong chẩn đoán bệnh nha khoa của
bác sỹ, các đƣờng mức thu đƣợc sau khi phân đoạn ảnh có thể đƣợc sử dụng để tạo
dựng thành 3D với sự giúp đỡ của các thuật toán nội suy để từ đó các bác sĩ có thể
nắn chỉnh lại răng sao cho phù hợp v.v.
1.1.2. Ảnh X-quang nha khoa
Cơ quan của răng bao gồm răng và nha chu quanh răng là đơn vị hình thái
và chức năng của bộ răng. Răng là bộ phận trực tiếp nhai nghiền thức ăn, nha chu
là bộ phận giữ và nâng đỡ răng đồng thời là bộ phận nhận cảm, tiếp nhận và dẫn
truyền lực nhai. Răng gồm men, ngà (mô cứng) và tủy (mô mềm). Nha chu gồm
xƣơng chân răng, men chân răng, dây chằng, xƣơng ổ răng, nƣớu (lợi), xƣơng. Bộ
răng là một thể thống nhất thuộc hệ thống nhai tạo thành bởi sự sắp xếp có tổ chức
của các cơ quan răng [2].
Mỗi răng có phần thân răng và chân răng. Giữa thân răng và chân răng là
đƣờng cổ răng hay cổ răng giải phẫu là một đƣờng cong. Thân răng đƣợc bao bọc
bởi men răng, chân răng đƣợc men chân răng bao phủ.
Nƣớu răng viền xung quanh cổ răng tạo thành một bờ gọi là cổ răng sinh lý.
Phần răng thấy đƣợc trong miệng là thân răng lâm sàng. Cổ răng sinh lý thay đổi
tùy theo nơi bám và bờ của viền nƣớu, khi tuổi càng cao thì nơi bám này càng có
khuynh hƣớng di chuyển dần về phía chóp răng. Nhiều trƣờng hợp bệnh lý, nƣớu
răng có thể bị sƣng hoặc trụt, làm thân răng bị ngắn lại hoặc dài ra [2].
a) Ảnh cắn cánh. b) Ảnh quanh chóp.
c) Ảnh toàn hàm
Hình 1.2. Một số loại ảnh X – quang nha khoa
8
1.1.3. Nhu cầu và ứng dụng trong y học
Phân đoạn ảnh là giai đoạn đầu tiên trong quá trình xử lý ảnh và đóng vai trò
rất quan trọng [32], [49] trong quá trình này. Khi đó, phân đoạn ảnh nha khoa là
bƣớc xử lý then chốt trong nha khoa nhằm hỗ trợ bác sĩ chẩn đoán một cách hiệu
quả các bệnh về răng nhƣ: viêm chân răng, răng mọc ngầm [55], [56]. Khi đó ứng
dụng đầu tiên của phân đoạn ảnh là hỗ trợ việc chẩn đoán bệnh nha khoa.
Một trong những ứng dụng thú vị của phân đoạn ảnh nha khoa từ hình ảnh
X-quang là giám định pháp y [23], [50], việc giám định pháp y thƣờng sử dụng các
công nghệ khoa học để phân tích (trong đó có phân tích răng) trong việc xác định
con ngƣời, ví dụ: một vụ máy bay rơi sau khi rơi ngƣời ta phải giám định pháp y
để nhận dạng với từng ngƣời trong tất cả những ngƣời đã chết [50]. Khi đó ngƣời
ta xác định thông qua các nhận dạng sinh trắc học, đặc điểm hình dạng nha khoa
còn tồn tại của các nạn nhân (trong trƣờng hợp chết trong một thời gian dài [50]).
Do đó, nó trở nên quan trọng để đƣa ra quyết định xác định hình thái mặt của con
ngƣời dựa trên các đặc tính kích thƣớc răng, khoảng cách giữa các răng và các
mẫu xoang, xƣơng trên mặt v.v. [50]. Bên cạnh việc giám định pháp y, phân đoạn
ảnh nha khoa còn có một số ứng dụng khác: xác định số răng [35], ƣớc lƣợng tuổi
nha khoa [65], phân đoạn ảnh nha khoa có thể phân tích các mảng bám răng [24],
v.v.
1.2. Tổng quan về các nghiên cứu liên quan
Phân đoạn ảnh là giai đoạn đầu tiên trong quá trình xử lý ảnh và đóng vai trò
10
Các phƣơng pháp phân đoạn ảnh
Dựa trên điểm ảnh
Lấy ngƣỡng
Phân cụm
Dựa trên biên
Dựa trên vùng
Phát hiện biên
Xây dựng
vùng
Otsu
K-Means
Kỹ thuật
Gradient
Phân tách/
Kết hợp
11
lựa chọn các tham số và phát hiện biên giữa các cụm [12], [38], [39], [53]. Điều
này đặt ra các động lực của việc cải tiến các phƣơng pháp phân đoạn ảnh để đạt
đƣợc hiệu suất tốt hơn.
Các nghiên cứu trƣớc đây [6], [66] cho thấy rằng nếu có thêm thông tin bổ
sung kết hợp với quá trình phân cụm thì chất lƣợng phân cụm đƣợc tăng cƣờng.
Việc nghiên cứu đề xuất các phƣơng pháp phân cụm bán giám sát mờ với các
thông tin bổ trợ là một trong ba loại [69]: các ràng buộc Must-link và Cannot-link,
các nhãn lớp của một phần dữ liệu, độ thuộc đƣợc xác định trƣớc. Ví dụ, nếu
chúng ta biết rằng một điểm ảnh đại diện cho một vùng tƣơng ứng là răng thì ta
gán nhãn cho điểm ảnh vào lớp răng, các điểm ảnh khác trong ảnh X-quang nha
khoa đƣợc phân cụm cùng với sự hỗ trợ của các điểm ảnh đã biết. Thông tin về
điểm ảnh đã biết làm cho kết quả phân đoạn ảnh chính xác hơn. Trong các thuật
toán phân cụm bán giám sát mờ đƣợc đề xuất trong luận án, thông tin bổ trợ đƣợc
sử dụng là ma trận độ thuộc đƣợc xác định trƣớc (cách xác định đƣợc thực hiện chi
tiết cho từng phƣơng pháp trình bày trong chƣơng 2). Đối với thông tin này, các
thuật toán phân cụm bán giám sát mờ (SSSFC) [66], thuật toán phân cụm bán giám
sát mờ sử dụng Entropy (eSFCM) [67] có hiệu quả hơn so với thuật toán phân cụm
mờ FCM.
Một ảnh X-quang đầu vào có thể chỉ ra một số bệnh về răng chứ không phải
một bệnh duy nhất. Nếu việc chẩn đoán đƣợc thực hiện trên từng vùng của ảnh
càng chi tiết thì kết quả chẩn đoán cho toàn bộ ảnh càng chính xác. Mục tiêu của
phân đoạn từ một hình ảnh X-quang nha khoa là tạo ra nhiều phân đoạn khác nhau
từ một ảnh đầu vào sao cho các điểm ảnh trong một phân đoạn có sự tƣơng đồng
cao hơn so với các phân đoạn khác. Những ảnh X-quang nha khoa có thể đƣợc
phân loại theo từng vùng khác nhau cụ thể là vùng nền và vùng cấu trúc răng hoặc
vùng có bệnh và vùng không có bệnh [70]. Những vùng này sau đó đƣợc so sánh
với các mẫu bệnh bằng một phƣơng pháp tìm kiếm nhanh để xác định hình ảnh
13