ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
TRẦN MAI VŨ
NGHIÊN CỨU NHẬN DẠNG THỰC THỂ CÓ TÊN
VÀ THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN VÀ ỨNG DỤNG
LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội – 2018
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
TRẦN MAI VŨ
NGHIÊN CỨU NHẬN DẠNG THỰC THỂ CÓ TÊN
VÀ THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN VÀ ỨNG DỤNG
Chuyên ngành: Hệ thống thông tin
Mã số: 62.48.05.01
LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS. Hà Quang Thụy
2. PGS.TS. Nguyễn Lê Minh
Hà Nội – 2018
Tác giả
Trần Mai Vũ
2
MỤC LỤC
LỜI CAM ĐOAN
1
LỜI CẢM ƠN
2
MỤC LỤC
3
DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT
7
DANH MỤC CÁC BẢNG
8
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
1.1.2. Thách thức
19
1.1.3. Độ đo đánh giá
19
1.1.4. Ứng dụng của nhận dạng thực thể
21
1.2. Sơ lược về lịch sử nghiên cứu và một số hướng giải quyết bài toán
22
1.3. Nhận dạng thực thể trong dữ liệu văn bản tiếng Việt và một số nghiên cứu
liên quan
24
1.3.1. Những thách thức đối với xử lý dữ liệu tiếng Việt
24
1.3.2. Động cơ nghiên cứu
26
1.3.3. Các nghiên cứu liên quan
36
2.1. Giới thiệu
36
2.2. Các nghiên cứu liên quan
38
2.2.1. Các nghiên cứu liên quan trên thế giới
38
2.2.2. Các nghiên cứu liên quan ở Việt Nam
39
2.3. Một mô hình giải quyết bài toán nhận dạng thực thể tên người kết hợp với
nhận dạng thuộc tính thực thể
40
2.3.1. Mô hình Entropy cực đại giải mã bằng tìm kiếm chùm (MEM+BS)
40
2.3.2. Phương pháp trường ngẫu nhiên có điều kiện (CRF)
41
52
2.5.2. Đặc trưng câu hỏi liên quan đến thực thể tên người trong tiếng Việt
53
2.5.3. Mô hình đề xuất
55
2.5.4. Phương pháp và dữ liệu đánh giá mô hình hỏi đáp tự động
61
2.5.6. Thực nghiệm và đánh giá
61
2.6. Tổng kết chương
64
Chương 3 – NHẬN DẠNG THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN Y SINH
TIẾNG ANH
66
3.1. Giới thiệu
3.2.3. Mô hình đề xuất
82
3.2.4. Tập đặc trưng và đánh giá đặc trưng
84
3.2.5. Phương pháp đánh giá
88
3.3. Thực nghiệm
89
3.3.1. Thực nghiệm 1: đánh giá hiệu quả của mô hình đề xuất với các kỹ
thuật học máy khác nhau
89
3.3.2. Thực nghiệm 2: so sánh kết quả của mô hình đề xuất với một số
nghiên cứu liên quan
90
3.3.3. Thực nghiệm 3: đánh giá đóng góp của từng tài nguyên đối với kết
quả nhận diện thực thể
94
105
4.2.2 Phương pháp lai ghép sử dụng học máy gán nhãn chuỗi
108
4.2.3 Phương pháp lai ghép sử dụng học xếp hạng
109
5
4.3. Thực nghiệm và đánh giá kết quả
111
4.3.1. Phương pháp đánh giá
111
4.3.2 Thực nghiệm đánh giá hiệu quả của từng phương pháp lai ghép
112
4.3.3 Thực nghiệm kiểm thử tin cậy trong quá trình đánh giá hiệu quả của
các tài nguyên
114
Tiếng Việt
NER
Named Entity Recognition
Nhận dạng thực thể định
danh
NLP
Natural Language Processing
Xử lý ngôn ngữ tự nhiên
BioNLP
Biomedical Natural Language Xử lý ngôn ngữ tự nhiên cho
Processing
dữ liệu y sinh
IE
Information Extraction
Trích xuất thông tin
CRF
Conditional Random Fields
7
DANH MỤC CÁC BẢNG
Bảng 2.1. Một ví dụ về trích chọn thực thể tên người và các thuộc tính liên quan
37
Bảng 2.2. Các nhãn được sử dụng trong mô hình
43
Bảng 2.3. Tập đặc trưng được sử dụng
46
Bảng 2.4. Thống kê thực thể trong tập dữ liệu được gán nhãn
48
Bảng 2.5. Kết quả đánh giá toàn hệ thống trên hai mô hình với hai phương pháp
MEM+BS và CRF
49
Bảng 2.6. Kết quả thực nghiệm đối với từng nhãn
51
Bảng 2.7. Ví dụ về một số thành phần câu hỏi
80
Bảng 3.3. Các đặc trưng sử dụng trong thực nghiệm
84
Bảng 3.4. Thực nghiệm so sánh các phương pháp học máy khác nhau
90
Bảng 3.5. Thực nghiệm so sánh mô hình đề xuất và các hệ thống khác
92
Bảng 3.6. Kết quả đánh giá tài nguyên của mô hình nhận dạng thực thể
94
Bảng 3.7. Thống kê trên ba tập dữ liệu của nhiệm vụ CDR [WPL15]
96
Bảng 3.8. Kết quả mô hình nhận dạng trên tập dữ liệu kiểm thử
96
Bảng 3.9. Kết quả F1 của hệ thống NER sử dụng phương pháp thực nghiệm 1-6.
99
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 0.1. Thống kê các công trình nghiên cứu liên quan đến cụm từ “named entity
recognition” trên Springer từ 2002 - tháng 11/2017
11
Hình 0.2. Biểu đồ phân bố các công trình đã công bố của nghiên cứu sinh tương ứng
với các chương của luận án
16
Hình 1.1. Mô tả các độ đo độ chính xác, độ hồi tưởng và độ đo F1
20
Hình 1.2. Các nhiệm vụ về xử lý ngôn ngữ tự nhiên cho văn bản y sinh trong giai
đoạn 2002-2014 [HL15]
31
Hình 2.1. Đồ thị vô hướng mô tả CRF
41
Hình 2.2. Một ví dụ về câu được gán nhãn
44
Hình 2.3. Mô hình tích hợp NER và trích chọn thuộc tính của thực thể tên người
Hình 4.4. Nhập nhằng và không nhập nhằng
107
Hình 4.5. Mô hình hệ thống sử dụng MEM + BS để quyết định kết quả
108
Hình 4.6. Mô hình hệ thống sử dụng SVM-LTR để quyết định kết quả
110
10
MỞ ĐẦU
Lý do chọn đề tài
Nhận dạng thực thể có tên (Named entity recognition: NER; còn được gọi là
“nhận dạng thực thể định danh”) là một bài toán chính thuộc lĩnh vực xử lý ngôn
ngữ tự nhiên (NLP). Đây là một bài toán tiền đề cho các hệ thống về hiểu ngôn ngữ
hay khai phá dữ liệu văn bản như trích xuất sự kiện, hỏi đáp tự động hay tìm kiếm
ngữ nghĩa. Chính vì vậy, cùng với sự phát triển của dữ liệu văn bản trên Internet,
bài toán này cũng nhận được sự quan tâm của cộng đồng nghiên cứu trong khoảng
20 năm trở lại đây.
Số công trình xuất bản
Named Entity Recognition
450
400
382
357
268
145
61
2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
Năm
Hình 0.1. Thống kê các công trình nghiên cứu liên quan đến cụm từ “named entity
recognition” trên Springer từ 2002 - tháng 11/2017
Kết quả trả lời của trang web tìm kiếm của Springer với truy vấn “Named
entity recognition” theo cách chính xác cụm từ (“with the exact phrase”) 1 cho thấy
từ năm 2002 đến nay có trên 3500 công trình liên quan, với trên 1800 công trình
công bố trong 5 năm gần đây từ 2013 đến 2017 (khoảng 350 công trình/năm) như
chỉ ra ở Hình 0.1. Không chỉ nhiều về số lượng, các nghiên cứu về NER cũng xuất
1
/>te-facet-mode=between&facet-start-year=1998&showAll=true#
11
hiện thường xuyên tại các hội nghị thường niên hàng đầu về NLP như ACL,
EMNLP, NAACL,… hay các tạp chí danh tiếng có chỉ số IF (impact factor) cao
như PLOS ONE, Bioinformatics, TKDE, TACL,…
12
hướng ứng dụng điển hình của các mô hình nhận dạng thực thể tiếng Việt, cụ
thể ở đây là bài toán hỏi đáp tự động cho tiếng Việt.
Giải quyết bài toán nhận dạng thực thể cho dữ liệu y sinh (tiếng Anh).
Số lượng dữ liệu y sinh dưới dạng điện tử đang tăng với tốc độ cao tạo nên
tiềm năng lớn phục vụ cho một loạt các ứng dụng xã hội, đặc biệt là y tế
cộng đồng. Với tiềm năng nói trên và tính chất phức tạp từ đặc thù chuyên
ngành, khai phá dữ liệu y sinh đang là một thách thức lớn đối với các nhà
khoa học trên toàn thế giới. Nắm bắt được xu hướng nghiên cứu này, luận án
khảo sát và đề xuất phương án giải quyết bài toán nhận dạng thực thể trong
văn bản y sinh kết hợp nhiều nguồn tài nguyên tri thức cũng như các kỹ thuật
học máy thống kê. Luận án tập trung vào bài toán nhận dạng thực thể biểu
hiện (phenotype) và các thực thể liên quan như: gene, bệnh, bộ phận cơ
thể,….
Trên cơ sở phân tích công phu các giải pháp tiên tiến trên thế giới, luận án
được định hướng vào việc nghiên cứu phát triển các giải pháp hiệu quả tương thích
với miền dữ liệu có nhiều đặc trưng đặc biệt và xây dựng thực nghiệm đánh giá. Cụ
thể, luận án giải đáp các vấn đề nghiên cứu sau đây:
Khảo sát và đưa ra các phương án xử lý các đặc điểm riêng biệt của với dữ
liệu tiếng Việt và dữ liệu y sinh tiếng Anh.
Đề xuất phương án tiếp cận mới tận dụng được các nghiên cứu tiên tiến trước
đó và tiếp cận giải quyết được những đặc điểm riêng biệt của miền dữ liệu
đang xem xét.
Xây dựng bộ dữ liệu phục vụ cho thực nghiệm.
Xây dựng các thực nghiệm để đánh giá các mô hình giải quyết bài toán đã đề
xuất.
Xây dựng hệ thống chạy thực tế đối với các mô hình đạt kết quả khả quan.
Định hướng phát triển nâng cấp nghiên cứu.
Đối với bài toán nhận dạng thực thể trong văn bản tiếng Việt, luận án tập
trung vào hai vấn đề đó là kết hợp cùng lúc cả nhận dạng thực thể và nhận
dạng thuộc tính thực thể trong cùng một mô hình và kiểm chứng trên tập
dữ liệu đủ tin cậy (10.000 câu gán nhãn). Hơn nữa, nghiên cứu sinh cũng
áp dụng mô hình đề xuất vào bài toán hỏi đáp tự động để kiểm định hiệu
quả thực tế của mô hình.
-
Đối với bài toán nhận dạng thực thể y sinh trong văn bản tiếng Anh, luận
án đưa ra những định nghĩa cụ thể hơn về các khái niệm liên quan đến các
thực thể biểu hiện, xây dựng hai tập dữ liệu đánh giá tin cậy (900 câu gán
14
nhãn mỗi tập) cũng như các thử nghiệm khách quan với các độ đo chuẩn
cho nhận dạng thực thể y sinh.
Luận án là kết quả của việc kết hợp nghiên cứu lý thuyết với nghiên cứu thực
nghiệm, thông qua một quá trình lô-gic từ khảo sát bài toán, nghiên cứu lý thuyết
nền tảng, tiến tới đề xuất giải pháp đối với bài toán, xây dựng thực nghiệm đánh giá
giải pháp được đề xuất, rút ra kết luận và công bố kết quả nghiên cứu.
Về nghiên cứu lý thuyết, luận án tập trung đề xuất một số giải pháp nhận dạng
thực thể cho dữ liệu văn bản tiếng Việt và dữ liệu văn bản y sinh tiếng Anh. Các
giải pháp tập trung vào vấn đề kết hợp các mô hình học máy cũng như các tri thức
nguồn liên quan đến miền dữ liệu nhằm nâng cao hiệu quả đầu ra đối với các bài
toán. Kết quả của các mô hình đạt hiệu quả khả quan có thể áp dụng được trong các
hệ thống chạy thực tế.
Luận án trình bày một cách hệ thống các vấn đề liên quan đến bài toán nhận
thức và dựa trên học máy để nhận dạng thực thể trong văn bản y sinh tiếng Anh.
Phần kết luận tổng hợp các kết quả đạt được cũng như nêu lên một số hạn chế của
luận án và trình bày một số định hướng nghiên cứu trong tương lai.
Dưới đây là danh sách các công trình đã công bố của nghiên cứu sinh liên
quan được sử dụng trong các chương của luận án.
Hình 0.2. Biểu đồ phân bố các công trình đã công bố của nghiên cứu sinh tương
ứng với các chương của luận án
16
Chương 1 - KHÁI QUÁT VỀ NHẬN DẠNG THỰC THỂ
Chương 1 của luận án hệ thống hóa các lý thuyết cơ bản về nhận dạng thực
thể. Chương này được cấu trúc thành bốn phần nội dung chính. Phần 1 trình bày và
phân tích các khái niệm cơ bản và các thuật ngữ cần quan tâm trong lĩnh vực nghiên
cứu, ngoài các định nghĩa, phần này cũng khái quát hóa các độ đo thường được sử
dụng trong nhận dạng thực thể. Phần 2 nêu ra một số hướng tiếp cận giải quyết
chính cũng như một số hướng tiếp cận mới trong nghiên cứu về nhận dạng thực thể.
Các hướng tiếp cận này sẽ được nêu ra trong hai phần, tương ứng với từng loại dữ
liệu là dữ liệu văn bản tiếng Anh và dữ liệu văn bản tiếng Việt. Phần 3 trình bày cụ
thể một số kỹ thuật học máy tiêu biểu thường được sử dụng trong nhận dạng thực
thể cũng như trong các nghiên cứu của luận án. Cuối cùng, phần 4 nêu ra tiềm năng
nghiên cứu và điểm qua một vài ứng dụng nổi bật của nhận dạng thực thể.
1.1.
Một số khái niệm cơ bản
1.1.1. Định nghĩa bài toán nhận dạng thực thể
có thể trở nên hữu ích trong nhiều miền ứng dụng. Việc trích xuất các biểu diễn
ngày tháng, giờ, tiền tệ và tỷ lệ phần trăm, cũng được MUC-6 giới thiệu, thường
cũng được xử lý trong NER, mặc dù nói đúng ra thì các biểu diễn này không phải là
thực thể định danh.
- Nhiệm vụ tại chương trình Automatic Content Extraction (ACE) đưa ra thêm
nhiều loại thực thể mới, các loại thực thể được tổ chức dưới dạng cây phân cấp, chi
tiết hơn MUC6. Ví dụ như kiểu thực thể tên tổ chức (organisation) có các loại con
như tên tổ chức chính phủ, tổ chức giáo dục hay tổ chức thương mại [DMP04].
- Bên cạnh các kiểu thực thể thông thường trong văn bản tin tức, các loại thực
thể liên quan đến y sinh cũng nhận được nhiều sự quan tâm. Hội thảo
BioNLP/JNLPBA 2004 có nhiệm vụ yêu cầu nhận diện thực thể y sinh gene và
protein [KOT04] hay nhiệm vụ Track3-CDR tại hội thảo BioCreative V (2015) yêu
cầu phát hiện thực thể bệnh và thuốc [WPL15].
18
1.1.2. Thách thức
Tuy là một bài toán cơ bản, nhưng nhận dạng thực thể cũng gặp phải không ít
thách thức cần giải quyết do độ phong phú và sự nhập nhằng của ngôn ngữ. Thông
thường thì bài toán này không thể được thực hiện một cách đơn giản nếu chỉ sử
dụng đối sánh chuỗi với các từ điển đã được xây dựng trước vì các thực thể định
danh của một kiểu thực thể thường không phải là một một tập đóng, do đó bất kỳ từ
điển nào cũng sẽ là không đầy đủ. Một lý do khác là loại thực thể định danh có thể
phụ thuộc vào ngữ cảnh. Ví dụ, "JFK" có thể chỉ tới người "John F. Kennedy”, địa
điểm "sân bay quốc tế JFK", hoặc bất kỳ loại nào khác có cùng dạng viết tắt đó.
Tương tự “Sông Lam Nghệ An” có thể là địa điểm chỉ tên một con sông tại tỉnh
Nghệ An hay tên một đội bóng “Sông Lam Nghệ An”. Để xác định loại cho thực thể
"JFK" hay“Sông Lam Nghệ An” xuất hiện trong một tài liệu cụ thể, cần phải xem
xét đến ngữ cảnh chứa nó.
Hình 1.1. Mô tả các độ đo độ chính xác, độ hồi tưởng và độ đo F1
Trong nhận dạng thực thể, nói một cách chính xác thì một thực thể định danh
được nhận dạng cần phải thỏa mãn hai tiêu chí: Một là xác định đúng biên thực thể
và hai là xác định đúng kiểu thực thể. Hầu hết các đánh giá đòi hỏi việc ánh xạ
chính xác biên thực thể. Tuy nhiên, đôi khi trong một số trường hợp thì việc ánh xạ
một phần cũng được chấp nhận, ví dụ khi mục tiêu chỉ là xác định liệu thực thể nào
đó có được nhắc đến trong văn bản hay câu hay không [TWC06].
20
1.1.4. Ứng dụng của nhận dạng thực thể
Nhận dạng thực thể là một bài toán quan trọng, thường được sử dụng như là
một bước tiền xử lý trong các hệ thống trích xuất thông hay trích chọn thông tin
phức tạp. Có thể kể đến nhận dạng thực thể xuất hiện trong một số các ứng dụng
sau:
Trích xuất quan hệ là bài toán nhận diện các mối quan hệ ngữ nghĩa giữa hai
thực thể hay giữa một thực thể và một khái niệm [GLR06], ví dụ như mối
quan hệ người-nơi làm việc (Ronaldo, Real Madrid) hay quan hệ nơi sinh
(Hồ Chí Minh, Nghệ An). Trong bài toán này, bài toán nhận diện thực thể là
vấn đề đầu tiên cần được giải quyết trước khi trích xuất quan hệ.
Trích xuất sự kiện là bài toán phức tạp hơn trích xuất quan hệ khi sự kiện là
một tổ hợp của nhiều yếu tố thể hiện các thông tin biểu diễn về ai/cái gì đã
làm gì, với ai/cái gì, bao giờ, ở đâu, bằng cách nào và tại sao. Các sự kiện có
thể là một sự kiện trong thế giới thực như sự kiện khủng bố, sự kiện tài
chính,… hay cũng có thể là một sự kiện xảy ra của một quá trình tự nhiên
như các sự kiện y sinh liên quan đến biến đổi gene hay gene gây bệnh.
Tương tự như trích xuất quan hệ, trong trích xuất sự kiện vấn đề nhận dạng
thực thể cũng đặt lên hàng đầu khi yêu cầu phải nhận ra đủ và chính xác các
học máy thống kê. Một loạt các mô hình học máy khác nhau đã được đề xuất để giải
quyết bài toán nhận dạng thực thể như mô hình Entropy cực đại (Maximum Entropy
Model, MaxEnt Model) [BPP96], mô hình trường ngẫu nhiên điều kiện
(Conditional Random Field; CRF) [LMP01]. Bên cạnh sử dụng từng phương pháp
riêng biệt để giải quyết bài toán, các phương pháp kết hợp hoặc lai ghép các mô
hình học máy (ensemble models method) để đưa ra kết quả tốt hơn cũng là một
hướng đi đạt được hiệu quả cao, điển hình là nghiên cứu của Florian và cộng sự
(2003) đã đạt được hiệu quả tốt nhất (88,76) tại nhiệm vụ CONLL-2003 [FIJ03].
2
Automatic content extraction (ACE) evaluation. />
3
/>
22
Sau khi các phương pháp học máy đạt được nhiều hiệu quả khả quan đối với
nhận dạng thực thể trong văn bản tiếng Anh thông thường, các nghiên cứu gần đây
đi theo hai hướng chính [AZ12]:
Hướng tiếp tục nâng cấp hiệu quả của phương pháp nhận dạng thực thể bằng
cách đưa thêm các thông tin được sinh ra từ một lượng lớn dữ liệu không có
nhãn, điển hình của hướng đi này là việc áp dụng các kỹ thuật học máy bán
giám sát (semi-supervised) và học máy sâu (deep learning). Ando và Zhang
áp dụng học máy bán giám sát sử dụng 27 triệu từ chưa gán nhãn để nâng
cấp chất lượng nhận dạng [AZ05], Ratinov và Roth cũng sử dụng bán giám
sát với dữ liệu từ Wikipedia kết hợp với các cụm từ vựng (word clusters)
được sinh ra bằng phương pháp gom cụm Brown [RR09]. Kết quả của hai
nhóm đều đạt cao hơn mô hình của Florian và cộng sự (2003) với các độ đo