ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Nguyễn Thanh Hiên
PHÂN GIẢI NHẬP NHẰNG THỰC THỂ CÓ TÊN
DỰA TRÊN CÁC ONTOLOGY ĐÓNG VÀ MỞ
Chuyên ngành: Khoa học Máy tính
Mã số: 62.48.01.01
LUẬN ÁN TIẾN SĨ KỸ THUẬT
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. CAO HOÀNG TRỤ
TP. HCM - NĂM 2010
i
LỜI CAM ĐOAN
Tôi cam đoan rằng nội dung của luận án này là kết quả nghiên cứu của bản thân. Tất
cả những tham khảo từ các nghiên cứu liên quan điều được nêu rõ nguồn gốc một cách rõ
điều kiện để tôi hoàn thành tốt công việc của mình, và sự dạy dỗ của quí thầy cô đã giúp
tôi trưởng thành. Xin chân thành cảm ơn quí thầy cô trong Khoa Khoa học và Kỹ thuật
máy tính. Tôi cũng chân thành cả
m ơn sự hỗ trợ và giúp đỡ nhiệt thành của Phòng Quản lý
Sau Đại học, Trường Đại học Bách Khoa Tp. HCM trong thời gian tôi thực hiện luận án
này. Cảm ơn Ban giám hiệu Trường Đại học Bách Khoa Tp. HCM, Phòng Khoa học Công
nghệ & Dự án đã xét duyệt cho tôi thực hiện đề tài nghiên cứu cấp trường, hỗ trợ tài chính
để trang trải một phần kinh phí học tập và nghiên cứu của tôi trong thời gian qua.
Tôi chân thành cảm ơn Tiến sĩ Lê Vinh Danh, Hiệu trưởng Trường Đại học Tôn Đức
Thắng, đã động viên và tạo mọi điều kiện thuận lợi cho tôi hoàn thành luận án này. Cảm
ơn các anh chị trong Phòng Điện toán và Thông tin tư liệu, Trường Đại học Tôn Đức
Thắng, đã nhiệt tình giúp đỡ tôi trong thời gian vừa qua.
Cuối cùng, chân thành cảm ơn người thân, bạn bè luôn bên cạnh động viên, hỗ trợ về
mặt tinh thần để tôi vượt qua khó khăn và hoàn thành tốt luận án.
iii
TÓM TẮT
Thực thể có tên là những thực thể có thể được tham khảo đến bằng tên riêng, như con
người, tổ chức, hoặc nơi chốn. Phân giải nhập nhằng thực thể có tên là nhằm ánh xạ mỗi
tên trong một văn bản vào một thực thể trong một nguồn tri thức cho trước. Nổi lên gần
đây như là một bài toán đầy thách thức, nhưng có nhiều ý nghĩa trong việc hiện thực hóa
Web có ngữ nghĩa, cũng như phát triển nâng cao các ứng dụng xử lý ngôn ngữ tự nhiên,
phân giải nhập nhằng thực thể có tên đã thu hút sự quan tâm của nhiều nhóm nghiên cứu
khắp thế giới. Luận án đề xuất ba phương pháp cho bài toán này, trong đó nghiên cứu sâu
ba yếu tố quan trọng ảnh hưởng đến hiệu quả phân giải nhập nhằng là các nguồn tri thức sử
dụng, đặc trưng biểu diễn thực thể, và mô hình phân giải nhập nhằng.
Các nguồn tri thức được khai thác là các ontology đóng và Wikipedia. Các ontology
đóng được xây dựng bởi các chuyên gia theo hướng tiếp cận từ trên xuống, với các khái
niệm có quan hệ thứ bậc dựa trên một tập từ vựng có kiểm soát và các ràng buộc chặt chẽ.
Wikipedia, xem như một ontology mở, được xây dựng bởi những người tình nguyện theo
based on a controlled vocabulary and strict constraints. Wikipedia, considered as an open
ontology, is built by volunteers following a bottom-up approach, with concepts formed by
a free vocabulary and community agreements. The investigated features are entity names,
identifiers of resolved entities, and words together with phrases surrounding a target name
and surrounding names that are coreferential with that target name. Besides, the thesis ex-
ploits occurrence positions and lengths of names, and main alias of entities. This thesis
proposes three models corresponding to the three above-mentioned methods: (i) a heuris-
tic-based model; (ii) a statistical model; and (iii) a hybrid model, combining heuristics and
statistics.
The common novelty of the proposed methods is disambiguating named entities itera-
tively and incrementally, including several iterative steps. Those named entities that are
resolved in each iterative step will be used to disambiguate the remaining ones in the next
iterative steps. Experiments are conducted to evaluate and show the advantages of the pro-
posed methods. Besides, this thesis deals with the cases when entity names in text are par-
tially recognized and entities referred to in text are outside an employed knowledge source,
as well as proposes new corresponding disambiguation performance measures.
v
MỤC LỤC
Lời cam đoan ............................................................................................................................ i
Lời cảm ơn ............................................................................................................................... ii
Tóm tắt .................................................................................................................................... iii
Abstract................................................................................................................................... iv
Mục lục..................................................................................................................................... v
Chương 2: NỀN TẢNG KIẾN THỨC ................................................................................ 28
2.1
Giới thiệu ................................................................................................................ 28
2.2
Ontology ................................................................................................................. 29
2.3
Wikipedia ................................................................................................................ 36
2.4
Mô hình không gian véctơ ...................................................................................... 45
2.5
Nhận dạng thực thể có tên ...................................................................................... 46
2.6
Phân giải đồng tham chiếu trong một văn bản........................................................ 51
2.7
Phân giải nhập nhằng .............................................................................................. 59
Chương 4: PHÂN GIẢI NHẬP NHẰNG DỰA TRÊN ONTOLOGY ĐƯỢC LÀM
GIÀU ...................................................................................................................................... 93
4.1
Giới thiệu ................................................................................................................ 93
4.2
Mô hình phân hạng ứng viên dựa trên thống kê ..................................................... 95
4.3
Làm giàu ontology ................................................................................................ 106
4.4
Thí nghiệm và đánh giá ........................................................................................ 110
4.5
Kết luận ................................................................................................................. 111
Chương 5: PHÂN GIẢI NHẬP NHẰNG DỰA TRÊN WIKIPEDIA ............................ 113
5.1
Giới thiệu .............................................................................................................. 113
5.2
Wikipedia ......................................................................................................... 45
Bảng 2.2: Các loại trả lời để đánh giá một hệ thống nhận dạng thực thể có tên ............... 49
Bảng 2.3: Kết quả phân giải đồng tham chiếu tên riêng tiếng Việt .................................. 59
Bảng 2.4: Minh họa tập dữ liệu huấn luyện của Bunescu và Paşca (2006) ...................... 66
Bảng 2.5: Minh họa đánh giá hiệu quả phân giải nhập nhằng của một phương pháp
phân giải nhập nhằng các vùng địa lý (Leidner, 2007). ................................... 71
Bảng 3.1: Định nghĩa một ánh xạ là đúng hoặc sai cho một tên trong văn bản ................ 82
Bảng 3.2: Minh hoạ cách tính độ chính xác, độ đầy đủ và độ F ánh xạ ........................... 84
Bảng 3.3: Số lần xuất hiện của (“Georgia”, Location) trong tập dữ liệu D
e1
.................... 85
Bảng 3.4: Số lần xuất hiện của (“Smith”, Person) trong tập dữ liệu D
e1
.......................... 86
Bảng 3.5: Kết quả phân giải nhập nhằng cho (“Georgia”, Location) ............................... 86
Bảng 3.6: Kết quả phân giải nhập nhằng cho (“Smith”, Person) ...................................... 87
Bảng 3.7: Kết quả phân giải nhập nhằng của OntoNEON trên tập D
v
sử dụng
Bảng 4.6: Thống kê lỗi khi không sử dụng và sử dụng định danh của các thực thể như
các đặc trưng. ................................................................................................. 106
Bảng 4.7: Thông tin về số lần xuất hiện của các tên đề cập đến các thực thể có một
trong hai tên “Georgia”, hoặc “Columbia” và số lượng ánh xạ được thực
hiện bởi phương pháp NOW. ......................................................................... 110
Bảng 4.8: Kết quả thực hiện phân giải nhập nhằng của NOW trên tập dữ liệu với
“Georgia” và “Columbia”. ............................................................................. 111
Bảng 5.1: Thông tin về sự xuất hiện của các tên trong tập dữ liệu D
e3
............................ 126
Bảng 5.2: Thông tin về sự xuất hiện của các tên trong tập dữ liệu D
e31
.......................... 127
Bảng 5.3: Độ chính xác và độ đầy đủ ánh xạ sau khi thực thi Giải thuật 5.1 trên tập dữ
liệu D
e32
.......................................................................................................... 128
Bảng 5.4: Độ chính xác và độ đầy đủ ánh xạ sau khi thực thi Giải thuật 5.1 trên tập dữ
liệu D
e31
.......................................................................................................... 129
Hình 2.11: Minh họa một phần trang phân giải nhập nhằng cho tên “John McCarthy” .... 42
Hình 2.12: Luật nhận biết tên người bằng tiếng Anh được viết đảo ngược của GATE ..... 49
Hình 2.13: Minh họa các chuỗi đồng tham chiếu ............................................................... 51
Hình 5.1: Minh họa các đặc trưng rút trích được từ một đoạn văn bản mẫu ................... 117
Hình 5.2: Một phần trang phân giải nhập nhằng của tên “Atlanta”. ................................ 120
x
DANH MỤC CÁC GIẢI THUẬT
Giải thuật 1.1: Phân giải nhập nhằng lặp cải thiện dần ...................................................... 19
Giải thuật 2.1: Phân giải đồng tham chiếu tên tiếng Việt .................................................. 57
Giải thuật 3.1: Phân giải nhập nhằng dựa trên ontology (OntoNEON) ............................. 79
Giải thuật 4.1: Phân hạng ứng viên dựa trên thống kê ....................................................... 99
Giải thuật 4.2: Phân giải nhập nhằng lặp cải thiện dần dựa trên thống kê (NOW) ......... 100
Giải thuật 4.3: Làm giàu thông tin mô tả một thực thể trong một ontology ................ 109
MP Mapping-Precision Độ chính xác ánh xạ
MR Mapping-Recall Độ đầy đủ ánh xạ
MF Mapping-F-Measure Độ F ánh xạ
EN Entity Name Tên thực thể
LW Local Word Từ cục bộ
CW Coreferential Word Từ đồng tham chiếu
ID Identifier Định danh thực thể
ET Title of Entity page Nhan đề trang thực thể
RT Title of Redirect page Nhan đề trang đổi hướng
CL Category Label Nhãn thể loại
OL Outgoing link label Nhãn liên kết ra
IL Ingoing link label Nhãn liên kết vào
1Chương 1
GIỚI THIỆU
1.1 Lịch sử và động cơ nghiên cứu
Internet ngày nay đã trở thành một trong những kênh lưu trữ và truyền tải thông tin lớn
nhất của nhân loại. Sự ra đời và phát triển nhanh chóng của World Wide Web (gọi tắt là
Web) đã tạo điều kiện thuận lợi cho việc phân phối và chia sẻ thông tin trên Internet, do đó
dẫn đến bùng nổ thông tin cả về số lượng, chất lượng và các chủ đề thông tin trên đó. Tuy
nhiên, đa phần nội dung thông tin trên các trang web đều được thể hiện dưới dạng ngôn
ngữ tự nhiên và được định dạng theo ngôn ngữ HTML, một ngôn ngữ thiếu khả năng diễn
đạt ngữ nghĩa về các khái niệm và các đối tượng được trình bày trong các trang web. Do
vậy, phần lớn nội dung thông tin trên các trang web hiện nay chỉ phù hợp cho con người
đọc hiểu. Mục tiêu khai thác hiệu quả các nguồn thông tin trên Web đã thúc đẩy sự phát
trở thành đối tượng chính yếu trong việc nghiên cứu phát triển Web có ngữ nghĩa (Berners-
Lee và CS, 2001). Đó là bởi vì các thực thể có tên rất phổ biến trên các trang web. Hơn
nữa, thông tin và ngữ nghĩa được chuyển tải trong nội dung của nhiều trang web tập trung
xoay quanh các thực thể có tên và các mối quan hệ ngữ nghĩa được diễn đạt tường minh
hoặc ngầm định giữa chúng.
Web có ngữ nghĩa (Semantic Web – SW) là Web mà thông tin trên đó không chỉ con
người mới có thể đọc hiểu mà máy tính cũng có thể hiểu và xử lý chúng một cách tự động.
Berners-Lee phác họa SW đầu tiên vào năm 1999 (Berners-Lee, 1999). Berners-Lee và CS
(2001) trong một bài báo trên Scientific American đã mô tả một sự tiến hóa từ Web của
các tài liệu (Web of documents) để con người đọc hiểu, sang Web của dữ liệu (Web of
data) mà thông tin trên đó đã được bổ sung ngữ nghĩa để máy có thể hiểu và thao tác.
Thật vậy, SW là một sự tiến hóa mở rộng của Web hiện tại bằng cách cung cấp các cơ
chế để thêm dữ liệu mô tả ngữ nghĩa (semantic metadata) về các thực thể và các khái niệm
trên các tài liệu web hiện tại, dưới dạng các chú thích ngữ nghĩa (semantic annotation), để
máy tính có thể tích hợp và chia sẻ thông tin và dữ liệu giữa các ứng dụng một cách tự
động. Trên tinh thần đó, xác định các thực thể có tên trên các văn bản và thêm dữ liệu mô 1
2
Chúng tôi dùng CS viết tắt cho cụm các cộng sự
1.1.Lịch sử và động cơ nghiên cứu 3 tả ngữ nghĩa về chúng trên chính các văn bản đó, sử dụng các ontology, hoặc các cơ sở tri
thức (knowledge base – KB), đóng một vai trò quan trọng trong việc đạt được mục tiêu
phát triển web có ngữ nghĩa.
Hướng đến việc hiện thực các ứng dụng web có ngữ nghĩa, SemTag là một trong
Trực quan cho thấy rằng các trang web được bổ sung dữ liệu mô tả ngữ nghĩa như trên
chưa xuất hiện rộng rãi trên Web hiện tại. Để dữ liệu mô tả đó luôn sẵn sàng trên Web, một
trong những công việc cần thiết là phải xác định đúng các thực thể có tên xuất hiện trên đó.
Nhận dạng thực thể có tên, được biết đến rộng rãi với tên Named Entity Recognition
(NER), là một công việc bước đầu hướng đến mục tiêu đó. Theo MUC-6 (Sixth Message
Understanding Conference – MUC-6, 1995), NER là nhận biết và phân lớp (hoặc xác định
thể loại) các thực thể có tên (ví dụ: con người, tổ chức, nơi chốn), các biểu thức thời gian
(ví dụ: “02/04/2006”, “1-12-97”, “10h:20’”, . . .) và các biểu thức số (ví dụ: 45%, 15m,
25kg, . . .).
Trong hơn một thập niên qua đã có nhiều nghiên cứu về nhận dạng thực thể có tên
(Nadeau và Sekine, 2007). Một số nghiên cứu tập trung vào việc nhận biết và phân lớp các
NE vào các lớp ở mức cao như con người, tổ chức và nơi chốn (Bikel và CS, 1999; Tjong
Kim Sang, 2002; Tjong Kim Sang và De Meulder, 2003). Trong khi đó một số nghiên cứu
khác quan tâm việc nhận biết và phân lớp các thực thể vào các lớp mịn hơn, dựa trên một
hệ thống phân cấp gồm hàng trăm lớp thực thể (Cimiano và Völker, 2005; Nadeau, 2007).
Tuy nhiên, NER chỉ dừng lại ở việc xác định lớp của các thực thể, mà chưa xác định được
định danh cụ thể của các thực thể. Do đó, việc tiến một bước xa hơn nhằm xác định định
danh của các thực thể là thật sự cần thiết và có ý nghĩa, như đã trình bày, trong việc thúc
đẩy sự phát triển Web có ngữ nghĩa và xử lý ngôn ngữ tự nhiên nói chung. Luận án này
giải quyết bài toán Phân giải nhập nhằng thực thể có tên (Named Entity Disambiguation –
NED), nhằm vào mục tiêu đó.
Một thách thức lớn trong th
ực tế là, một thực thể có thể có nhiều tên. Ví dụ, “Ngân
hàng Thương mại Cổ phần Á Châu”, “Ngân hàng Á Châu” và “ACB” là các tên của cùng
một ngân hàng – Ngân hàng Thương mại Cổ phần Á Châu. Hơn nữa, các thực thể khác
nhau có thể trùng tên. Ví dụ, tên “Võ Thị Sáu” cùng là tên của một con người (anh hùng
Võ Thị Sáu), một đường phố ở TP. HCM (đường Võ Thị Sáu), một trường trung học ở TP.
HCM (trường PTTH Võ Thị Sáu, Đinh Tiên Hoàng, phường 3, quận Bình Thạnh, TP. Hồ
rowsky, 2003; Han và CS, 2004; Bekkerman và McCallum, 2005; Chen và Martin, 2007;
Mayfield và CS, 2009; Sarmento và CS, 2009). Bunescu (2007) xem hướng nghiên cứu
này giải quyết bài toán Phân biệt các thực thể có tên (Named Entity Discrimination). Ví
dụ, khi “John Smith” xuất hiện trong các tài liệu khác nhau, một phương pháp theo hướng
này xác định các xuất hiện nào của “John Smith” đề cập đến cùng một thực thể, rồi gom
thành một cụm. Một trường hợp đặc biệt của hướng nghiên cứu này là bài toán Tìm kiếm
con người trên Web (Web People Search - WebPS), với mục tiêu là gom cụm các tài liệu
trong đó có xuất hiện các tên đề cập đến cùng một người thay vì gom cụm chính các tên đó
(Artiles và CS, 2007; Artiles và CS, 2009).
Hướng nghiên cứu thứ hai xem NED như là bài toán ánh xạ (mapping). Chúng tôi gọi
hướng nghiên cứu này theo đúng tên gọi Phân giải nhập nhằng thực thể có tên, với mục
tiêu là ánh xạ một tên xuất hiện trong một văn bản vào một thực thể (đối tượng tham chiếu)
6 Chương 1.Giới thiệu
trong một nguồn tri thức (bên ngoài) nào đó với một định danh duy nhất. Hướng nghiên
cứu này khai thác các thông tin không chỉ trên chính các tài liệu mà còn dựa trên các nguồn
tri thức bên ngoài các tài liệu, ví dụ như Wikipedia, để thực hiện việc phân giải nhập
nhằng (Bunescu và Paşca, 2006; Cucerzan, 2007; Hassell và CS, 2006; Volz và CS, 2007;
Buscaldi và Rosso, 2008; Overell, 2009). Khái niệm bên ngoài này hiểu theo nghĩa là khai
thác tri thức và thông tin không phải được rút trích trên chính các tài liệu. Ví dụ, khi “John
McCarthy” xuất hiện trong một văn bản (đề cập đến khoa học gia máy tính, người phát
minh ra ngôn ngữ lập trình LISP), một phương pháp theo hướng này (Cucerzan, 2007)
thực hiện việc ánh xạ “John McCarthy” vào đúng thực thể John McCarthy (com-
puter scientist) trong Wikipedia - thực thể được mô tả bởi trang có nhan đề “John
McCarthy (computer scientist)”. Luận án này nghiên cứu và đề xuất các phương pháp phân
giải nhập nhằng thực thể có tên theo hướng tiếp cận thứ hai.
Một bài toán liên quan với NED là Liên kết bản ghi (Record Linkage) trong các cơ sở
dữ liệu. Liên kết bản ghi là nhằm xác định các bản ghi trong cùng hoặc nhiều cơ sở dữ liệu
rằng Wikipedia có thể được sử dụng như một nguồn tri thức thay thế cho các từ điển.
Theo chúng tôi, đặc thù của NED so với WSD là:
• Thực thể có tên khác với các từ về bản chất và ý nghĩa. Trong khi các thực thể có
tên, nói một cách nôm na, là các cá thể cụ thể trong thế giới thực, các từ diễn đạt
các khái niệm tổng quát như kiểu, thuộc tính, quan hệ. Xử lý các từ do đó chỉ yêu
cầu ngữ nghĩa từ vựng thông thường, trong khi đó, xử lý các thực thể có tên đòi hỏi
tri thức về một lĩnh vực cụ thể.
• Việc phân giải nhập nhằng ngữ nghĩa của một từ có thể dựa trên ngữ cảnh cục bộ
của từ đó, bao gồm các từ đồng xuất hiện xung quanh nó trong một cửa sổ hẹp
(thường là ba đến năm từ đứng trước và ba đến năm từ đứng sau nó). Trong khi đó,
mỗi thực thể có tên đều có các thuộc tính riêng biệt và các mối quan hệ, được phát
biểu tường minh hoặc không tường minh, với các thực thể khác đồng xuất hiện
trong cùng văn bản. Các tính chất của một thực thể có thể xuất hiện ở một vị trí bất
kỳ trong văn bản, do đó, để phân giải nhập nhằng thực thể có tên trong các văn bản
phi cấu trúc hoặc bán cấu trúc cần phải phân tích ngữ cảnh ở một bình diện rộng
hơn.
• Các phương pháp đề xuất cho WSD chủ yếu tập trung phân giải nhập nhằng ngữ
nghĩa của các từ vựng thông thường (danh từ chung, động từ, tính từ), bỏ qua các
danh từ riêng (hay tên riêng). Trong khi chỉ tồn tại một số lượng nhỏ các nghĩa có 3
(Miller, 1995)
8 Chương 1.Giới thiệu
thể của một từ vựng thông thường, thực tế lại cho thấy rằng có thể có hàng trăm
thực thể trùng tên. Ví dụ, theo Guha và Garg (2004), từ dữ liệu của cục dân số Mỹ,
có 90.000 tên được dùng để đặt tên cho 100 triệu người khác nhau.
không, sau đó ánh xạ tên này vào một tọa độ duy nhất trong một mô hình không gian
(Leidner và CS, 2003) hoặc một định danh xác định duy nhất một vùng địa lý trong một cơ
sở tri thức về các vùng địa lý (Overell, 2009). Các nghiên cứu về phân giải nhập nhằng các
vùng địa lý bắt đầu từ những năm 90 của thế kỷ trước và phổ biến từ đầu thập niên này
(Leidner và CS, 2003; Li và CS, 2003; Zong và CS, 2005; Overell và Rüger, 2006; Volz và
CS, 2007; Andogah và CS, 2008; Buscaldi và Rosso, 2008; Overell và Rüger, 2008).
Các phương pháp phân giải nhập nhằng các vùng địa lý về cơ bản gồm có hai bước.
Bước thứ nhất là thực hiện xác định các tên trong một văn bản đề cập đến một vùng địa lý
nào đó. Ví dụ, xác định liệu “Paris” trong một văn bản đề cập đến một vùng địa lý (ví dụ
như thủ đô nước Pháp) hay một con người (ví dụ như Paris Hilton), vì trong thực tế “Par-
is”
4
có thể được dùng để đề cập đến nhiều thực thể thuộc nhiều thể loại khác nhau. Bước
thứ hai, sau khi đã xác định các tên nào trong văn bản đề cập đến các vùng địa lý, các
phương pháp này thực hiện một bước xa hơn là ánh xạ các tên đã được xác định vào đúng
thực thể trong một mô hình không gian hoặc một cơ sở tri thức về các vùng địa lý. Ví dụ,
sau khi xác định “Paris” đề cập đến một vùng địa lý, các phương pháp này thực hiện một
bước xa hơn là quyết định ánh xạ “Paris” vào Paris thủ đô nước Pháp, hay thành phố Paris
ở bang Texas, Mỹ, hoặc một vùng địa lý khác được mô tả trong Wikipedia. Hai luận án
tiến sĩ gần đây của Leidner (2007) và Overell (2009) đã khái quát đầy đủ các phương pháp
phân giải nhập nhằng các vùng địa lý. Trong đó, phần lớn các phương pháp sử dụng các
heuristic.
Một khảo sát đầy đủ về các phương pháp sử dụng heuristic đến đầu năm 2007 được
trình bày trong Leidner (2007). Các phương pháp phân giải nhập nhằng sử dụng heuristic
hiệu quả nhất khai thác ngữ cảnh gồm ±2 đến ±5 từ xung quanh các tên nhập nhằng. Volz
và CS (2007), Buscaldi và Rosso (2008) cũng đề xuất các heuristic để phân giải nhập
nhằng. Các heuristic áp dụng cho phân giải nhập nhằng các vùng địa lý sử dụng các đặc
trưng mang tính đặc thù chỉ có đối với các vùng địa lý, do vậy khó điều chỉnh cho các thực
không có nhiều thực thể trong ontology của TAP có cùng tên (Kyriakov và CS, 2005), cho
nên việc phân giải nhập nhằng của SemTag là khá đơn giản.
Từ năm 2006 bắt đầu xuất hiện các nghiên cứu phân gi
ải nhập nhằng các thực thể có
tên, không chỉ tập trung vào các thực thể là các nơi chốn, với mật độ chú thích ngữ nghĩa
cao hơn SemTag (Hassell và CS, 2006; Bunescu và Paşca, 2006; Cucerzan, 2007; Fernan-
dez và CS, 2007; Mihalcea và Csomai, 2007; Medelyan và CS, 2008; Milne và Witten,
2008; Fader và CS, 2009; Kulkarni và CS, 2009). Hassell và CS (2006) đề xuất phương
pháp nhận biết chính xác các ủy viên hội đồng phản biện trên các trang web hội nghị khoa
học. Phương pháp của Fernandez và CS (2007) nhận biết các thực thể có tên trên các văn
bản trong lĩnh vực tin tức. Phương pháp này là bán tự động, bởi vì k
ết quả phân giải nhập
nhằng sẽ được hiển thị cho người sử dụng điều chỉnh kết quả nếu cần và cập nhật kết quả
đã được điều chỉnh vào một cơ sở dữ liệu suy diễn phục vụ như là một tập huấn luyện.
1.1.Lịch sử và động cơ nghiên cứu 11 Nổi lên gần đây như là một từ điển bách khoa trực tuyến lớn nhất và được sử dụng
rộng rãi nhất trên Internet, Wikipedia được khai thác để giải quyết nhiều bài toán trong
mảng xử lý ngôn ngữ tự nhiên và xây dựng các ontology (Medelyan và CS, 2009). Chúng
tôi sẽ trình bày chi tiết Wikipedia trong Chương 2, tuy nhiên ở đây chúng tôi khái quát vài
nguồn thông tin quan trọng trên đó mà một số phương pháp phân giải nhập nhằng đã khai
thác. Wikipedia là từ điển bách khoa trực tuyến nội dung mở, được đóng góp bởi hàng
trăm nghìn tình nguyện viên. Thành phần cơ bản của Wikipedia là các trang (page hay ar-
ticle). Có nhiều loại trang trên Wikipedia như trang thực thể (entity page), trang đổi hướng
(redirect page), trang phân giải nhập nhằng (disambiguation page), trang thể loại (catego-
ry page) . . .
Mỗi trang thực thể định nghĩa duy nhất một thực thể hoặc một khái niệm, và được xác
định duy nhất bởi nhan đề (title) của nó. Mỗi trang thực thể thuộc một hoặc nhiều thể loại,
và có các trang đổi hướng tương ứng. Mỗi trang thực thể cũng có nhiều liên kết vào (in-
nghĩa cho việc phân giải nhập nhằng ngữ nghĩa từ vựng hiệu quả. Mihalcea và Csomai
(2007) đã hiện thực và đánh giá hai giải thuật phân giải nhập nhằng từ vựng khác nhau
nhằm ánh xạ các từ khóa, bao gồm cả tên riêng, xuất hiện trong văn bản vào đúng các thực
thể hoặc các khái niệm trong Wikipedia. Các tác giả cho thấy mô hình học có giám sát,
trong đó các trang trong Wikipedia mà các từ khóa xuất hiện trong đó đã được gán nhãn,
được sử dụng như là tập huấn luyện, cho hiệu quả tốt nhất. Medelyan và CS (2008) phát
triển phương pháp phân giải nhập nhằng các từ khóa dựa trên mô hình của Mihalcea và
Csomai, trong đó xác suất tiên nghiệm của các khái niệm trong Wikipedia và các từ khóa
đã được phân giải nhập nhằng được khai thác để phân giải nhập nhằng. Với mỗi ứng viên,
số lượng trùng lắp giữa nhãn các liên kết ra của nó, và các từ khóa đã được xác định trong
văn bản sẽ được tính toán, sau đó nhân với xác suất tiên nghiệm của ứng viên. Ứng viên có
tích số lớn nhất sẽ được chọn. Xác suất tiên nghiệm phản ánh mức độ phổ biến (thông qua
tần suất xuất hiện) của một khái niệm trong tập huấn luyện, được tính toán thông qua tổng
số liên kết vào của chính khái niệm đó trên tổng số liên kết vào của tất cả các ứng viên.
Milne và Witten (2008) mở rộng nghiên cứu của Mihalcea và Csomai (2007) và Me-
delyan và CS (2008) bằng cách khai thác mối quan hệ ngữ nghĩa (semantic relatedness),
được tính toán dựa trên các liên kết vào, của m
ột từ khóa với các từ khóa đã được xác định
xuất hiện xung quanh nó. Ngoài ra, các tác giả cũng khai thác mức độ phổ biến như trong
Medelyan và CS (2008). Kulkarni và CS (2009) đề xuất phương pháp tương tự như Milne
và Witten (2008) với sự khác biệt là các tác giả tối ưu đồng thời các ánh xạ và giải bài toán
NP-khó bằng hai phương pháp tối ưu là qui hoạch nguyên và chiến lược leo đồi. Phương
pháp của Fader và CS (2009) lấy ý tưởng từ Bunescu và Paşca (2006), Cucerzan (2007) và
Medelyan và CS (2008).
Hình 1.1 trình bày m
ột mô hình phân giải nhập nhằng phổ quát cho nhiều phương
pháp phân giải nhập nhằng. Trong đó phần nhận dạng thực thể có tên có thể chỉ dừng lại ở
việc xác định các cụm từ đề cập đến các thực thể trong một ontology, hoặc có phân lớp các
thực thể vào các lớp ở mức cao như con người, tổ chức, nơi chốn, hoặc phân lớp các thực
1.1.Lịch sử và động cơ nghiên cứu 13
Phân giải đồng tham
chiếu tên riêng
Tiền xử lý Phân giải nhập nhằng
Tài liệu với các tên
(thực thể) đã được
chú giải
Luồng xử lý
Nguồn tri thức cung cấp thông tin cho các môđun xử lý
Các ánh xạ đến các thực thể trong nguồn tri thức