ĐẠI HỌC DUY TÂN
TIỂU LUẬN
XỬ LÝ NGÔN NGỮ TỰ NHIÊN
Đề tài:
TÌM HIỂU PHÂN GIẢI ĐỒNG SỞ CHỈ ĐA
SÀNG LỌC
Giảng viên: TS. NGUYỄN THỊ THANH HUYỀN
Học viên : TRẦN ĐÌNH HOÀNG HUY
LÊ ĐÌNH PHÚC
Lớp : K7MCS
Đà Nẵng, 2/2014
Trần Đình Hoàng Huy - Lê Đình Phúc - K7MCS 2
MỤC LỤC
1. LỜI NÓI ĐẦU 3
2. MỤC TIÊU CÔNG CỤ 4
3. PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN 5
4. THỬ NGHIỆM ĐÃ THỰC HIỆN TRÊN CÔNG CỤ 15
5. KẾT LUẬN 18
Trần Đình Hoàng Huy - Lê Đình Phúc - K7MCS 3
1. LỜI NÓI ĐẦU
Nhóm hai học viên: Trần Đình Hoàng Huy và Lê Đình Phúc chọn đề tài “ Tìm
hiểu phân giải đồng sở chỉ đa sàng lọc“ để làm tiểu luận môn học xử lý ngôn ngữ tự
nhiên. Nhóm chọn đề tài này với lý do: bài toán đồng sở chỉ được ứng dụng trong
các xử lý ngôn ngữ tự nhiên như: trích xuất thông tin, hỏi đáp tự động, tóm tắt văn
bản, đây cũng là các chủ đề hiện đang thu hút sự nghiên cứu, tìm hiểu trên thế giới.
Các xử lý ngôn ngữ tự nhiên này có ý nghĩa và khả năng áp dụng thực tiễn rất lớn.
Hai thành viên trong nhóm cũng rất quan tâm và hứng thú với chủ đề này.
Trần Đình Hoàng Huy - Lê Đình Phúc - K7MCS 4
2. MỤC TIÊU CÔNG CỤ
Công cụ này có mục tiêu là xác định quan hệ đồng sở chỉ trong một văn bản.
Quan hệ đồng sở chỉ là quan hệ giữa 2 hay nhiều cụm từ cùng chỉ tới 1 thực thể xác
dựng không gian các đặc trưng một cách chính xác là rất quan trọng.
Cho đến hiện nay, các cách tiếp cận đều sử dụng một hàm mô tả các đặc trưng
và thông tin cục bộ để quyết định hai đề cập là đồng sở chỉ hay không. Cách tiếp cận
này có hai điểm yếu: (1) các đặc trưng ít quan trọng hơn thường áp đảo các đặc
trưng thật sự quan trọng (có số lượng ít) và (2) các thông tin cục bộ thường không
đủ để ra quyết định. Ví dụ:
The second attack occurred after some rocket firings aimed, apparently,
toward [the israelis], apparently in retaliation. [we]’re checking our facts on that
one. the president, quoted by ari fleischer, his spokesman, is saying he’s
Trần Đình Hoàng Huy - Lê Đình Phúc - K7MCS 6
concerned the strike will undermine efforts by palestinian authorities to bring an
end to terrorist attacks and does not contribute to the security of [israel].
Các cách tiếp cận mới nhất đều không chỉ ra được mối quan hệ đồng sở chỉ của
we và israelis vì sự gần gũi và tính tương thích của các thuộc tính (cả we và israelis
là số nhiều). Ngược lại với cách tiếp cận theo hướng sàng lọc, đầu tiên sẽ phân
israelis và israel thành một cụm. Bước phân cụm ban đầu này sẽ rất có vai trò rất
lớn trong việc xử lý chính xác các thực thể chính trị và địa lý.
Để giải quyết vấn đề này, công cụ tiếp cận theo hướng đa sàng không giám sát.
Cách tiếp cận này sử dụng nhiều sàng với độ chính xác từ cao đến thấp. Mỗi tầng sử
dụng nhóm các thực thể được tạo ra bởi các tầng trước đó, điều này đảm bảo các
thuộc tính quan trọng sẽ có độ ưu tiên cao hơn. Ngoài ra, mỗi quyết định đều dựa
trên nhiều thông tin về thuộc tính được chia sẻ xuyên suốt các nhóm từ các tầng
trước đó. Tất cả các thành phần đều hoạt động không giám sát, nghĩa là không cần
chạy pha huấn luyện.
Hướng tiếp cận này có các ưu điểm:
+ Mô hình nhiều sàng chứng minh hiệu quả cao hơn mô hình một sàng.
+ Mô hình chứng minh hiệu quả vượt trội so với các mô hình xác định đồng sở
chỉ không giám sát khác cũng như các mô hình có giám sát được huấn luyện trên
nhiều tập dữ liệu.
+ Mô hình có tính mo-đun rất cao vì vậy có thể dễ dàng mở rộng, thêm vào các
Dưới đây sẽ trình bày cách thức mỗi bước sàng lọc chọn lựa các đề cập ứng cử viên
cũng như hoạt động ở mỗi bước.
3.2.1. Xử lý đề cập (mention processing)
Với một đề cập m
i
, mỗi bước có thể từ chối đưa ra một giải pháp (với mục đích
để các bước sau đó xử lý) hoặc chọn lựa một cách rõ ràng một đề cập trước đó m
1
, ,
m
i-1
. Công cụ sắp xếp các ứng cử viên dựa trên thông tin ngữ nghĩa được cung cấp
bởi bộ phân tích của Stanford như sau:
Trường hợp cùng một câu: các ứng cử viên trong cùng một câu được sắp xếp
theo thuật toán duyệt cây ngữ nghĩa theo chiều rộng, từ trái qua phải (Hobbs, 1977).
Hình 1 là một ví dụ sắp xếp thứ tự ứng viên theo thuật toán sắp xếp này. Các thành
phần ở đầu câu có khuynh hướng có thứ tự đứng trước do ưu tiên từ trái qua phải.
Cách duyệt cây theo chiều rộng cũng làm nổi bật ngữ nghĩa của thành phần đó. Các
cụm danh từ cũng có độ ưu tiên cao và được sắp xếp gần đỉnh của cây phân tích
(Haghighi và Klein, 2009). Nếu câu chứa các đề cập trùng lặp hoặc nhiều mệnh đề,
ta sẽ lặp lại phép heuristic trên mỗi phần tử S*.
Trần Đình Hoàng Huy - Lê Đình Phúc - K7MCS 8
Hình 1: Ví dụ duyệt cây theo chiều rộng từ trái qua phải. Các chữ số chỉ ra thứ
tự các NP được thăm
Trường hợp ở câu trước: với các đề cập danh từ, ta sắp xếp các ứng viên
trong các câu trước sử dụng phép duyệt cây theo chiều rộng từ phải qua trái. Điều
này đảm bảo làm nổi bật ngữ nghĩa cũng như ưu tiên các ứng viên gần. Với các đề
cập là đại từ, ta săp xếp các ứng viên trong các câu trước sử dụng phép duyệt cây từ
trái qua phải nhằm ưu tiên các chủ ngữ. Ví dụ với câu sau thì bằng cách ưu tiên sắp
xếp như trên ta xác định chính xác ứng viên cho pepsi là đề cập they:
được gán cho a group of students và plural gán cho five students, và các đề cập này
Trần Đình Hoàng Huy - Lê Đình Phúc - K7MCS 9
nằm trong cùng một cụm thì thuộc tính số cuối cùng là {singular, plural}. Do đó
cụm này sau đó có thể được trộn với cả các đại từ số ít hoặc số nhiều.
Chọn lựa đề cập: một mô hình đồng sở chỉ thông thường cố gắng giải quyết
mọi đề cập trong văn bản, điều này làm tăng khả năng sai sót. Thay vào đó, trong
mỗi bước sàng lọc của mô hình mới, ta khai thác các thông tin cụm nhận được từ
các giai đoạn trước và chỉ giải quyết các đề cập xuất hiện lần đầu tiên trong cụm
tương ứng. Ví dụ, cho trước một danh sách các đề cập theo thứ tự sau, {m
1
1
, m
2
2
,
m
3
2
, m
4
3
, m
5
1
, m
6
2
, }, các chỉ số ở trên là id của cụm, mô hình mới chỉ cố gắng giải
quyết hai đề cập m
3
1 tóm tắt các chức năng của mỗi tầng, bảng 2 là hiệu suất tích lũy.
3.2.2.1 Tầng 1: kết nối chính xác (exact match)
Tầng này chỉ liên kết hai đề cập khi chúng cùng chứa các đoạn văn bản mở
rộng giống nhau, bao gồm cả các bổ từ và đại từ xác định, ví dụ the Shahab 3
ground-ground missile. Tầng này có độ chính xác lên đến 96%.
3.2.2.2 Tầng 2: cấu trúc chính xác (precise constructs)
Tầng này liên kết hai đề cập nếu một trong các điều kiện dưới đây được thỏa
mãn:
Đồng vị ngữ (appositive): hai đề cập danh từ trong một cấu trúc đồng vị ngữ,
ví dụ, [Israel’s Deputy Defense Minister], [Ephraim Sneh] , said . . . Ta sử dụng các
quy tắc cú pháp tương tự để phát hiện (Haghighi và Klein (2009)).
Tầng Loại Đặc trưng
1 N Kết nối chính xác
2 N, P Đồng vị ngữ | chủ ngữ vị ngữ | vai trò đồng vị ngữ | đại từ quan hệ
| từ viết tắt | hình thức xưng
3 N Kết nối đầu cụm & bao gồm từ & Chỉ có bổ từ tương thích &
không i-trong-i
4 N Kết nối đầu cụm & bao gồm từ & không i-trong-i
5 N Kết nối đầu cụm & Chỉ có bổ từ tương thích & không i-trong-i
6 N Kết nối đầu cụm nới lỏng & bao gồm từ & không i-trong-i
7 P Kết nối đại từ
Bảng 1: Tóm tắt tính năng của mỗi tầng. Cột Loại chỉ ra loại của đồng sở chỉ
trong mỗi tầng: N-danh từ, P-đại từ. & và | chỉ phép hội hoặc tuyển của các chức
năng.
Chủ ngữ vị ngữ (predicate nominative): hai đề cập (danh từ hoặc đại từ) ở
trong một mối quan hệ chủ ngữ-tân ngữ, ví dụ [The New York-based College
Board] is [a nonprofit organization that administers the SATs and promotes higher
education] (Poon và Domingos, 2008).
Vai trò đồng vị ngữ (role appositive): ứng cử viên có phần trước là một danh
từ và xuất hiện như một bổ từ trong một NP, ví dụ [[actress] Rebecca Schaeffer].
Từng đôi
Bao gồm từ (word inclusion): tất cả các từ không dừng (non-stop word) trong
cụm đề cập nằm trong tập hợp các từ không dừng trong cụm của ứng cử viên phía
trước. Sự phỏng đoán này khai thác một tính chất: không bình thường nếu đưa thông
tin mới vào các đề cập sau (Fox, 1993). Thông thường, các đề cập đến cùng một
thực thể trở nên ngắn hơn và ít thông tin hơn so với các tiến trình tường thuật. Ví dụ,
hai đề cập trong. . . intervene in the [Florida Supreme Court]’s move . . . does look
like very dramatic change made by [the Florida court] . . . chỉ đến cùng một thực
thể, nhưng hai đề cập trong văn bản dưới đây thuộc về các cụm khác nhau:
The pilot had confirmed . . . he had turned onto [the correct runway] but pilots
behind him say he turned onto [the wrong runway].
Chỉ có bổ từ tương thích (compatible modifiers only): các bổ từ của đề cập
nằm trong các bổ từ của ứng cử viên đứng trước. Điều này giống với tính chất của
các tính năng trước đó, nhưng nó tập trung vào hai đề cập cá nhân phải được liên kết
chứ không phải là toàn bộ các cụm. Đối với tính năng này, ta chỉ sử dụng bổ từ là
danh từ hay tính từ.
Không i-trong-i (not i-within-i): hai đề cập không phải trong một cấu trúc i-
within-i, tức là, một đề cập không thể là một NP con trong một thành phần NP khác
(Haghighi và Klein, 2009).
Tầng này tiếp tục có độ chính xác cao (91%) và cải thiện đáng kể gọi lại (hơn
6 điểm cặp (pairwise) và khoảng 8 điểm MUC).
3.2.2.4 Tầng 4 và 5: Các biến đổi đầu nghiêm ngặt (Variants of Strict Head)
Tầng 4 và 5 hỗ trợ các đặc trưng kết nối được giới thiệu trong tầng 3. Tầng 4
loại bỏ đặc trưng chỉ có bổ từ tương thích (compatible modifiers only), trong khi
tầng 5 loại bỏ các ràng buộc bao gồm từ (word inclusion). Điều này nói chung làm
tăng độ chính xác. Bảng 2 cho thấy các đặc trưng bao gồm từ chính xác hơn chỉ có
bổ từ tương thích.
3.2.2.5 Tầng 6 – Giảm thiểu kết nối đầu (Relaxed Head Matching)
Tầng này giảm thiểu kết nối đầu cụm bằng cách cho phép đề cập đầu kết nối
với từ nào đó trong cụm của ứng cử viên đi trước. Ví dụ, kết nối đề cập Sanders đến
khi LOCATION không phải là sinh vật sống; và (c) một từ điển từ các trang web (Ji
và Lin, 2009).
Nhãn NER: từ Stanford NER.
Nếu ta không thể phát hiện một giá trị nào đó, ta thiết lập các thuộc tính là
unknown và xử lý như các ký tự đại diện (wildcard), nghĩa là chúng có thể phù hợp
với bất kỳ giá trị nào khác.
Trần Đình Hoàng Huy - Lê Đình Phúc - K7MCS 14
Sau khi chạy qua tất cả các tầng, kết quả đầu ra của hệ thống là các mô tả phân
giải đồng sở chỉ.
Trần Đình Hoàng Huy - Lê Đình Phúc - K7MCS 15
4. THỬ NGHIỆM ĐÃ THỰC HIỆN TRÊN CÔNG CỤ
4.1 Môi trường thử nghiệm
Hệ thống phân giải đồng sở chỉ được tích hợp trong bộ công cụ xử lý ngôn ngữ
tự nhiên của đại học Standford. Thử nghiệm thực hiện trên phiên bản 3.3.1, phát
hành ngày 04/01/2014 có thể tải về tại địa chỉ:
/> Thử nghiệm thực hiện trên máy xách tay cài đặt hệ điều hành Windows 7
Home Premium SP1 64bit. Chip Intel Core i7-2670QM CPU 2.20GHz. Bộ nhớ
RAM 8GB. Máy cài đặt java phiên bản 1.7.0_21.
4.2 Thử nghiệm
File thử nghiệm đầu vào input.txt có nội dung:
Stanford University is located in California. It is a great university, founded in
1891.
Lệnh thực thi thử nghiệm từ cmd:
java -cp stanford-corenlp-3.3.1.jar;stanford-corenlp-3.3.1-models.jar;xom.jar;joda-
time.jar;jollyday.jar;ejml-0.23.jar -Xmx3g
edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators
tokenize,ssplit,pos,lemma,ner,parse,dcoref -file input.txt
Kết quả đầu ra được lưu ở file input.txt.xml định dạng XML với phần nội dung
mô tả phân giải đồng sở chỉ:
<coreference>
</coreference>
</coreference>
Ý nghĩa của các tag:
Tag <coreference> ngoài cùng thông báo bắt đầu một đoạn phân giải đồng sở
chỉ.
Tag <coreference> bên trong mô tả một thực thể (tập hợp các đề cập đồng sở
chỉ) trong đoạn.
Tag <mention> là một danh từ, đại từ, làm nên các phần của đoạn. Thuộc
tính representative=true chỉ khi đó là tên đầy đủ của thực thể.
Mỗi đề cập có một khối <sentence> mô tả câu mà đề cập đó được chứa.
Tag <start>, <end> mô tả vị trí của từ trong câu (bắt đầu từ 1).
Mỗi đề cập có tag <head> mô tả từ nào là từ đầu tiên khi xem xét sự phụ
thuộc.
Trần Đình Hoàng Huy - Lê Đình Phúc - K7MCS 17
Nhận xét: việc xử lý file văn bản ngắn như input.txt sẽ không hiệu quả vì
trước khi bắt đầu xử lý phân giải đồng sở chỉ, công cụ cần khoảng hơn một phút để
nạp các tiền xử lý cần thiết.
Trần Đình Hoàng Huy - Lê Đình Phúc - K7MCS 18
5. KẾT LUẬN
Phân công công việc trong nhóm:
Trần Đình Hoàng Huy: nửa đầu phần phương pháp giải quyết bài toán, thử
nghiệm đã thực hiện trên công cụ, kết luận.
Lê Đình Phúc: lời mở đầu, mục tiêu công cụ, nửa sau phần phương pháp giải
quyết bài toán.
Một số kết quả chính của tiểu luận:
1. Trình bày một phương pháp giải quyết bài toán đồng sở chỉ. Công cụ thực
hiện phân giải đồng sở chỉ theo phương pháp này đã đạt được kết quả rất tốt.
2. Hiểu được hoạt động của một công cụ xử lý ngôn ngữ tự nhiên thực tế, cách
thức tiến hành thử nghiệm, thiết lập môi trường thử nghiệm.
3. Tìm hiểu được cơ chế, cấu trúc đa sàng lọc sử dụng trong giải quyết bài toán