Nghiên cứu các phương pháp trích chọn sự kiện và ứng dụng vào bài toán trích chọn sự kiện dịch bệnh - Pdf 41

1

LỜI CAM ĐOAN
Tác giả Phạm Xuân Hà xin cam kết rằng nội dung của Luận văn này
chưa được nộp cho bất kỳ một chương trình cấp bằng cao học nào cũng như
bất kỳ một chương trình đào tạo cấp bằng nào khác.
Ngoài ra, tác giả cũng xin cam kết Luận văn thạc sĩ này là nỗ lực riêng
của cá nhân tác giả. Các kết quả, phân tích, kết luận trong Luận văn thạc sĩ này
(ngoài các phần được trích dẫn) đều là kết quả làm việc của cá nhân tác giả.
Thái Nguyên, ngày 10 tháng 5 năm 2016
Tác Giả

Phạm Xuân Hà


2

LỜI CẢM ƠN
Lời đầu tiên em xin gửi lời cảm ơn chân thành đến Các quý thầy cô giáo,
Tổ chuyên môn Trường Đại học Công nghệ thông tin và Truyền thông - Đại
học Thái Nguyên đã tận tình giảng dạy, truyền đạt những kiến thức, kinh
nghiệm quý báu trong suốt thời gian em theo học tại trường. Các kiến thức,
kinh nghiệm quý báu của các Quý thầy cô giáo không chỉ giúp cá nhân em
hoàn thiện hệ thống kiến thức trong học tập mà còn giúp em ứng dụng các
kiến thức đó trong công tác hiện tại tại đơn vị.
Đặc biệt, em xin chân thành cảm ơn GS. TS Vũ Đức Thi đã rất nhiệt tình
và tâm huyết trong việc định hướng và giúp đỡ em hoàn thành luận văn này.
Em cũng xin được bày tỏ tình cảm với gia đình, đồng nghiệp, bạn bè đã
tạo điều kiện để cá nhân em có thể dành thời gian cho khóa học. Xin chân
thành cảm ơn những người bạn lớp cao học CK13, trong 2 năm qua đã luôn
luôn động viên, khích lệ và hỗ trợ em trong quá trình học tập.

1.4.1. Phương pháp tiếp cận dựa trên tập luật ..................................................21
1.4.2. Phương pháp tiếp cận dựa trên học máy ................................................24
1.4.3. Phương pháp kết hợp luật và học máy ...................................................25
1.4.4. Một số nhận xét ......................................................................................26
1.5. Kết luận chương..........................................................................................................28
Chương 2. BÀI TOÁN TRÍCH CHỌN SỰ KIỆN DỊCH BỆNH TRONG VĂN BẢN
TIẾNG VIỆT.........................................................................................................................29
2.1. Tổng quan bài toán trích chọn sự kiện dịch bệnh trong văn bản tiếng Việt ............29
2.1.1. Tầm quan trọng và ý nghĩa của trích chọn sự kiện dịch bệnh................29
2.1.2. Các đặc tính của sự kiện dịch bệnh ........................................................32
2.1.3. Phát biểu bài toán ...................................................................................33


4

2.2. Mô hình trích chọn sự kiện dịch bệnh .......................................................................34
2.2.1. Phương pháp sử dụng.............................................................................34
2.2.2. Mô hình phát hiện và trích chọn sự kiện dịch bệnh ...............................35
2.3. Phương pháp giải quyết bài toán phát hiện sự kiện dịch bệnh .................................37
2.3.1. Phát biểu bài toán ...................................................................................37
2.3.2. Xây dựng tập luật ...................................................................................38
2.3.3. Xây dựng mô hình phân lớp...................................................................40
2.4. Phương pháp giải quyết bài toán trích chọn sự kiện dịch bệnh................................41
2.4.1. Phát biểu bài toán ...................................................................................41
2.4.2. Trích chọn thời gian ...............................................................................42
2.4.3. Trích chọn tên bệnh................................................................................43
2.4.4. Trích chọn địa điểm ...............................................................................45
2.5. Tổng kết chương .........................................................................................................47
Chương 3. THỬ NGHIỆM BÀI TOÁN TRÍCH CHỌN SỰ KIỆN DỊCH BỆNH TRÊN
MỘT SỐ TRANG THÔNG TIN ĐIỆN TỬ.......................................................................48

Hình 1.2. Dữ liêu trên Internet trong 60 giây………………………………13
Hình 1.2. Các bước trong quá trình khám phá tri thức trong cơ sở dữ liệu...14
Hình 2.1. Quá trình phát hiện và trích chọn sự kiện………………………..36
Hình 2.2. Thành phần phát hiện sự kiện……………………………………37
Hình 2.3. Thành phần trích chọn sự kiện…………………………………...41
Hình 2.4. Biểu diễn của cây phân cấp địa điểm…………………………….46
Hình 3.1. Giao diện phần mềm crawler thu thập dữ liệu…………………..52
Hình 3.2. Kết quả thử nghiệm trích chọn sự kiện dịch bệnh……………….56
Hình 3.3. Biểu đồ thống kê theo địa điểm………………………………….57
Hình 3.4. Biểu đồ thống kê theo thời gian………………………………….58
Hình 3.5. Biều đồ thống kê theo tên dịch bệnh…………………………….59


7

MỞ ĐẦU
1.1.

Sự cần thiết lựa chọn đề tài
Sự phát triển nhanh chóng các ứng dụng công nghệ thông tin và Internet

vào nhiều lĩnh vực khác nhau của đời sống xã hội trong mấy năm gần đây đã
tạo ra nhiều cơ sở dữ liệu khổng lồ. Để khai thác hiệu quả nguồn thông tin trên
các cơ sở dữ liệu khổng lồ đó nhằm mục đích dự báo, hỗ trợ ra quyết định, bên
cạnh các phương pháp khai thác thông tin truyền thống, các nhà nghiên cứu đã
sử dụng công cụ máy tính điện tử để phát triển các phương pháp, kỹ thuật mới
hỗ trợ tiến trình khám phá, phân tích, tổng hợp thông tin. Lĩnh vực này được
gọi là khai phá dữ liệu và khám phá tri thức (Data Mining and Knowledge
Discovery) mà hạt nhân là các kỹ thuật phân tích dữ liệu (Data Analysis),
trong đó các phương pháp trích chọn thông tin, trích chọn sự kiện là mảng


giải quyết bài toán trích chọn sự kiện, trên cơ sở đó xây dựng mô hình giải
quyết bài toán trích chọn sự kiện dịch bệnh từ các dữ liệu văn bản tiếng Việt.
Cài đặt và thử nghiệm mô hình trích chọn sự kiện dịch bệnh từ một số trang
thông tin điện tử tiếng Việt trên mạng Internet.
1.3.

Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của đề tài là các phương pháp, công cụ giải quyết

bài toán trích chọn sự kiện trong văn bản tiếng Việt và các trang thông tin
điện tử tiếng Việt trên mạng Internet về dịch bệnh.
Phạm vi nghiên cứu của đề tài là bài toán trích chọn sự kiện về các dịch
bệnh trên một số trang thôn tin điện tử tiếng Việt (website) trên mạng Internet.
1.4.

Phương pháp nghiên cứu
Phương pháp nghiên cứu của đề tài là nghiên cứu lý thuyết và nghiên

cứu thực nghiệm.
Về nghiên cứu lý thuyết, đề tài đã tổng hợp các kết quả nghiên cứu về
các phương pháp trích chọn sự kiện từ văn bản tiếng Việt phục vụ phân tích,
thống kê, báo cáo, ra quyết định. Về nghiên cứu thực nghiệm, đề tài xây dựng
và cài đặt, thử nghiệm mô hình trích chọn sự kiện dịch bệnh từ một số trang
thông tin điện tử (website) bằng tiếng Việt trên mạng Internet.


9

1.5.

đồng nhất thậm chí không có định dạng cụ thể khi nó ở dạng văn bản diễn đạt
bằng ngôn ngữ tự nhiên, sau đó chuyển thành một dạng đồng nhất. Dữ liệu
sau khi trích chọn được sử dụng, trình bày trực tiếp cho người dùng, lưu vào
cơ sở dữ liệu để xử lý sau đó hay sử dụng cho những hệ thống tìm kiếm thông
tin như một dữ liệu đã qua bước tiền xử lý.
Trích chọn thông tin (IE) có thể được coi nằm giữa thu hồi thông tin
(Information Retrieval - IR) và hiểu văn bản (Text Understanding) [3]. Không
giống với thu hồi thông tin chỉ tập trung vào các mẩu thông tin có liên quan
trong văn bản, trích xuất thông tin còn quan tâm tới các sự kiện có liên quan
trong văn bản và biểu diễn chúng dưới dạng các khuôn mẫu (template). Bên
cạnh đó, khác với hiểu văn bản chỉ tập trung trên một phần nhỏ của văn bản
(câu, đoạn văn), trích xuất thông tin quan tâm tới toàn bộ nội dung văn bản.
Theo Peshkin và Pfeffer, trích chọn thông tin có thể được định nghĩa như
là một công việc điền thông tin vào các mẫu từ các dữ liệu không biết trước
trong miền được định nghĩa trước. Mục tiêu của trích chọn thông tin là lấy từ
các văn bản các thông tin nổi bật của các sự kiện, thực thể, hoặc các mối quan
hệ. Như vậy, có thể coi trích chọn thông tin là một kỹ nghệ lấy và biểu diễn tri


11

thức thành các thông tin có định dạng và hữu ích từ nguồn dữ liệu vô tận trên
Internet.
Vậy bài toán trích chọn thông tin có thể được phát biểu như sau:
1) Đầu vào: dữ liệu bất kỳ.
2) Đầu ra: thông tin hữu ích (tri thức) có cấu trúc.
Dữ liệu đầu vào cho bài toán trích chọn thông tin rất phong phú và đa
dạng. Dữ liệu có thể là có cấu trúc (structured), bán cấu trúc (semi-structured),
không có cấu trúc (unstructured), hoặc có thể là dữ liệu không gian (partial),
dữ liệu thời gian (temporal). Với bất kỳ dạng dữ liệu nào, nhiệm vụ của trích


12

Hình 1.1. Sự tăng trưởng dữ liệu từ năm 2004 đến năm 2020
Theo thống kê từ ngày
01/01/2014 trên dữ liệu Twitter, mỗi ngày có khoảng 135.000 người đăng
nhập vào Twitter, số lượng các thông điệp một ngày trên Twitter là khoảng 58
triệu tweet, trung bình mỗi giây có khoảng 9.100 thông điệp được người dùng
đưa lên Twitter. Số liệu chi tiết được minh hoạ trong Bảng 1.1.
Bảng 1.1. Thống kê trên dữ liệu Twitter
Thống kê từ Twitter

Dữ liệu

Số lượng các người dùng đăng ký tích cực

645.750.000

Số lượng các người dùng đăng nhập một ngày



/ what-happens-in-60-seconds-on-the-internet-8738267.html), dữ liệu trên
Internet trong 60 giây có thể được trực quan hóa như Hình 1.2 dưới đây:

Hình 1.2. Dữ liêu trên Internet trong 60 giây
Thông qua Hình 1.2, mỗi giây người dùng tải lên 72 giờ video, có
khoảng 2 triệu câu truy vấn trên Google, khoảng 41.000 thông điệp được
người dùng Facebook tải lên mỗi giây, khoảng 20 triệu bức ảnh được tải lên
Flick, 204 triệu email được gửi. Những con số thống kê trên cho thấy dữ liệu
được đưa lên Internet có số lượng lớn và phong phú về chủng loại.
Từ các thống kê trên, chúng ta có thể thấy rằng dữ liệu có xu hướng
bùng nổ trên Internet. Tuy nhiên, nhiều dữ liệu không đảm bảo rằng người
dùng có nhiều thông tin và càng không thể nói rằng người dùng có thể nắm
bắt được tri thức một cách hiển nhiên và dễ dàng. Trong thực tế, quá trình


14

biến đổi từ dữ liệu sang thông tin và cuối cùng sang tri thức là một quá trình
lâu dài, đòi hỏi nhiều phương pháp xử lý phức tạp. Quá trình biến đổi này có
thể được minh hoạ trong hình 1.3.

Hình 1.2. Các bước trong quá trình khám phá tri thức trong cơ sở
dữ liệu
Theo Fayyad và cộng sự [15], quá trình biến đổi từ dữ liệu thành tri thức
là một quá trình biến đổi lâu dài, cần nhiều bước xử lý phức tạp. Trong suốt
quá trình này, dữ liệu được thể hiện ở ba mức: dữ liệu, thông tin (mẫu), và tri
thức. Ở đây, dữ liệu có thể coi là một tập hợp các sự kiện (các bản ghi trong
cơ sở dữ liệu). Thông tin (mẫu) là một sự biểu diễn trong một ngôn ngữ mô tả
của một tập con dữ liệu. Cuối cùng, thông tin sẽ là tri thức nếu nó vượt qua

người dùng trong quá trình tiếp cận tri thức.
1.2. Tổng quan về trích chọn sự kiện
Với vai trò trích chọn ra các thông tin có ý nghĩa từ tập lớn các dữ liệu,
trích chọn sự kiện được cộng đồng khoa học rất quan tâm và đầu tư nghiên
cứu. Năm 1987, Message Understanding Conferences (MUC) (http: //wwwnlpir.nist.gov/related_projects/muc) được tổ chức với sự hỗ trợ của Quỹ
nghiên cứu Bộ quốc phòng Hoa Kỳ (http: //en.wikipedia.org/wiki/DARPA) và
lần đầu tiên khái niệm sự kiện event được đề cập. Sau đó, rất nhiều hội nghị
được tổ chức tạo thành dãy hội nghị MUC. Với mỗi hội nghị, thông tin được
quan tâm khác nhau nhưng đều có đặc điểm chung là chúng được trích xuất từ


16

dữ liệu nói về khủng hoảng (crisis). Các chủ đề trong dữ liệu thường là tội
phạm, khủng bố, đánh bom...Một trong những đóng góp lớn của MUC là đưa
ra việc trích xuất thông tin dựa trên mẫu (scenario template). Các mẫu được
ban tổ chức quy định và các đội tham gia cần điền thông tin vào các mẫu này
một cách tự động. Cuối cùng, các sự kiện được trích chọn gồm các thông tin:
tổ chức, đối tượng tham gia (người, sự vật, sự việc), thời gian, địa điểm, số
lượng...Độ chính xác (precision) và hồi tưởng (recall) của các nghiên cứu
tham dự MUC nam trong khoảng 50% đến 60% [19].
Chương trình

Phát hiện và theo dõi chủ đề (Topic Detection and

Tracking, TDT) ( được tổ chức từ năm
1997 thu hút nhiều nhóm nghiên cứu từ các trường đại học tham gia. Chương
trình này được phối hợp tổ chức bởi Viện Công nghệ và Chuẩn hoá quốc gia
Hoa Kỳ (NIST) và DAPRA nham giải quyết bài toán phát hiện, theo dõi, và
xâu chuỗi sự kiện. Một số nhóm nghiên cứu tham gia chương trình này như:

Trong MUC, một sự kiện được định nghĩa như sau: “một sự kiện phải có tác
nhân (actor), thời gian (time), địa điểm (place), và tác động tới môi trường
xung quanh”. Khi tham gia MUC, các nhóm nghiên cứu phải đề xuất phương
pháp đề điền các thông tin vào các mẫu cho trước (scenario template). Các
mẫu này gồm nhiều thành phần (slots/elements) khác nhau tương ứng với các
thành phần được định nghĩa bên trên. Thời gian ban đầu, MUC chỉ tập trung
nghiên cứu các sự kiện quân sự. Tuy nhiên, ở các lần tổ chức sau, các loại sự
kiện mới được bổ sung như khủng bố, đầu tư mạo hiểm, tai nạn máy bay...
Trong chương trình ACE, Dodington George R. và cộng sự đưa ra định
nghĩa sự kiện như sau: “một sự kiện là một hành động được tạo bởi những
người tham gia” [13]. ACE chia sự kiện thành 8 loại khác nhau gồm: LIFE
(sự sống-chết), MOVEMENT (sự di chuyển), TRANSACTION (giao dịch),
BUSINESS (kinh tế), CONFLICT (xung đột), CONTACT (giao thiệp, gặp
gỡ), PERSONNEL (nhận- đuổi việc), JUSTICE (pháp lý). Mỗi dạng sự kiện
lại phân biệt từng dạng con. Ví dụ, LIFE có các dạng sự kiện con như BEBORN (chào đời), INJURE (bị thương), DIE (chết), hay PERSONAL có
START-POSITION (vị trí khi nhận việc), ENDPOSITION (vị trí khi thôi
việc), NOMINATE (bổ nhiệm), ELECT (bầu chọn)...


18

Trong nghiên cứu của mình, Allen và cộng sự cho rằng một sự kiện được
phản ánh qua tin tức khi nó có 4 yếu tố: phương thức (modality), tính đối cực
(polarity), sự tổng quát (genericity), và thời điểm (tense) [1]. Trong đó,
phương thức là hành vi gây ra sự kiện; tính đối cực là sự kiện đó gây tác động
tốt hay xấu (possi- tive/negative); sự tổng quát là sự kiện đó có tính chung hay
riêng (specific/generic); và th ời điểm là thời gian xảy ra sự kiện (past,
present, future, hoặc unspecified).
Trong miền dữ liệu liên quan tới dịch bệnh, Gishman R. và cộng sự đưa
ra định nghĩa về một sự kiện như là một mẫu (template) gồm các thuộc tính:

điểm, các con số,...) thì trích chọn sự kiện quan tâm nhiều hơn tới tính cấu
trúc và mức độ liên quan của thông tin trong một sự kiện. Qua đó, người đọc
có thể dễ dàng suy luận ra các thông tin có ý nghĩa. Ví dụ, với câu “Thêm một
trẻ tử vong do bệnh tay chân miệng tại Quảng Nam vào ngày 12/06/2012”.
Trong ví dụ này, trích chọn thông tin đưa ra các kết quả rời rạc như: một,
Quảng Nam, hoặc 12/06/2012; trong khi trích chọn sự kiện sẽ đưa ra một bộ
các thuộc tính biểu diễn cho sự kiện gồm {tay chân miệng, Quảng Nam,
12/06/2012}. Một ví dụ khác, “Ngay sáng ngày 30/4, trên đường Xuân Thuỷ,
thủ đô Hà Nội đã xảy ra vụ tai nạn nghiêm trong làm 2 người trên xe máy bị
thương nặng. Nguyên nhân bước đầu được cho là do tài xế tắc-xi đã tăng tốc
khi nhận điểm nên đã xô thẳng vào xe máy đi cùng chiều” Trong ví dụ này,
trích chọn thông tin đƣa ra các kết quả rời rạc nhƣ: 30/4, Hà Nội, 2 hoặc tắc
xi; trong khi đó trích chọn sự kiện thì quan tâm tới một bộ các thuộc tính biểu
diễn cho sự kiện gồm {30/4, Hà Nội, 2 ngƣời bị thƣơng, tắc-xi}. Rõ ràng, với
tập dữ liệu trên, thông tin là hữu ích và đầy đủ hơn các thông tin rời rạc.
Một cách tổng quát, có thể coi trích chọn sự kiện nhận đầu vào là các
văn bản không có cấu trúc và đầu ra là tri thức được biểu diễn dưới dạng
thông tin có cấu trúc. Những thông tin này có thể làm đầu vào cho những hệ
thống giám sát (monitoring systems) hoặc các hệ thống hỗ trợ ra quyết định


20

(supported decision systems). Trích chọn sự kiện có thể được áp dụng cho
một miền dữ liệu cụ thể (close domain) như dịch bệnh, cháy nổ,... hoặc miền
dữ liệu mở (open domain), đồng thời đưa ra các thông tin xung quang sự kiện
đó, thông thường bao gồm: tác nhân, thời gian, địa điểm, số lượng,...
Theo Grishman và cộng sự, trích chọn sự kiện là một bài toán khó do
vấn đề xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) và đặc
trưng dữ liệu [19]. Dễ dàng nhận thấy trích chọn sự kiện phụ thuộc nhiều vào

khăn.
1.4. Một số phương pháp tiếp cận cho bài toán trích chọn sự kiện
Trong phần này, luận văn trình bày một số phương pháp tiếp cận cho
bài toán trích chọn sự kiện. Các phương pháp này bao gồm: phương pháp dựa
trên luật, phương pháp dựa trên học máy, và phương pháp kết hợp giữa luật
và học máy. Phần cuối cùng, luận văn đưa ra một số bàn luận về các phương
pháp. Dựa trên cơ sở này, luận sẽ lựa chọn phương pháp phù hợp cho bài toán
trích chọn sự kiện dịch bệnh ở Chương 2.
1.4.1. Phương pháp tiếp cận dựa trên tập luật
Trong nghiên cứu của mình, Hogenboom F. và cộng sự [20] cung cấp
một khảo sát để lựa chọn phương pháp phù hợp cho bài toán trích chọn sự
kiện trên văn bản. Bài báo đã chỉ ra rằng có ba phương pháp cơ bản để giải
quyết bài toán trích chọn sự kiện, đó là: phương pháp dựa trên dữ liệu (datadriven), phương pháp dựa trên tri thức (knowledge-driven), và phương pháp
lai (hybrid). Phương pháp thứ nhất thường sử dụng học máy (các mô hình xác
suất) trên một tập dữ liệu huấn luyện lớn để giải quyết bài toán trích chọn các
thông tin của một sự kiện. Điển hình cho phương pháp này là nhận dạng thực
thể (NER). Phương pháp thứ hai dựa trên kiến thức chuyên gia miền (thường
là những chuyên gia ngôn ngữ và chuyên gia miền dữ liệu) để sinh ra tập luật.


22

Tập luật này được sử dụng để trích chọn các thành phần của sự kiện. Phương
pháp cuối cùng kết hợp phương pháp thứ nhất và thứ hai. Trong khuôn khổ
luận văn, tác giả gọi phương pháp dựa trên dữ liệu là phương pháp sử dụng
học máy và phương pháp dựa trên tri thức là phương pháp sử dụng luật.
1.4.1.1.Luật cú pháp
Luật cú pháp, đôi khi còn được gọi là các mẫu cú pháp (lexico-syntactic
patterns) có thể coi là phương pháp được sử dụng sớm trong bài toán trích
chọn sự kiện. Các mẫu này được sinh ra từ các chuyên gia miền (domain

dưới dạng các từ và mối quan hệ giữa chúng.
Các luật này được sử dụng với nhiều mục đích khác nhau. Li Fang và
cộng sự đã sử dụng các luật ngữ nghĩa để trích chọn thông tin từ sàn giao dịch
trứng khoán (stock market) [14]. Cohen và cộng sự [8] sử dụng khái niệm bộ
nhận dạng (recognizer) trên miền dữ liệu y sinh để trích chọn các sự kiện y
sinh từ tập dữ liệu. Cách tiếp cận tương tự cũng được áp dụng bởi VargasVera và Celjuska [24] khi tác giả đề xuất một bộ khung (framework) cho việc
nhận diện các sự kiện tập trung trên các bài báo của Knowledge Media
Institute (KMI). Capet và cộng sự sử dụng các mẫu ngữ nghĩa để trích chọn
sự kiện cho hệ thống tự động cảnh báo sớm.
Trích chọn sự kiện từ các văn bản không có cấu trúc có thể được áp dụng
trong nhiều lĩnh vực, đặc biệt trong miền dữ liệu dịch bệnh. Grishman R. và
cộng sự đã sử dụng 120 mẫu sự kiện ngôn ngữ (linguasitc event patterns) để
phân tích các câu và trích chọn các thông tiên liên quan tới một sự kiện dịch
bệnh [17]. Các mẫu này được xây dựng dựa trên các từ cà mối quan hệ giữa
chúng. Ví dụ, mẫu “np (DISEASE) vp (KILL) np (VICTIM)" sẽ so khớp với
một mệnh đề như “Cholera killed 23 inhabitants". Một sự kiện được nhận
dạng khi nó chứa hai cụm từ “outbreak of..." và “people died from... ". Các
mẫu này được áp dụng để trích chọn các sự kiện dịch bệnh và đạt độ đo F (Fscore) xấp xỉ 53.98%.


24

1.4.2. Phương pháp tiếp cận dựa trên học máy
Phương pháp dựa trên học máy thường được sử dụng cho các ứng dụng
xử lý ngôn ngữ tự nhiên và yêu cầu tập dữ liệu huấn luyện lớn để huấn luyện
mô hình sao cho xấp xỉ với các hiện tượng ngôn ngữ [20]. Cách tiếp cận này
thường dựa trên mô hình xác suất (probabilistic models), lý thuyết thông tin
(information theory), và đại số tuyến tính (linear algebra). Trong thực tế, một
số cách tiếp cận cơ bản có thể chỉ ra là Term Frequency - Inverse Document
Frequency (TF-IDF), word sense disambiguation, n-grams, và phân cụm.

Jungermann và Morik [16] kết hợp các luật ngữ nghĩa với Conditional
Random Fields (CRFs - được biểu diễn như các đồ thị vô hướng) để trích
chọn các sự kiện từ phiên họp toàn thể của nghị viện Đức. Piskorski và cộng
sự sử dụng các kỹ thuật bootstrapping với thống kê để trích chọn các sự kiện
liên quan tới bạo lực từ các bản tin trực tuyến với độ chính xác và hồi tưởng
cao. Ở đây, tác giả đã giải quyết hạn chế của thuật toán học mẫu có giám sát
với các cụm. Chun và cộng sự [21] trích chọn các sự kiện y sinh bằng cách sử
dụng các luật cú pháp kết hợp với đồng tham chiếu (co-occurrences). Lee và
cộng sự [7] sử dụng ontology mờ (ontology-based fuzzy) để trích chọn sự
kiện từ các bản tin tiếng Trung Quốc. Tác giả đã sử dụng thống kê dựa trên
ngữ pháp (grammar-based statistical) và gán nhãn từ loại (part-of-speech
tagging); như vậy, phương pháp này có thể được coi là phương pháp lai.
Volkova S. và cộng sự sử dụng nhận dạng thực thể và phân lớp mức câu
để trích chọn các sự kiện dịch bệnh trên động vật. Quá trình nhận dạng thực
thể sự kiện gồm ba bước: (1) nhận dạng thực thể từ văn bản, (2) các câu được
phân loại dựa trên các thực thể, (3) và các thực thể trong một câu sự kiện
được tổ hợp để tạo thành một cấu trúc. Trong quá trình nhận dạng sự kiệ, các
sự kiện đúng phải chứa một tên bệnh và một động từ liên quan tới bệnh đó.
Độ chính xác của bộ nhận dạng sự kiện và bộ phân lớp mức câu là 75% và



Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status