ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Minh Tuấn PHÂN LỚP CÂU HỎI HƯỚNG TỚI TÌM KIẾM NGỮ
NGHĨA TIẾNG VIỆT TRONG LĨNH VỰC Y TẾ KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành
:
Công nghệ thông tin
Công nghệ thông tin
Cán bộ hướng dẫn:
PGS. TS. Hà Quang Thụy
Cán bộ đồng hướng dẫn:
Th.S Nguyễn Việt Cường
HÀ NỘI - 2008Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến
sĩ Hà Quang Thụy và Thạc sỹ Nguyễn Việt Cường, người đã tận tình chỉ bảo và hướng
dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp.
Khóa luận này tập trung nghiên cứu phương pháp phân loại câu hỏi trong lĩnh vực y
tế tiếng Việt dựa trên hướng tiếp cận cực đại hóa Entropy (maxent). Dựa trên việc khảo
sát các đặc trưng tiếng Việt và các hướng tiếp cận trong phân lớp câu hỏi trên tiếng Anh,
khóa luận đã tích hợp các đặ
c trưng này vào quá trình phân lớp với Maxent và thu được
kết quả khả quan. Những nội dung này có thể coi là những nghiên cứu đầu tiên trong vấn
đề này trên tiếng Việt.
ii
Mục lục
Tóm tắt...................................................................................................................................i
Mục lục.................................................................................................................................ii
Danh sách các bảng .............................................................................................................iv
Danh sách các hình...............................................................................................................v
Lời mở đầu............................................................................................................................1
Chương I. Tổng quan về tìm kiếm ngữ nghĩa ......................................................................2
1.1. Nhu cầu về máy tìm kiếm ngữ nghĩa.....................................................................2
1.2. Cấu trúc tổng thể của một máy tìm kiếm ngữ nghĩa .............................................2
1.2.1. Nền tảng cho tìm kiếm ngữ nghĩa ..................................................................2
1.2.2.1. Web ngữ nghĩa........................................................................................3
1.2.2.2. Ontology .................................................................................................4
1.2.2. Kiến trúc cơ bản của một máy tìm kiếm ngữ nghĩa .......................................9
1.2.2.3. Giao diện ng
ười dùng ...........................................................................10
1.2.2.4. Kiến trúc bên trong ...............................................................................10
Chương 2. Tìm kiếm ngữ nghĩa trong tiếng Việt...............................................................14
2.1. Tổng quan về cơ sở cho tìm kiếm ngữ nghĩa tiếng Việt......................................14
2.2. Một số đặc trưng của tiếng Việt ..........................................................................15
2.2.1 Đặc điểm ngữ âm .........................................................................................15
Danh sách các bảng Bảng 1: taxonomy của tập lớp câu hỏi thử nghiệm của Zhang.........................................28
Bảng 2. Độ chính xác trên năm phân lớp Cha với các giải thuật khác nhau trong học
máy, sử dụng vector đặc trưng bag-of-words. ...................................................................29
Bảng 3. Độ chính xác trên năm phân lớp Cha với các giải thuật khác nhau trong học
máy, sử dụng vector đặc trưng bag-of-Ngrams..................................................................30
Bảng 4. Độ chính xác trên các phân lớp con với các giải thuật khác nhau trong học
máy, sử dụng vector đặc trưng bag-of-words. ..................................................................30
Bảng 5. Độ chính xác trên các phân lớp con với các giải thuật khác nhau trong học
máy, sử dụng vector đặc trưng bag-of-Ngrams.................................................................31
Bảng 6.Tập dữ liệu huấn luyện ..........................................................................................37
Bảng 7. Tập dữ liệu kiểm tra..............................................................................................38
Bảng 8. Tham số huấn luyện mô hình SVM.......................................................................39
Bảng 9. Tham số huấn luyện mô hình Entropy cực đại.....................................................39
Bảng 10. kết quả huấn luyện với SVM ...............................................................................39
Bảng 11. Kết quả 10 lần huấn luyện với Entropy cực đại................................................40
a điển hình bao gồm hai thành
phần quan trọng mang đặc trưng ngôn ngữ đó là: (1) phân lớp câu hỏi và (2) cơ sở dữ liệu
tri thứ (mạng ngữ nghĩa). Trong vài năm gần đây nhiều công trình nghiên cứu giải quyết
bài toán phân lớp câu hỏi đã được công bố [16], [15], [19], [36], [42].
Ta có thể chia các thuật toán phân lớp câu hỏi thành hai hướng tiếp cận chính:
(1) hướng tiếp cận theo regular expression (biểu thức chính qui) [35] và (2) hướng tiếp
cận dựa trên xác su
ất [16], [15], [19], [36], [42]. Mỗi hướng tiếp cận có những ưu và
nhược điểm riêng và sẽ được xem xét trong các phần sau đây.
Khóa luận này tiến hành phân tích cấu trúc tổng thể của một máy tìm kiếm ngữ
nghĩa. Qua đó chỉ ra các module ảnh hưởng bởi đặc trưng ngôn ngữ và tiến hành khảo sát
các phương pháp giải quyết bài toán phân lớp câu hỏi phổ biến hiện nay. Từ đó đề xuất
giải pháp thích hợp khi áp d
ụng vào tiếng Việt .
Khóa luận gồm bốn chương nội dung được mô tả sơ bộ dưới đây:
Chương 1. Tổng quan về tìm kiếm ngữ nghĩa giới thiệu những thành phần cơ
bản về một hệ thống tìm kiếm ngữ nghĩa: nhu cầu về tìm kiếm ngữ nghĩa và
các nền tảng cho tìm kiếm ngữ nghĩa hình thành. Đồng thời, chương này
c
ũng giới thiệu kiến trúc tổng thể của một hệ thống tìm kiếm ngữ nghĩa và
chỉ ra các module chịu ảnh hưởng bởi đặc trưng của ngôn ngữ.
Chương 2. Tìm kiếm ngữ nghĩa trong tiếng Việt trình bày về hiện trạng của tìm
kiếm ngữ nghĩa trong tiếng Việt hiện nay. Qua đó, chỉ ra những cơ sở cần
thiết để xây dựng m
ột hệ thống tìm kiếm ngữ nghĩa trong tiếng Việt. Đồng
thời, chương này cũng giới thiệu quá trình phân tích và xây dựng hai
module mang đặc trưng ngôn ngữ, tạo tiền đề xây dựng mộ hệ thống tìm
kiếm ngữ nghĩa trong lĩnh vực Y tế tiếng Việt.
Chương 3. Các phương pháp phân lớp câu hỏi khảo sát và phân tích kỹ lưỡng
các thuật toán cho bài toán phân lớp câu hỏi, chỉ ra ưu nhược đ
Web ngữ nghĩa, kết quả trả về không có sự thay đổi. Nói theo một cách khác thì với các
máy tìm kiếm hiện tại Web ngữ nghĩa hay Web thông thường chỉ là m
ột. Do vậy, cần
thiết có một hệ thống tìm kiếm ngữ nghĩa (Semantic Search) tìm kiếm trên Web ngữ
nghĩa hay trên một mạng tri thức mang ngữ nghĩa, kết quả trả về là các thông tin có cấu
trúc hoàn chỉnh mà máy tính có thể “hiểu” được, nhờ đó việc sử dụng hay xử lý thông tin
trở nên dễ dàng hơn[27][29]. Ngoài ra, việc xây dựng được một hệ thống tìm kiếm ngữ
nghĩa cụ thể sẽ t
ạo tiền đề cho việc mở rộng xây dựng các hệ thống hỏi đáp tự động trên
từng lĩnh vực cụ thể như : Y tế, văn hóa … điều này mang một ý nghĩa thiết thực trong
đời sống.
1.2. Cấu trúc tổng thể của một máy tìm kiếm ngữ nghĩa
Máy tìm kiếm ngữ nghĩa được xây dựng dựa trên những công nghệ, kỹ thuật mới của
khoa học. Mỗi công nghệ phát triển trên những nền tảng nhất định. Do vậy để mô tả cấu
trúc của một máy tìm kiếm ngữ nghĩa một cách chi tiết nhất, trước tiên cần đề cập các nền
tảng cho tìm kiếm ngữ nghĩa.
1.2.1. Nền tảng cho tìm kiếm ngữ nghĩ
a
Có hai nền tảng cho tìm kiếm ngữ nghĩa đó là:
(1) Web ngữ nghĩa : là sự phát triển mở rộng của Web hiện tại.
(2) Ontology : dùng để mô tả các tài nguyên thông tin có ngữ nghĩa.
3
1.2.2.1. Web ngữ nghĩa
Web ngữ nghĩa hay còn gọi là Semantic Web theo Tim Berners-Lee [34] là bước
phát triển mở rộng của công nghệ Word Wide Web hiện tại, chứa các thông tin được định
nghĩa rõ ràng sao cho con người và máy tính làm việc với nhau hiệu quả hơn. Mục tiêu
của Web ngữ nghĩa là phát triển dựa trên những chuẩn và công nghệ chung, cho phép máy
tính có thể hiểu thông tin chứa trong các trang Web nhiều hơn nhằm hỗ trợ tốt con người
trong khai phá dữ liệu, tổng hợ
ả tài nguyên cho Web ngữ nghĩa. Các đối có quan hệ với
nhau hình thành một mạng liên kết rộng, được gọi là mạng ngữ nghĩa.
Mạng ngữ nghĩa được chia sẻ rộng khắp do vậy các đối tượng trong một mạng ngữ
nghĩa cần phải mô tả theo một chuẩn chung nhất. Ontology [25][23] được sử dụng để mô
tả về đối tượng, tài nguyên cho Web ngữ nghĩa.
1.2.2.2. Ontology
Trong nhữ
ng năm gần đây, thuật ngữ “Ontology” không chỉ được sử dụng ở trong
các phòng thì nghiệm trên lĩnh vực trí tuệ nhân tạo mà đã trở nên phổ biến đối với nhiều
miền lĩnh vực trong đời sống. Đứng trên quan điểm của ngành trí tuệ nhân tạo, một
Ontology là sự môt tả về những khái niệm và những quan hệ của các khái niệm đó nhằm
mục đích thể hi
ện một góc nhìn về thế giới. Trên miền ứng dụng khác của khoa học, một
Ontology bao gồm tập các từ vựng cơ bản hay một tài nguyên trên một miền lĩnh vực cụ
thể, nhờ đó những nhà nghiên cứu có thể lưu trữ, quản lý và trao đổi tri thức cho nhau
theo một cách tiện lợi nhất [25].
a. Khái niệm và cấu trúc của Ontology
Hiện nay tồn tại nhiều khái niệm về Ontology, trong
đó có nhiều khái niệm mâu
thuẫn với các khác niệm khác, khóa luận này chỉ giới thiệu một định nghĩa mang tính khái
quát và được sử dụng khá phổ biến được Kincho H. Law đưa ra: “Ontology là biểu hiện
một tập các khái niệm (đối tượng), trong một miền cụ thể và những mối quan hệ giữa các
khái niệm này” [18].
Một Ontology có bốn thành phần chính: cá thể (individuals), lớp (classes), thuộc
tính (attributes) và các mối quan hệ (relationships). Với cấu trúc này, Ontology được sử
dụng rộng rãi như một mô hình phân lớp thông tin trong việc phát triển thông tin trên
Web. Ngoài ra một Taxonomy [33] có thể được coi như là một Ontology khuyết (không
có thành phần thuộc tính, tính chất trong mô tả).
Cụ thể hơn về cấu trúc của một Ontology được mô tả thông qua các thành phần của nó
quan hệ được hình thành khi giá trị củ
a một thuộc tính là một cá thể của một
Ontology. Các mối quan hệ này thể hiện sự liên kết giữa các đối tượng trong
Ontology. Mối quan hệ “xếp gộp” (Subsumption) là một liên kết chủ đạo trong các
Ontology, thể hiện các kiểu quan hệ: là lớp cha (is_superclass_of), là (is_a), là lớp
con (is_subclass_of). Với liên kết “xếp gộp” Ontology sẽ có cấu trúc như một cây
phân cấp. Ngoài liên kết chủ đạo trên, một Ontology cụ thể có thể có nhiều liên kết
khác.
6
Hình 2. Ví dụ về Ontology Y tế [1]
Trong hình 2, phần bên trái mô tả cấu trúc phân cấp của Ontology Y tế, thể hiện tên các
lớp và mối quan hệ “xếp gộp” của các lớp đó. Lớp Thing là lớp cha (is_superclass_of)
của tất cả các lớp còn lại như: Bệnh, Chất_hóa_học, Nguyên_nhân, Thuốc… Các lớp
con (is_subclass_of) của Thing cũng có thể có nhiều lớp con khác ví dụ như lớp Thuốc
bao gồm hai l
ớp con: Đông_y, Tây_y… Phần bên phải thể hiện các thuộc tính hoặc liên
kết có trong Ontology Y tế, ví dụ như liên kết biến_chứng thể hiện liên kết của một cá
thể thuộc lớp Bệnh với một cá thể khác cũng thuộc lớp Bệnh, hay liên kết gây_ra mô
tả một quan hệ giữa lớp Nguyên_nhân và lớp Bệnh… Trong ví dụ trên chưa có sự
hiện
diện cụ thể của các cá thể (thể hiện) trong các lớp, nhưng những thể hiện cụ thể của các
lớp có thể được thêm vào bởi các chuyên gia trên lĩnh vực Y tế (ví dụ như Chuột
gây_ra dịch_hạch …).
b. Ngôn ngữ mô tả tài nguyên Web ngữ nghĩa và Ontology
Một Ontology cần được mô tả bằng một cấu trúc chặt chẽ và theo những chuẩn
chung nhất để
c lực lượng, với
OWL lite số lực lượng này chỉ có thể mang giá trị 0 hoặc 1.
(2) OWL DL: Dành cho những người sử dụng đòi hỏi những tính năng phức tạp
trong tính toán và xử lý thông tin với những ràng buộc chặt chẽ: Các bước xử
lý, suy luận đều được tối ưu và thực hiện trong thời gian giới hạn … OWL
được tích hợp với logic mô tả (description logic [9]). Tuy nhiên OWL DL vẫn
có một số hạn ch
ế như : Một class có thể được thừa kế bởi nhiều class khác
nhưng, class này không thể là một thể hiện của class khác…
<?xml version="1.0"?>
<RDF>
<Description about="http://www.coltech.vnu.edu.vn/courses">
<author>
ITLab, Vietnam National University, Hanoi
</author>
<homepage> http://www.coltech.vnu.edu.vn</homepage>
</Description>
8
(3) OWL full : Hướng tới những người dùng đòi hỏi tối đa những tính năng của
OWL mà không bị ràng buộc bởi cấu trúc ngữ pháp phức tạp. OWL full có cấu
trúc lỏng lẻo như RDF, ví dụ : một lớp trong OWL full có thể đồng thời được
coi như là một tập các thể hiện hoặc là một thể hiện của chính lớp đó.
Giữa ba loại của ngôn ngữ OWL có quan hệ bao hàm nhau. Tức là: t
ất các các qui
tắc cấu trúc hợp lệ của OWL lite thì đều hợp lệ với OWL dl, và mọi qui tắc, cấu
trúc hợp lệ của OWL dl thì đều hợp lệ với OWL full.
Một ví dụ về OWL lite:
Với OWL việc truy xuất, xử lý và chia sẻ Ontology giữa những người sử dụng trở nên dễ
<owl:Class rdf:about="#AssociatedState"/>
</owl:disjointWith>
<owl:disjointWith>
<owl:Class rdf:about="#OccupiedTerritory"/>
</owl:disjointWith>
</owl:Class>
9
1.2.2. Kiến trúc cơ bản của một máy tìm kiếm ngữ nghĩa
Xét về cơ bản, một máy tìm kiếm ngữ nghĩa có cấu trúc tương tự với một máy tìm
kiếm thông thường cũng bao gồm hai thành phần chính:
(1) Phần giao diện người dùng (front end) có hai chức năng chính:
-
Giao diện truy vấn: cho phép người dùng nhập câu hỏi, truy vấn.
-
Hiển thị câu trả lời, kết quả.
(2) Phần kiến trúc bên trong (back end) là phần hạt nhân của máy tìm kiếm bao gồm
ba thành phần chính đó là:
-
Phân tích câu hỏi
-
Tìm kiếm kết quả cho truy vấn hay câu hỏi
-
Tập tài liệu, dữ liệu tìm kiếm/ mạng ngữ nghĩa.
Sự khác biệt trong cấu trúc của máy tìm kiếm ngữ nghĩa so với máy tìm kiếm thông
thường nằm ở phần kiến trúc bên trong, cụ thể ở hai thành phần: phân tích câu hỏi và tập
dữ liệu tìm kiếm.
Về cơ bản, một máy tìm kiếm có kiến trúc như sau:
Hình 3. Sơ đồ của máy tìm kiếm ngữ nghĩa
• Gợi ý các từ để hỏi ví dụ như (what, where, when…) khi người dùng nhập câu hỏi.
Điều này giúp ích cho việc phân lớp câu hỏi và giớ
i hạn được loại câu trả lời phù
hợp cho truy vấn người dùng đưa vào, tiết kiệm thời gian tìm kiếm.
1.2.2.4. Kiến trúc bên trong
Như mô tả ở hình 3, các thành phần của kiến trúc bên trong bao gồm bốn module chính:
phân lớp câu hỏi, biến đổi dạng câu hỏi, tìm kiếm và mạng ngữ nghĩa.
Các bước xử lý một câu hỏi/truy vấn của người dùng như sau:
-
Bước (1) người dùng nhập câu hỏi/ truy vấn của mình ở giao diện.
-
Bước (2) câu hỏi/ truy vấn ở (1) đưa qua bộ phân tích câu hỏi để xác định câu hỏi
thuộc về lĩnh vực miền nào và thuộc về phần nào trong lĩnh vực đó. Ví dụ câu
hỏi “Bệnh Lao phổi chữa như thế nào?” được phân về domain Y tế.
-
Bước (3) câu hỏi được biển đổi về dạng chuẩn (biểu thức logic) để có thể tiến
hành tìm kiếm.
-
Bước (4) câu hỏi/truy vấn được tìm kiếm trên mạng ngữ nghĩa của máy tìm kiếm.
-
Bước (5) hiện thị kết quả trả về của câu hỏi/truy vấn đưa vào.
Một máy tìm kiếm ngữ nghĩa sẽ xử lý câu hỏi của người dùng qua năm bước cơ bản như
trên. Và tùy thuộc vào từng đặc điểm của loại máy tìm kiếm định xây dựng, mà có thể có
thêm những module khác. Ví dụ một số máy tìm kiếm có có phần lựa chọn câu trả lời
thích hợp nhất do ng
ười dùng lựa chọn nhằm xây dựng tập câu trả lời mẫu .
a. Phân lớp câu hỏi
Phân lớp câu hỏi là một trong hai thành phần quan trọng nhất của một máy tìm kiếm
ngữ nghĩa. Phần này đảm nhiệm vai trò phân loại câu hỏi theo chủ đề và lĩnh vực. Quá
trình phân lớp có thể tiến hành qua hai bước:
gian tìm kiếm, mang lại kết quả chính xác hơn và nhanh hơn.
Sự khác biết giữa phân loại miền câu hỏi và phân loại nội miền chỉ ở không gian phân
loại. Trong khi phân loại miền câu hỏi không gian là toàn bộ tập Ontology của mạng ngữ
nghĩa,thì phân loại nội miền tiến hành trên một miền Ontology cụ thể, còn về thuật toán
tiến hành phân loại thì như nhau.
Phụ
thuộc vào máy tìm kiếm ngữ nghĩa cần xây dựng, mà một trong hai bước phân loại
câu hỏi trên có thể được bỏ qua. Ví dụ: khi xây dựng một hệ thống tìm kiếm ngữ nghĩa
cho một miền cụ thể (hệ thống hỏi đáp) thì việc phân loại miền câu hỏi là không cần thiết,
chỉ cần thiết phân loại nội miền.
Hiện nay đã có nhiều phương pháp để phân lớp câu hỏi trong
đó nổi bật là hai hướng
tiếp cận: dựa vào biểu thức chính qui (regular expression) và hướng tiếp cận dựa trên xác
suất. Mỗi phương pháp có những ưu và nhược điểm riêng. Với hướng tiếp cận biểu thức
chính qui, câu hỏi đưa vào được so sánh các mẫu câu hỏi có sẵn, do đó phương pháp này
đòi hỏi các chuyên gia khi xây dựng bộ câu hỏi mẫu và thường khó xác định hết được các
trường hợp nhập nhằ
ng nên kết quả phân lớp câu hỏi thường không được như ý muốn…
Cụ thể về các phương pháp sẽ được trình bày ở chương 3. 12
b. Biến đổi dạng câu hỏi
Theo Maria Vargas-Vera, Enrico Motta và John Domingue [21], sau khi qua bộ phân
lớp câu hỏi truy vấn của người dung được chuyển từ dạng ngôn ngữ tự nhiên sang dạng
ngôn ngữ lo-gic (Question Logic Language - QLL).
QLL là một ngôn ngữ thể hiện câu hỏi/ truy vấn thuộc ngôn ngữ tự nhiên theo dạng
Trường Đại học Công nghệ là bao nhiêu?”. Tạo ra một vị từ phức trong S
2
là
số_lượng_sinh_viên(đại_học_công_nghệ, X) ở đây X là số lượng sinh viên.
(3) Một động từ của S
1
sẽ tạo nên một vị từ phức với một hoặc nhiều tham số, tham
số đầu tiên là chủ ngữ của S
1,
tham số thứ hai là vị ngữ chính của S
1
, tham số thứ
ba là vị ngữ phụ của S
1
(nếu có), tham số thứ tư là các bổ ngữ (nếu có)… Ví dụ:
S
1
“Torres ghi bàn vào lưới ManU”, thì S
2
sẽ chứa vị từ ghi_bàn(Torres, ManU).
(4) Một giới từ trong S
1
tạo nên một vị từ phức với hai tham số là hai từ được nối bởi
giới từ đó. Ví dụ S
1
“Cái bút nằm trên bàn học”, S
2
sẽ chứa vị từ
nằm_trên(bút,bàn_học).
(5) Một tính từ định tính có thể tạo nên một vị từ với một hoặc hai tham số. Ví dụ S
Ontology về địa lý đối tượng chứa câu trả lời sẽ là thành_phố.Hà_Nội - ở
đây có sự tương đồng về tên của đối tượng với tham số của vị từ.
o Thông tin trả lời cho vị từ hoặc thông tin về vị từ được mô tả bằng tên gọi
của lớp hay bằng thuộc tính của một lớp có trong Ontology. Ví dụ : với vị
từ
diện_tích (Hà_Nội) thì câu trả lời được chứa trong một thuộc tính của đối
tượng thành_phố.Hà_Nội.
(2) Lặp lại bước (1) cho đến khi tìm được đối tượng chứa thông tin trả lời, hoặc đã tìm
qua tất cả các đối tượng mà không có câu trả lời. Vị từ nào không đưa lại kết quả
(không xác định được giá trị) sẽ được loại bỏ ra kh
ỏi S
2
. Câu trả lời của truy vấn sẽ
là phép tính tổ hợp giá trị của các vị từ.
Thay vì đưa ra câu trả lời chính xác hoặc khi không tìm được câu trả lời chính xác cho
câu hỏi đưa vào, hệ thống có thể trả về thông tin của đối tượng được xác định là có thể trả
lời cho câu hỏi.
d. Mạng ngữ nghĩa.
Mạng ngữ nghĩa là cơ sở dữ liệu cho hệ thống tìm ki
ếm ngữ nghĩa. Về cơ bản, một
mạng ngữ được hình thành từ một tập các thông tin mang ngữ nghĩa có quan hệ với nhau
có thể là tập các Ontology hay tập các trang Web ngữ nghĩa.
Với các máy tìm kiếm thông thường, cơ sở dữ liệu cho tìm kiếm được thu thập tự động từ
các trang Web hiện có trên internet. Và quá trình xử lý các thông tin của các trang Web
lấy về không gặp nhiều khó khăn. Trái lại, đối với máy tìm kiếm ngữ ngh
ĩa thì công việc
xây cơ sở cho tìm kiếm không đơn giản bởi hai nguyên nhân sau:
• Số lượng các trang Web ngữ nghĩa còn hạn chế.
• Việc xây dựng Ontology cho từng miền đòi hỏi sự hợp tác của nhiều chuyên
gia miền trong thời gian lớn.
các Ontology trong những miền lĩnh vực khác nhau, có thể kể đến như:
• Miền Y tế có các Ontology như : Semantic Mining
1
một Ontology về khai phá dữ
liệu trong Y tế, hay Disease Ontology là Ontology về các từ khóa chuyên ngành y
khoa được phát triển bởi khoa Tin sinh tại Center for Genetic Medicine
2
...
• Miền thương mại, kinh doanh: điển hình là Ontology-Based Business Process
Management được nghiên cứu và phát triển bởi Jenz & Partner GmbH [16].
• Miền khoa học phổ thông: có Ontology về vật lý (Physical-Concepts
được phát
triển bởi
Laboratory for Applied Ontology
3
)
…
• Và nhiều miền lĩnh vực khác.
Có một số ít Ontolgy được công bố, điển hình là Ontology VN–KIM [4]. Ontology này
bao gồm 347 lớp thực thể và 114 quan hệ và thuộc tính. Cơ sở tri thức của VN-KIM là
một tập hợp các thực thể có tên phổ biến ở Việt Nam và Quốc tế, các thực thể chủ yếu
thuộc các miền như:
-
Con người (Các nhà lãnh đạo quốc gia, giám đốc công ty, bác sỹ, nhà giáo, văn
nghệ sỹ…)
-
Tổ chức, công ty (Các tổ chức xã hội, giáo dục, công ty…)
Việc tạo ra các đơn vị từ vựng ở phương thức ghép luôn chịu sự chi phối của quy luật
kết hợp ngữ nghĩa, ví dụ: đất nước, máy bay, nhà lầu xe hơi, nhà tan cửa nát... Hiện nay,
đây là phương thức chủ yếu để sản sinh ra các đơn vị từ vựng. Theo phương thức này,
tiếng Việ
t triệt để sử dụng các yếu tố cấu tạo từ thuần Việt hay vay mượn từ các ngôn ngữ
khác để tạo ra các từ, ngữ mới, ví dụ như tiếp thị, karaoke, thư điện tử (e-mail), thư thoại
(voice mail), phiên bản (version), xa lộ thông tin, siêu liên kết văn bản, truy cập ngẫu
nhiên, v.v.
Việc tạo ra các đơn vị từ v
ựng ở phương thức láy thì quy luật phối hợp ngữ âm chi
phối chủ yếu việc tạo ra các đơn vị từ vựng, chẳng hạn như chôm chỉa, chỏng chơ, đỏng
đa đỏng đảnh, thơ thẩn, lúng lá lúng liếng, v.v.
Vốn từ vựng tối thiểu của tiếng Việt phần lớn là các từ đơn tiết (một âm tiết, mộ
t
tiếng). Sự linh hoạt trong sử dụng, việc tạo ra các từ ngữ mới một cách dễ dàng đã tạo
điều kiện thuận lợi cho sự phát triển vốn từ, vừa phong phú về số lượng, vừa đa dạng
trong hoạt động. Cùng một sự vật, hiện tượng, một hoạt động hay một đặc trưng, có thể
có nhiều từ ngữ khác nhau biểu thị
. Tiềm năng của vốn từ ngữ tiếng Việt được phát huy
cao độ trong các phong cách chức năng ngôn ngữ, đặc biệt là trong phong cách ngôn ngữ 16
nghệ thuật. Hiện nay, do sự phát triển vượt bậc của khoa học-kĩ thuật, đặc biệt là công
nghệ thông tin, thì tiềm năng đó còn được phát huy mạnh mẽ hơn.
2.2.3 Đặc điểm ngữ pháp:
Từ của tiếng Việt không biến đổi hình thái. Đặc điểm này sẽ chi phối các đặc điểm
ngữ pháp khác. Khi từ kết hợp từ thành các kết cấu như ng
ữ, câu, tiếng Việt rất coi trọng
phương thức trật tự từ và hư từ.
2.3. Tìm kiếm ngữ nghĩa trong lĩnh vực y tế
Trong phần này, khóa luận sẽ trình bày những bước đầu của việc xây dựng một máy
tìm kiếm ngữ nghĩa trên lĩnh vực Y tế cho tiếng Việt.
2.3.1. Ontology Y t
ế trong tiếng Việt
Với các dữ liệu về y tế thu thập được từ các trang Web và Ontology BioCaster [1],
tiến hành liệt kê các thuật ngữ (term) quan trọng nhằm có thể nêu định nghĩa cho người
dùng với hướng nghiên cứu tiếp theo là tự động liên kết đến các định nghĩa có sẵn trên 17
trang wikipedia. Từ các thuật ngữ trên, sẽ định nghĩa các thuộc tính của chúng. Việc xây
dựng Ontology là một quá trình lặp lại được bắt đầu bằng việc định nghĩa các khái niệm
trong hệ thống lớp và mô tả thuộc tính của các khái niệm đó. Qua khảo sát Ontology
BioCaster với các thuật ngữ trong tiếng Việt, cùng với một số luợng lớn các trang Web về
y tế hiện nay ở Việt Nam, chúng tôi đã xây dựng nên một t
ập các thuật ngữ, các mối quan
hệ cơ bản nhất để từ đó để xuất ra Ontology thử nghiệm ban đầu, với những khái niệm cơ
bản sau:
-
Thuốc: bao gồm hai loại Đông y và Tây y. Ví dụ, thuốc 5-Fluorouracil Ebewe
chống ung thư (ung thư đại trực tràng, vú, thực quản, dạ dày), hay là thuốc
Ciloxan sát trùng, chống nhiễm khuẩn ở mắt. Thuốc đông y ngũ gia bì chữa bệnh
phong thấp, tráng gân cốt …
-
Bệnh, hội chứng: Các loại bệnh như cúm gà, viêm loét dạ dày, các hội chứng mất
ngủ, suy tim …
-
Triệu chứng : Ví dụ như triệu chứng của cúm H5N1 là sốt cao, nhức đầu, đau
mỏi toàn thân,...