Tiểu luận BIỂU DIỄN CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG - Pdf 26

Tìm kiếm ngữ nghĩa dựa trên Ontology
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
BIỂU DIỄN CÔNG NGHỆ TRI
THỨC VÀ ỨNG DỤNG
Tìm Kiếm Ngữ Nghĩa
dựa trên Ontology
Giảng viên hướng dẫn
PGS.TS. Đỗ Văn Nhơn
Học viên: Huỳnh Lê Quốc Vương MHV: CH1101158
Tìm kiếm ngữ nghĩa dựa trên Ontology
01 – 2013
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
BIỂU DIỄN CÔNG NGHỆ TRI
THỨC VÀ ỨNG DỤNG
Tìm Kiếm Ngữ Nghĩa
dựa trên Ontology
Giảng viên hướng dẫn
PGS.TS. Đỗ Văn Nhơn
Tìm kiếm ngữ nghĩa dựa trên Ontology
Học viên: Huỳnh Lê Quốc Vương MHV: CH1101158
01 – 2013
MỤC LỤC
Tìm kiếm ngữ nghĩa dựa trên Ontology
MỞ ĐẦU
Lượng thông tin khổng lồ ngày càng gia tăng trên World Wide Web đã tạo
nhu cầu cực kỳ lớn cho các công cụ và kỹ thuật để xử lý dữ liệu có ngữ nghĩa.
Hiện tại thực tế các hệ thống thông tin truy hồi phần lớn dựa trên tìm kiếm theo
từ khóa với dữ liệu full-text được mô hình hóa theo bag-of-word. Đó là lý do
tại sao khi sử dụng các công cụ tìm kiếm thông tin trên Internet, chúng ta

nghĩa vấn đề của Information Retrieval “xác định đầy đủ nội dung thông tin tài
liệu”. Với ý tưởng này, rất nhiều nghiên cứu đã được thực hiện ngay sau đó với
mục đích làm cho các thông tin có sẵn trong các kho chứa (dữ liệu số) được
truy cập một cách dễ dàng và hiệu quả hữu ích.
Tóm lại, truy hồi thông tin là một trong những lĩnh vực nghiên cứu lâu đời
nhất trong khoa học thông tin. Mục tiêu của IR là tìm kiếm và đưa ra các tài
liệu thích hợp nhất cho nhu cầu thông tin của người dùng. Vì vậy một hệ thống
IR tốt nên chỉ trả về các tài liệu mà đáp ứng nhu cầu người dùng, không nên
bao gồm các dữ liệu không cần thiết.
Tìm kiếm ngữ nghĩa dựa trên Ontology
1.1. Quy trình truy hồi thông tin
Các hệ thống truy hồi thông tin ngày nay đã phát triển và cải tiến nhiều hơn
so với sự xuất hiện lần đầu tiên của nó vào những năm 1950. Tuy nhiên, quá
trình xử lý cơ bản hầu như không thay đổi.
Input: Một hệ thống IR có hai input chính, yêu cầu của người dùng và loại
thông tin đáp ứng
- Yêu cầu người dùng: một quá trình truy hồi thông tin bắt đầu khi người
dùng biểu diễn thông tin họ cần đến hệ thống. Trong trường hợp thông
Tìm kiếm ngữ nghĩa dựa trên Ontology
thường, thông tin này được chuyển tải trong hình thức một chuỗi tìm kiếm,
nhưng nó cũng có thể được biểu diễn trong các hình thức khác, như trong
trường hệ thống truy hồi đa phương tiện, input có thể là ảnh, âm thanh, …
- Loại thông tin đáp ứng: là loại thông tin được truy hồi để đáp ứng – trả lời
truy vấn của người dùng. Nó được phân loại chủ yếu theo định dạng của nó
(văn bản tài liệu, âm thanh, video, ảnh, …) và độ chi tiết của nó (trang web,
đoạn văn, câu, …)
Output: Một hệ thống IR thông thường trả về một output chính, bao gồm một
danh sách các thông tin được xếp hạng. Các thông tin này có thể là văn bản,
âm thanh, video, …
Quy trình: một hệ thống IR theo Croft & Harper - 1993 có ba quy trình chính:

mục. Điều này rõ ràng (chấp nhận được bởi lý do hiệu quả) mất mát thông
tin ngữ nghĩa khi văn bản được lập lại bằng một tập các từ. Một tình huống
tương tự xảy ra trong truy hồi multimedia khi so khớp được thực hiện dựa
trên các đặc trưng tín hiệu số.
• Xếp hạng: bước xếp hạng nhằm mục đích dự đoán mức độ liên quan giữa
các mục thông tin với truy vấn, sau đó trả về chúng theo thứ tự giảm dần
đến người dùng. Các thuật toán xếp hạng được xem như là lõi của hệ thống
IR, chúng là chìa khóa để quyết định hiệu năng của hệ thống.
Tìm kiếm ngữ nghĩa dựa trên Ontology
Các yếu tố khác: được sử dụng chủ yếu để giúp cho việc biểu diễn, trích chọn
hay xử lý yêu cầu người dùng và nghĩa nội dung. Hiểu ngữ nghĩa đằng sau các
mục thông tin và truy vấn của người dùng giúp nâng cao độ chính xác của quá
trình truy hồi, và do đó gia tăng sự thỏa mãn của người dùng. Ba yếu tố ngoài
chủ yếu được sử dụng trong hệ thống IR là: giao diện người dùng, các thao tác
xử lý truy vấn, các nguồn tài nguyên sử dụng để hỗ trợ đánh chỉ mục
• Giao diện người dùng: một giao diện người dùng “mềm dẻo” không chỉ cần
thiết cho người dùng biểu diễn các yêu cầu của họ mà còn biểu diễn các ràng
buộc cho các thông tin mà họ tìm kiếm (ví dụ., nội dung chính xác, nội dung
tương tự, nội dung không trùng nhau, nội dung theo ngày tháng, ngôn ngữ,
định dạng, …)
• Các thao tác xử lý truy vấn: phụ thuộc vào kiểu truy vấn, có các cơ chế
khác nhau được sử dụng để tinh lọc truy vấn. Phổ biến nhất là dựa vào các
input hỗ trợ thêm người dùng và cách tiếp cận dựa trên phản hồi nhìn chung là
hiệu quả nhất. Tuy nhiên, chúng giảm đi tính hiệu dụng của hệ thống, và do đó
các nguồn tài nguyên ngoài khác, chẳng hạn như bộ từ điển và cây phân cấp
thường được sử dụng thay thế hay bổ sung để tự động phân loại, làm cho truy
vấn thành nghĩa (hoàn chỉnh nghĩa câu truy vấn) hay mở rộng truy vấn.
• Các nguồn tài nguyên sử dụng để hỗ trợ đánh chỉ mục: các nguồn tài
nguyên xử lý tài liệu chẳng hạn như bộ từ điển và các từ vựng đã được điều
chỉnh được sử dụng để hỗ trợ cho việc chọn các từ thích hợp cho việc đánh chỉ

một không gian vector t chiều và các thao tác đại số tuyến tính trên vector. Với
mô hình xác suất cổ điển, framework được hình thành từ tập hợp, các thao tác
xác suất, và lý thuyết Bayes.
1.2.1. Mô hình Boole
Mô hình boole là một mô hình truy hồi đơn giản nhất dựa trên lý thuyết tập
hợp và đại số Boole. Các tài liệu được biểu diễn bằng các mục từ được trích ra
từ tài liệu, và truy vấn là biểu thức Boole trên các mục từ đó. Theo ký hiệu mô
hình IR thì ở đây:
• D: các phần từ của D được biểu diễn bằng các tập hợp các mục từ xảy ra
trong mỗi tài liệu. Các mục từ được xem như là các mệnh đề logic, biểu
thị một từ hay cụm từ có xuất hiện (1) hay vắng (0) trong tài liệu. Các
tài liệu có thể được xem như là phép hội các mục từ.
• Q: các truy vấn được biểu diễn bằng một biểu thức Boole được tạo
thành bằng các mục từ và các phép toán logic (AND - , OR - , NOT - )
có thể được đưa về dạng chuẩn tắc tuyển hay hội.
• F là một mô hình đại số Boole trên tập mục từ và tập tài liệu.
Tìm kiếm ngữ nghĩa dựa trên Ontology
• sim được xác định bằng cách xem xét một tài liệu được dự đoán là có
liên quan đến một truy vấn nếu các mục từ của nó thỏa biểu thức truy
vấn.
Ví dụ:
Ta có truy vấn q = vàng (bạc đồng)
Truy vấn này được tạo thành từ ba mục từ khác nhau: ‘vàng’, ‘bạc và
‘đồng’ và nó được viết trong dạng chuẩn tắc tuyển q
dnf
= , mỗi thành phần là
một vector có trọng số nhị phân liên kết với bộ ba (vàng, bạc, đồng). Các
vector này được gọi là các thành phần tuyển của q
dnf
Ba thành phần tuyển của truy vấn q = vàng (bạc đồng)

i,j
.
• Q: là tập các truy vấn, với mỗi truy vấn được biểu diễn bằng một vector
các mục từ xảy ra trong truy vấn. Mỗi mục từ trong truy vấn được thể
hiện bằng mỗi cặp (t
i
, q) có trọng số w
i,q
.
• F là một mô hình đại số trên các vector trong một không gian t chiều.
Tìm kiếm ngữ nghĩa dựa trên Ontology
• sim đánh giá độ tương tự của một tài liệu d
j
với một truy vấn q bằng sự
tương quan giữa vector d
j
và q. Thông thường sự tương quan này có thể
được tính bằng cosin của góc hai vector:
o
Cosin của góc được dùng cho sim(q,d
j
)
Bởi vì w
i,j
> 0 và w
i,q
> 0, do đó sim(q,d
j
) có giá trị từ 0 đến 1. Thay vì dự đoán
liệu một tài liệu liên quan hay không, VSM xếp hạng các tài liệu theo độ tương

Một nhược điểm của mô hình không gian vector, cũng có trong mô hình
Boole và mô hình xác suất là các mục từ được giả định độc lập lẫn nhau và nó
không có khả năng thể hiện các mục từ phụ thuộc lẫn nhau trong mô hình.
Nhưng mô hình không gian vector đã được chứng minh hiệu quả hơn mô hình
Boole. Việc so khớp từng phần cho phép truy hồi các tài liệu gần đúng truy
vấn, và hàm truy hồi cosin cũng hỗ trợ tốt hơn trong việc xếp hạng tài liệu dựa
trên độ tương tự với truy vấn.
1.2.3. Mô hình xác suất
Mô hình xác suất mục tiêu đưa các vấn đề IR vào trong một framework xác
suất. Ý tưởng cơ bản của nó như sau. Cho một truy vấn q và một tập tài liệu D,
một tập con R của D được giả định chứa chính xác các tài liệu thích hợp cho q
(tập trả lời lý tưởng). Sau đó, mô hình truy hồi xác suất xếp hạng các tài liệu
theo xác suất giảm dần theo tập hợp này, ký hiệu P (R | q, d
j
), với d
j
là một tài
liệu D.
Theo ký hiệu mô hình IR thì ở đây:
• D: tập tài liệu, với mỗi tài liệu được biểu diễn bằng một vector các mục
từ xảy ra trong tài liệu. Mỗi mục từ trong tài liệu là mỗi cặp (t
i
, d
j
) có
trọng số nhị phân 1 hay 0, thể hiện việc xuất hiện hay vắng mặt trong tài
liệu.
• Q: tập truy vấn, với mỗi truy vấn được biểu diễn bằng một vector các
mục từ xảy ra trong tài liệu. Mỗi mục từ trong truy vấn là mỗi cặp (t
i

chọn từ tập R. là xác suất mà mục từ t
i
không có mặt trong một tài liệu ngẫu
Tìm kiếm ngữ nghĩa dựa trên Ontology
nhiên được chọn từ tập R. Tương tự với các xác suất gắn với tập . Nhớ rằng =
1, lấy logari và bỏ đi các hằng số của tất cả các tài liệu, ta được:
với cho biết mục từ t
i
có mặt hay vắng mặt trong truy vấn q và cho biết mục
từ t
i
có mặt hay vắng mặt trong tài liệu d
j
.
Bởi vì R chưa biết, có thể giả định một cách đơn giản như sau:
o cho tất cả các mục từ.
o , với n
i
là số tài liệu chứa t
i
và N là tổng số lượng tài liệu.
Mỗi khi một tập con tài liệu ban đầu V được truy hồi và xếp hạng bởi mô hình
xác suất, các xác suất có thể được làm mịn lại:
o , với V
i
là tập các tài liệu được truy hồi có chứa t
i
.
o , bằng cách xem rằng các tài liệu không được truy hồi là không liên
quan với truy vấn.

1.2.4. Các mô hình khác
Qua nhiều thập kỷ, có nhiều mô hình đã được đề xuất. Nổi bật trong số
chúng là: mô hình fuzzy và mô hình Boole mở rộng, mô hình vector tổng quát,
mô hình mạng nơron, … Gần đây, các mô hình Ngôn Ngữ đã trở nên phổ biến
và được áp dụng rộng rãi trong lĩnh vực IR bởi hiệu năng cao của chúng và
việc hợp nhất trọng số mục từ và xếp hạng kết quả trong một mô hình duy nhất
với nền tảng dựa trên xác suất.
Các mô hình ở trên cơ bản dựa theo hướng thống kê, các tài liệu kết quả
được truy tìm về hoặc được xếp hạng cao là những tài liệu được xem là thích
Tìm kiếm ngữ nghĩa dựa trên Ontology
hợp với câu truy vấn nhất theo một số tiêu chí đo lường thống kê. Một phương
pháp tiếp cận khác đang được các nhà nghiên cứu hết sức quan tâm là hướng
ngữ nghĩa hay hướng khái niệm. Hướng tiếp cận này cố gắng thực hiện việc
phân tích cú pháp và ngữ nghĩa, nói cách khác là cố gắng mô phỏng lại các cấp
độ hiểu của máy tính về các văn bản theo ngôn ngữ tự nhiên của con người.
1.3. Truy hồi thông tin hướng ngữ nghĩa
1.3.1. Xử lý ngôn ngữ tự nhiên
Trong các phần trước, ta đã tìm hiểu về các phương pháp truy hồi thông
tin theo hướng tiếp cận thống kê là Boole, VSM và xác suất. Theo hướng tiếp
cận này thì một tài liệu thường được biểu diễn dưới dạng một tập hợp các
từ khóa độc lập nhau. Đây được xem là một phương pháp phổ biến dùng
cho việc biểu diễn các tài liệu mà không xét đến hình thái của từ, thứ tự của
các từ hay vị trí xuất hiện của từ trong tài liệu cũng như các mối quan hệ ngữ
nghĩa giữa chúng, do đó cách biểu diễn này mang mức độ thông tin thấp và
nếu nhìn dưới góc nhìn của ngôn ngữ học thì đã không xử lý các biến thể về
mặt ngôn ngữ học của các từ như biến thể về hình thái học (morphological
variation), biến thể về từ vựng học (lexical variation), biến thể về ngữ nghĩa
học (semantical variation) và biến thể về cú pháp học (syntax variation). Biến
thể về hình thái học là các dạng khác nhau về mặt cấu trúc (hình dáng, thể
hiện bên ngoài) của một từ, ví dụ như các từ computer, computerize,

Biến thể về ngữ nghĩa thường kết hợp chặt chẽ với biến thể về từ vựng
học. Để xử lý các biến thể này chúng ta cần một công đoạn xử lý sự đa nghĩa
của từ, hiệu năng của hệ thống tìm kiếm sẽ phụ thuộc vào kết quả của giai
Tìm kiếm ngữ nghĩa dựa trên Ontology
đoạn xử lý này.
Các kỹ thuật xử lý các biến thể về cú pháp học hay nói cụ thể hơn là xử lý
cấu trúc của một cụm từ có thể được chia làm hai loại: kỹ thuật lập chỉ
mục dựa vào các cụm từ và kỹ thuật lập chỉ mục là các cấu trúc cây phân tích
được từ các mệnh đề. Các kỹ thuật lập chỉ mục dựa trên cụm từ nhằm tăng
độ chính xác của hệ thống. Với giả định rằng khi dùng các cụm từ như các
chỉ mục thay cho các từ đơn thì độ chính xác sẽ tăng do cụm từ biểu diễn
chính xác hơn nội dung của tài liệu. Các hệ thống tìm kiếm dựa trên chỉ
mục là các cụm từ ngày càng thu hút nhiều nhóm nghiên cứu và vấn đề làm
thế nào để rút trích được các cụm từ một cách tự động từ tài liệu trở thành vấn
đề chính trong các hệ này. Các giải pháp rút trích cụm từ thường dựa vào hai
cách tiếp cận: tiếp cận dùng thông tin thống kê tần suất đồng xuất hiện hay
cách tiếp cận dựa vào tri thức về ngôn ngữ học. Cách tiếp cận thứ hai đòi hỏi
phải áp dụng nhiều kỹ thuật của lĩnh vực xử lý ngôn ngữ tự nhiên. Kỹ thuật
lập chỉ mục cấu trúc dựa vào các cấu trúc cây có được từ việc phân tích
các mệnh đề trong câu của tài liệu và quá trình so khớp là so khớp các cấu
trúc của câu hỏi với các cấu trúc của tài liệu. Cách tiếp cận này không thu hút
nhiều nhóm nghiên cứu do độ phức tạp của việc phân tích mệnh đề để xây
dựng cách cấu trúc cao nhưng lại không tăng được hiệu năng của hệ thống tìm
kiếm.
Ngoài ra, để khắc phục những hạn chế trong việc biểu diễn tài liệu từ
những mô hình truyền thống, nhiều nghiên cứu khác nhau đã nỗ lực thay đổi
cách biểu diễn cho tài liệu nhằm làm tăng hiệu quả trong biểu diễn và tìm
kiếm. Theo đó, một tài liệu vẫn được mô tả bởi các cặp <đặc trưng, trọng
số>, tuy nhiên những thành phần đặc trưng cho tài liệu không đơn thuần chỉ là
những từ hay cụm từ chính xác xuất hiện trong tài liệu mà đã được thiết kế lại,

>: Những Bộ phân tích cú
pháp (parser)
được sử dụng để phát hiện và rút trích ra các quan hệ cú pháp
phức tạp như subject-verb-object từ trong văn bản. Một đặc tính thú vị là
Tìm kiếm ngữ nghĩa dựa trên Ontology
những bộ này có thể bao gồm những từ không liền kề nhau, tức là các thành
phần có thể là những từ vốn nằm cách nhau trong đoạn văn văn. Việc xây
dựng những cụm từ phức hợp này là nhằm cải thiện độ chính xác trong việc so
khớp giữa các khái niệm.
Semantic concepts: mỗi từ được thay thế bằng một đại diện cho nghĩa
của từ đó. Việc gán nghĩa cho một từ phụ thuộc vào định nghĩa của từ đó có
trong từ điển. Có hai cách xác định nghĩa của một từ. Thứ nhất, nghĩa của
từ có thể được trình bày, giải thích như trong một mục từ của từ điển giải
nghĩa thông thường. Thứ hai, nghĩa của từ có thể được suy ra thông qua những
từ khác có cùng nghĩa trong từ điển đồng nghĩa .
Tuy nhiên, cho đến nay thì những kết quả đạt được theo cách tiếp cận này
vẫn chưa có sự cải thiện đáng kể so với các phương pháp thống kê kể trên.
Nguyên nhân chính là do những mô hình biểu diễn mới cũng chỉ nắm bắt
được một phần nhỏ thông tin hơn so với mô hình truyền thống. Hơn nữa,
những lỗi xuất hiện trong quá trình rút trích tự động các khái niệm hay trong
quá trình xây dựng các mô hình biểu diễn có thể gây nhiễu và làm ảnh hưởng
đến tiến trình tìm kiếm.
1.3.2. Ontology
Ontology là bản mô tả tường minh các khái niệm trong một miền ứng dụng
nào đó và quan hệ giữa những khái niệm này cùng một số luật logic và suy
diễn, cho phép suy luận khái niệm mới từ các khái niệm đã có. Ontology cung
cấp từ vựng thống nhất cho việc trao đổi thông tin giữa các ứng dụng. Chi tiết
về ontology được trình bày trong phần 2.
Tìm kiếm ngữ nghĩa dựa trên Ontology
1.4. Đánh giá hệ thống truy hồi

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Tiểu luận BIỂU DIỄN CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG - Pdf 26

Tài liệu, ebook tham khảo khác

Học thêm