TIỂU LUẬN PHƯƠNG PHÁP LUẬN SÁNG TẠO KHOA HỌC Giải pháp tổ chức lưu trữ và xử lý tài liệu văn bản tiếng việt có ngữ nghĩa - Pdf 28

April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
1

Lời cảm ơn
Đầu tiên, em xin bày tỏ lòng biết ơn chân thành đến
thầy Hoàng Văn Kiếm, người đã tận tình hướng dẫn, tạo mọi
điều kiện thuận lợi để em hoàn thành tốt chuyên đề này.
Thầy đã định hướng cho chúng em từ cách đặt vấn đề, phương
pháp nghiên cứu khoa học cho đến những công việc cụ thể
nhất.
Em xin chân thành cảm ơn các thầy cô phòng đào tạo sau
đại học, những người đã giúp đỡ, tạo điều kiện tốt cho em
trong quá trình học tập thực hiện chuyên đề.
Xin gửi lời cảm ơn đến gia đình, cảm ơn các anh chị,
bạn bè, những người luôn sát cánh, động viên chúng em trên
bước đường học tập cũng như trong cuộc sống. Xin chân thành
biết ơn sự tận tình dạy dỗ và sự giúp đỡ của tất cả quý
thầy cô tại trường Đại học Công Nghệ Thông Tin. Tất cả các
kiến thức mà nhà trường và quý thầy cô đã truyền đạt là
hành trang to lớn để chúng em mang theo trên con đường học
tập, làm việc và nghiên cứu cũng như trong quá trình hoàn
thiện nhân cách của mình.

TP HCM, ngày 14 tháng 04 năm 2012
Học viên
Châu Kim Hùng
như ứng dụng của phương pháp luận sáng nghiên cứu khoa học trong việc giải quyết vấn
đề trong tin học, tiểu luận chuyên đề “Phương pháp luận sáng tạo khoa học” sẽ vận dụng
kiến thức về phương pháp luận, phương pháp sáng tạo để giải quyết một vấn đề cụ thể
trong tin học, vấn đề tổ chức lưu trữ và xử lý tài liệu văn bản tiếng việt.

April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
3

MỤC LỤC
Phần 1 CƠ SỞ LÝ THUYẾT VÀ PHƢƠNG PHÁP NGHIÊN CỨU KHOA HỌC 5
1.1. Khoa học 5
1.2. Nghiên cứu khoa học 5
1.3. Đề tài nghiên cứu khoa học 5
1.3.1. Khái niệm đề tài 5
1.3.2. Đối tƣợng nghiên cứu và phạm vi nghiên cứu 6
1.3.3. Mục đích và mục tiêu nghiên cứu 6
1.4. Các nguyên tắc sáng tạo cơ bản 7
1.4.1. Tổng quan 7
1.4.2. Ứng dụng thực tiển 9
Phần 2 PHƢƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ - BÀI TOÁN TRONG TIN HỌC 12
2.1. Phƣơng pháp trực tiếp 12
2.2. Phƣơng pháp gián tiếp 13
2.2.1. Phƣơng pháp thử sai 13
2.2.2. Phƣơng pháp Heuristic 14


April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
5

Phần 1
CƠ SỞ LÝ THUYẾT VÀ PHƢƠNG PHÁP NGHIÊN CỨU


cứu khoa hoc, chẳng hạn như: Chương trình, dự án, đề án. Sự khác biệt giữa các hình
thức NCKH nầy như sau:
* Đề tài: được thực hiện để trả lời những câu hỏi mang tính học thuật, có thể
chưa để ý đến việc ứng dụng trong hoạt động thực tế.
* Dự án: được thực hiện nhằm vào mục đích ứng dụng, có xác định cụ thể hiệu
quả về kinh tế và xã hội. Dự án có tính ứng dụng cao, có ràng buộc thời gian và nguồn
lực.
* Đề án: là loại văn kiện, được xây dựng để trình cấp quản lý cao hơn, hoặc gởi
cho một cơ quan tài trợ để xin thực hiện một công việc nào đó như: thành lập một tổ
chức; tài trợ cho một hoạt động xã hội, Sau khi đề án được phê chuẩn, sẽ thành những
dự án, chương trình, đề tài theo yêu cầu của đề án.
* Chương trình: là một nhóm đề tài hoặc dự án được tập hợp theo một mục đích
xác định. Giữa chúng có tính độc lập tương đối cao. Tiến độ thực hiện đề tài, dự án trong
chương trình không nhất thiết phải giống nhau, nhưng nội dung của chương trình thì phải
đồng bộ.
1.3.2. Đối tƣợng nghiên cứu và phạm vi nghiên cứu
Đối tượng nghiên cứu: là bản chất của sự vật hay hiện tượng cần xem xét và làm
rõ trong nhiệm vụ nghiên cứu.
Phạm vi nghiên cứu: đối tượng nghiên cứu được khảo sát trong trong phạm vi nhất
định về mặt thời gian, không gian và lĩnh vực nghiên cứu.
1.3.3. Mục đích và mục tiêu nghiên cứu
Khi viết đề cương nghiên cứu, một điều rất quan trọng là làm sao thể hiện được
mục tiêu và mục đích nghiên cứu mà không có sự trùng lấp lẫn nhau. Vì vậy, cần thiết để
phân biệt sự khác nhau giữa mục đích và mục tiêu.
* Mục đích: là hướng đến một điều gì hay một công việc nào đó trong nghiên
cứu mà người nghiên cứu mong muốn để hoàn thành, nhưng thường thì mục đích khó có
thể đo lường hay định lượng. Nói cách khác, mục đích là sự sắp đặt công việc hay điều gì
đó được đưa ra trong nghiên cứu. Mục đích trả lời câu hỏi “nhằm vào việc gì?”, hoặc “để
phục vụ cho điều gì?” và mang ý nghĩa thực tiển của nghiên cứu, nhắm đến đối tượng

3. Nguyên tắc phẩm chất cục bộ
4. Nguyên tắc phản (bất) đối xứng
5. Nguyên tắc kết hợp
6. Nguyên tắc vạn năng
7. Nguyên tắc “chứa trong”
8. Nguyên tắc phản trọng lượng
9. Nguyên tắc gây ứng suất (phản tác động) sơ bộ
10. Nguyên tắc thực hiện sơ bộ
April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
8

11. Nguyên tắc dự phòng
12. Nguyên tắc đẳng thế
13. Nguyên tắc đảo ngược
14. Nguyên tắc cầu (tròn) hóa
15. Nguyên tắc năng động
16. Nguyên tắc tác động bộ phận và dư thừa
17. Nguyên tắc bộ xung chiều khác
18. Sự dao động cơ học
19. Nguyên tắc tác đông theo chu kỳ
20. Nguyên tắc tác đông liên tục hữu hiệu
21. Nguyên tắc vượt nhanh
22. Nguyên tắc chuyển hại thành thắng
23. Nguyên tắc quan hệ phản hồi
24. Nguyên tắc sử dụng trung gian
25. Nguyên tắc tự phục vụ
26. Nguyên tắc sao chép (copy)

Sony đã tung ra loại máy cassette rất phù hợp với nhu cầu này, tức giúp cho mọi người có
thể vừa tập thể dục, chạy nhảy ngoài trời, vừa thưởng thức âm nhạc. Ở đây, 2 nhu cầu
khác nhau của người tiêu dùng đã được kết hợp một cách khá hoàn hảo.
Trong lĩnh vực sáng tạo, nhằm đưa ra các giải pháp hay các sản phẩm mang tính
đột phá, người ta có thể sữ dụng nguyên tắc kết hợp được đúc kết như sau:
Kết hợp các đối tượng (có thể hiểu là các bộ phận, dụng cụ, nhu cầu, …) hay kết
hợp về mặt thời gian các hoạt động nhằm mang lại tính năng vượt trội cho sản phẩm hay
giải pháp đó.
Nguyên tắc này được vận dụng rất phổ biến trong hầu hết mọi lĩnh vực của cuộc
sống. Trong thực tế, các quá trình, sự kiện, yếu tố thường đan xen và có những mối quan
hệ hữu cơ với nhau, do đó luôn luôn tồn tại khả năng kết hợp để nâng cao hiệu quả. Sau
đây là một số ví dụ cụ thể trong cuộc sống:
 Bút chì có tẩy ở một đầu. Trong ví dụ này, hai yếu tố có chức năng trái ngược
nhau, bút chì và tẩy, được kết hợp với nhau để tăng tính tiện dụng của đối tượng.
 Chúng ta cũng thường sử dụng loại búa đóng đinh có phần để nhổ đinh.
 Hãng Casio của Nhật chế tạo đồng hồ điện tử đeo tay kết hợp với máy tính,rất
tiện dụng cho học sinh, sinh viên.
 Và gần đây, chúng ta đều biết đến các loại điện thoại có kèm theo chức năng
chơi nhạc, chụp hình, xem phim và ti vi…
 Trong lĩnh vực quan sát thiên văn, để đạt được độ phân giả cao, đường kính
gương của kính thiên văn phải rất lớn. Việc xây dựng các kính thiên văn có đường kính
gương lớn lại rất khó khăn và tốn kém. Các chuyên gia của Mỹ và Ý đã xây dựng loại
April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
10

kính thiên văn quang học kép trên đỉnh Greham, Arizon (Mỹ) cao 3300 mét. Kính thiên
văn này bao gồm: 2 kính thiên văn thường có đường kính gương 8 mét và cách nhau 22


GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
11

với tính năng sử dụng. Như ở chiếc kéo thợ may, 2 tay cầm, lệch hẳn về một phía của
trục kéo.
 Các loại chai nước suối có tiết diện hình bát giác hay hình vuông (thay vì hình
tròn) để tiện cho việc cầm trên tay khi uống.
 Khi nối 2 đoạn dây điện với nhau, người ta thường để 2 mối nối lệnh nhau (bất
đối xứng) để tránh bị chạm mạch.
 Trong các thiết bị lò hơi, cửa nồi hơi phải thật kín, chịu lực cao và phải đóng từ
trong ra ngoài để đảm bảo chịu được áp lực hơi. Tuy nhiên, nếu nắp hình tròn thì không
thể đưa vào bên trong thiết bị để lắp ráp vì kích thước của cánh cửa phải lớn hơn kích
thước của cửa lò. Trong thực tế, người ta giải quyết vấn đề bằng cách chế tạo cửa lò hình
oval (tăng tính bất đối xứng). Vì hình oval có 2 trục không bằng nhau nên người ta chỉ
cần xoay cạnh nhỏ và đưa qua cửa lò vào bên trong.
Ngoài ra, còn rất nhiều ví dụ thực tế minh họa cho sự vận dụng quy tắc này. Theo
lối suy nghĩ thông thường, người ta thường thích những cấu trúc có bậc đối xứng cao vì
trông có vẻ hài hòa hơn.
 Nguyên lý 2: Chuyển đổi quá trình tính toán của bài toán thành các cấu trúc
của chương trình, có nghĩa là “Mọi quá trình tính toán đều có thể mô tả và thực hiện dựa
trên ba cấu trúc cơ bản : Cấu trúc tuần tự, cấu trúc rẽ nhánh và cấu trúc lặp”.
 Nguyên lý 3: Biểu diễn các tính toán chính xác, có nghĩa là “Chương trình tính
toán theo các biểu thức chính xác không đồng nhất với quá trình tính toán chính xác về
mặt hình thức”.
 Nguyên lý 4: Biểu diễn các tính toán gần đúng bằng cấu trúc lặp, có nghĩa là
“Mọi quá trình tính toán gần đúng đều dựa trên các cấu trúc lặp với tham số xác định”.
April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
13

 Nguyên lý 5: Phân chi bài toán ban đầu thành những bài toán nhỏ hơn, có
nghĩa là “Mọi vấn đề-bài toán đều có thể giải quyết bằng cách phân chia thành những
vấn đề - bài toán nhỏ hơn”.
 Nguyên lý 6: Biểu diễn các tính toán không tường minh bằng đệ quy, có nghĩa
là “Quá trình đệ quy trong máy tính không đơn giản như các biểu thức quy nạp trong
toán học”.
2.2. Phƣơng pháp gián tiếp
Phương pháp này được sử dụng khi chưa tìm ra lời giải chính xác của vần đề. Đây
cũng chính là cách tiếp cận chủ yếu của loài người từ xưa đến nay. Điểm khác ở đây là
chúng ta đưa ra những giải pháp mang đặc trưng của máy tính, dựa vào sức mạnh tính
toán của máy tính. Tất nhiên, một lời giải trực tiếp bao giờ cũng tốt hơn, nhưng không
phải lúc nào cũng có.
2.2.1. Phƣơng pháp thử sai
Khi xây dựng lời giải bài toán theo phương pháp thử – sai, người ta thường dựa
vào 3 nguyên lý sau :
 Nguyên lý vét cạn: Đây là nguyên lý đơn giản nhất, liệt kê tất cả các trường

 Nguyên lý leo núi: Muốn leo lên đến đỉnh thì bước sau phải “cao hơn” bước
trước.
 Nguyên lý chung : Chọn hướng đi triển vọng nhất trong số những hướng đi đã
biết.
2.2.3. Phƣơng pháp trí tuệ nhân tạo
Phương pháp trí tuệ nhân tạo dựa trên trí thông minh của máy tính. Phương pháp
này, người ta sẽ đưa vào máy trí thông minh nhân tạo giúp máy tính bắt chước một phần
khả năng suy luận như con người, máy tính dựa trên những điều đã được “học“ để tự đưa
ra phương án giải quyết vấn đề.
Sơ đồ mạng tính toán để giải bài toán tam giác

April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
15

Trong lĩnh vực “máy học” , các hình thức học có thể phân chia như sau :
- Học vẹt
- Học bằng cách chỉ dẫn
- Học bằng qui nạp
- Học bằng tương tự
- Học dựa trên giải thích
- Học dựa trên tình huống
- Khám phá hay học không giám sát
Các kỹ thuật thường được áp dụng trong “máy học” là: khai khoáng dữ liệu, mạng
nơ ron, thuật giải di truyền…


3.1. Giới thiệu
Như chúng ta đã thấy, đối với người thường xuyên sử dụng máy tính nói chung và
với các nhà nghiên cứu khoa học nói riêng thì việc lưu trữ các tài liệu văn bản dùng cho
mục đích riêng của từng người là rất quan trọng. Sự tăng nhanh về số lượng tài liệu trong
kho lưu trữ đã đặt ra một vấn đề lớn: làm sao quản lý hiệu quả kho tài liệu để hỗ trợ tốt
cho người dùng máy tính trong việc tổ chức và tìm kiếm thông tin văn bản. Nếu việc làm
này được thực hiện bởi người sử dụng, quả thật là khó khăn cho họ vì quản lý lượng dữ
liệu rất lớn cả về số lượng và nội dung không phải là dễ. Điều chúng ta mong muốn ở đây
là làm sao để máy tính có thể xử lý tự động được chúng. Muốn vậy, trước hết máy tính
phải hiểu được thông tin trên các tài liệu văn bản, trong khi các tài liệu của chúng ta là
các văn bản thô mà chỉ con người mới đọc hiểu được
Bài tiểu luận này trình bày ý tưởng về việc nghiên cứu kĩ thuật tổ chức và tìm
kiếm thông tin văn bản có ngữ nghĩa với hi vọng có thể xây dựng một chương trình máy
tính hỗ trợ tốt cho người dùng trong việc quản lý và tìm kiếm thông tin văn bản. Mục 2,
3, 4 trình bày các khái niệm về Conceptual Graph, Ontology, Named-Entity. Mục 5 trình
bày các đề xuất, tìm hiểu về các phương pháp kĩ thuật để xây dựng chương trình dựa trên
các khái niệm trên. Bài toán này được giải quyết dựa trên phương pháp luận “phương
pháp trí tuệ nhân tạo” và các nguyên tắc sáng tạo cơ bản trong nghiên cứu - sáng tọa
khoa học.
April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
17

3.2. Đồ thị khái niệm (conceptual graph)
Đồ thị khái niệm (conceptual graph) là một dạng biểu diễn tri thức do John
F.Sowa (1984) phát triển là một ngôn ngữ biểu diễn tri thức dựa trên mạng ngữ nghĩa và
đồ thị tồn tại. Khác với nhiều ngôn ngữ dựa trên đồ thị, đồ thị khái niệm có một nền tảng

THUỘC
1
2
1
2
April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
18

Trong ví dụ này, [SINH_VIÊN: Vân], [MÔN_HỌC: *], [NGÀNH: KhMt] là các
khái niệm, còn (HỌC) và (THUỘC) là các quan hệ với HỌC và THUỘC là các kiểu quan
hệ. Các tham chiếu Vân và KhMt của các khái niệm [SINH_VIÊN: Vân] và [NGÀNH:
KhMt] là cac tham chiếu cá thể. Tham chiếu * của khái niệm [MÔN_HỌC: *] là tham
chiếu chung chỉ đến một thực thể không xác định.
Để biểu thị hai khái niệm với tham chiếu chung chỉ đến cùng một thực thể không
xác định, một liên kết đồng tham chiếu được vẽ bằng các nét đứt đoạn nối hai khái niệm.
Ví dụ, đồ thị khái niệm trong Hình 3.2 thêm vào đồ thị trong Hình 3.1 một sự kiện là “Có
một người học cùng môn học như Vân”. Trong ví dụ này, đồ thị khái niệm có thể được vẽ
lại một cách tương ứng về ngữ nghĩa mà không dùng liên kết đồng tham chiếu, bằng cách
gộp hai khái niệm [MÔN_HOC: *] thành một nút. Tuy nhiên, trong trường hợp các khái
niệm đồng tham chiếu nằm ở các ngữ cảnh khác nhau, như phủ định chẳng hạn, thì không
thể gộp như vậy. Ngoài ra, ở dạng văn bản, một đồ thị khái niệm có thể được phân rã
thành các đồ thị con chỉ gồm một quan hệ, bằng cách sử dụng các tên biến chung cho các
khái niệm đồng tham chiếu, Ví dụ cho đồ thị khái niệm ở Hình 3.1 là:
[SINH_VIÊN: Vân] → (HỌC) → [MÔN_HỌC: *x]
[MÔN_HỌC: *x] → (THUỘC) → [NGÀNH: KhMt]
kiểu khái niệm, một cây phân cấp các kiểu quan hệ, và các ràng buộc về các kiểu khái
niệm có thể tham gia và một kiểu quan hệ. Chúng được gọi chung là bản thểi (ontology)
của ngôn ngữ. Thực chất, mỗi ontology qui định cái gì tồn tại trong thế giới đang xét, đó
là các kiểu khái niệm và kiểu quan hệ được giả sử tồn tại cùng với quan hệ kiểu cha –
kiểu con giữa chúng, và các kiểu quan hệ được phép giữa các kiểu khái niệm. Ví dụ, một
ontology có thể cấm phát biểu “Có một người ăn một cái bàn”, nếu ontology giả sử rằng
quan hệ “ăn” chỉ có giữa động vật và đồ ăn được.
3.3. Ontology
Trong vài năm gần đây, xuất hiện một lĩnh vực nghiên cứu mới là ontology. Có
một số nguyên nhân đã thôi thúc việc nghiên cứu về ontology: vấn đề biểu diễn tri thức
của trí tuệ nhân tạo (đặc biệt là biểu diễn quan hệ ngữ nghĩa), vấn đề sắp xếp và tìm kiếm
các tài liệu tương tự nhau (đặc biệt là bài toán tìm kiếm trên mạng), vấn đề tìm hình thức
biểu diễn mới cho cơ sở dữ liệu (sự ra đời của cơ sở dữ liệu lai giữa quan hệ và hướng
đối tượng)…Tất cả những vấn đề trên đã dẫn đến việc ra đời lĩnh vực ontology mà mục
tiêu trọng tâm là: phân loại các phạm trù, các khái niệm của tri thức, và biểu diễn mối
liên hệ giữa các phạm trù đó với nhau
3.3.1. Xây dựng ontology
Theo cách dùng thông dụng trong AI, ontology hàm chỉ một quá trình xây dựng,
và tạo thành bởi một tập các từ vựng, và dùng để mô tả một thực tế nào đó; cộng với
những giả định tường minh về nghĩa hàm chỉ của các từ trong tập từ vựng. Tập các giả
định này thường là một dạng lý thuyết logic bậc nhất (first-order logic), còn tập từ vựng
thường là các vị từ (predicate) một ngôi hay hai ngôi; và chúng được gọi tên tương ứng
là: khái niệm và quan hệ.
Trong trường hợp đơn giản nhất, ontology được mô tả như một cấu trúc phân cấp
các khái niệm liên hệ với nhau bởi các quan hệ; trong trường hợp phức tạp hơn, các tiên
đề thích hợp được thêm vào để diễn tả quan hệ giữa các khái niệm cũng như ràng buộc
các diễn dịch có thể có.

April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

Vị thế của ontology so với các dạng tài nguyên khác trong một hệ thống, hay trong
một ứng dụng.
Sự lựa chọn các khái niệm cần biểu diễn
Sự lựa chọn các nội dung cần được gán cho mỗi khái niệm
Sự đánh giá chất lượng ontology sử dụng cả hai mô hình hộp trắng và hộp đen.
April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
21

Trong một số ứng dụng, ontology được dùng như là nguồn tri thức duy nhất (như
là trong ứng dụng dịch máy sử dụng cơ sở tri thức), ontology được sử dụng như là:
Nguồn hỗ trợ ngôn ngữ giải thích các nghĩa của các từ vựng được ghi nhận trong
bộ nhận trong bộ từ vựng của một ngôn ngữ nào đó.
Kết cấu mang nghĩa cho một ngôn ngữ biểu diễn ngữ nghĩa.
Cung cấp các tri thức dạng heuristic cho các tài nguyên tri thức động như: bộ
phân như: bộ phân tích hay sản sinh ngữ nghĩa.
Điều mà người xây dựng ontology cần lưu tâm là việc chọn những khái niệm và
việc biểu diễn chúng. Một ontology tốt sẽ có độ bao quát cần thiết cũng như độ đồng chất
hợp lý. Độ bao quát phụ thuộc vào lĩnh vực và ứng dụng cụ thể trong lĩnh vực đó, và việc
mà ontology hình thức có thể làm là giúp xác định cách tổ chức cấu trúc phân cấp kinh tế
nhất, hay là cách xác định các nút nào không phải là lá? Onotology hình thức không
những cần đặt ra các tính chất mà một ontology cần phải có mà còn phải đặt ra các tiêu
chuẩn trong quá trình thiết kế và các tiêu chí về độ sâu và độ rộng của ontology
3.4. Mô hình Named-Entity (thực thể có tên)
3.4.1. Định nghĩa Named-Entity
Named-Entity (NE) đại diện một thực thể riêng lẻ mà liên quan tới tên như người,
tổ chức và vị trí
Ví dụ:

- Chỉ có tên hoặc loại: khi định danh không được nhận dạng (không có trong KB)
- Có tên, loại và định danh.
Chú ý rằng tên và loại của 1 thực thể được suy ra từ định danh. Dựa vào ontology
và KB, có thêm 1 chú giải cho thực thể có tên, đó là tên–loại
3.4.3. Sự thay đổi mô hình không gian vector truyền thống
Trong mô hình không gian vector (VSM) dựa trên keyword, mỗi tài liệu được đại
diện bởi 1 vector. Thông thường trọng số tương thích tương ứng với từng term trong
vector là một hàm tần số xác suất của term trong tài liệu, gọi là tf và tần số xác suất đảo
ngược của term thông qua tất cả các tài liệu hiện có gọi là idf. Độ tương tự giữa 2 tài liệu
có thể được định nghĩa là khoảng cách giữa 2 vector.
Với term là keyword, VSM truyền thống không thỏa trong tài liệu ngữ nghĩa dùng
thực thể có tên.
Ví dụ: (1) tài liệu bàn về cities; (2) tài liệu bàn về People’s Republic of China; (3)
tài liệu bàn về Shenyang University, (4) tài liệu bàn về Shenyang Red River. Trường hợp
1, tài liệu đích không cần thiết chứa keyword “city” mà chỉ cần một số thực thể có tên có
loại là City. Trường hợp 2, tài liệu đích có lẽ đề cập về People’s Republic of China nhưng
chứa 1 tên khác như “China”; trái lại những tài liệu chứa những thực thể có tên là
“China” nhưng không có ý nghĩa là People’s Republic of China mà có ý nghĩa khác như
China town thì không phải là tài liệu đích. Trường hợp 3, những tài liệu có keyword là
April 14, 2012
[TIỂU LUẬN PHƢƠNG PHÁP LUẤN SÁNG TẠO KHOA HỌC]

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA
23

Shenyang nhưng không phải là tài liệu đích mà nó có ý nghĩa khác như Shenyang city
hoặc Shenyang hotel. Trong khi đó, trường hợp 4 tài liệu đích là một định danh chính xác
của thực thể có tên, đó là Red river in Shenyang, không phải ở HaNoi VietNam…
 Thay đổi VSM truyền thống cho thực thể có tên (tên, loại, tên-loại, định
danh)

= freq
id
/ max
j
{freq
jd
}
Với maximum được tính toán là tất cả term xảy ra trong d. Nếu k
i
không xảy ra
trong d, thì tf
id
= 0.
Phụ thuộc K là N, T, N x T hoặc I, k
i
xảy ra trong d khi và chỉ khi:
1. K = N, k
i
là tên và d chứa 1 thực thể có tên mà tên hay kí danh của nó là k
i
hoặc
2. K = T, k
i
là loại và d chứa 1 thực thể có tên mà loại là giống nhau hoặc là 1
trường hợp loại con của k
i
hoặc
3. K = N x T, k
i
=(n,t) và d chứa 1 thực thể có tên mà tên hay kí danh của nó là n và

thì mức độ quan trọng của k
i
càng ít hơn. Vì thế trọng số của k
i
trong d được tính như sau:
W
id
= tf
id
x idf
i

3.5. Đề xuất các giải pháp kĩ thuật
3.5.1. Ontology và cơ sở tri thức
Để có thể xây dựng bộ tài liệu có ngữ nghĩa phục vụ cho quá trình đánh chỉ mục
và truy vấn thì trước hết, tài liệu cần được chú thích ngữ nghĩa. Để biểu diễn một chú
thích ngữ nghĩa cho thực thể trong tài liệu, chúng ta cần phải :
- Một Ontology định nghĩa các lớp thực thể.
- Cơ sở tri thức chứa các thông tin chi tiết về thực thể.
3.5.1.1. Ontology
Ontology là một tập các khái niệm và quan hệ giữa các khái niệm được định nghĩa
cho một lĩnh vực nào đó nhằm vào việc biểu diễn và trao đổi thông tin. Nó như là khoa
học nghiên cứu những điều tồn tại, và không tồn tại trong thế giới đang xét. Thông
thường Ontology được cấu thành từ các thành phần cơ bản:
 Lớp: tập hợp các thực thể có đặc điểm chung trong miền đang xét.
 Quan hệ: mối liên hệ giữa các lớp.
 Thuộc tính: đặc tính của các lớp thực thể.
Ta có thể xây dựng Ontology theo hướng kết hợp với Ontology của KIM (KIMO),
lấy Ontology của KIM làm cơ sở. Để thực hiện điều này, ta cần phải ánh xạ hợp lý các
khái niệm tiếng Anh với các khái niệm tiếng Việt. Ngoài ra cần bổ sung thêm các thuộc

+ Sông, núi (các sông, núi lớn ở Việt Nam và trên thế giới)
+ Đường (các đường ở TPHCM, Hà Nội, các tỉnh lộ, quốc lộ)
+ Điểm đặc biệt (các di tích lịch sử, danh lam thắng cảnh, khu vui chơi giải trí nổi
tiếng )
Ta cũng nên xây dựng cơ sở tri thức cho từ hoặc cụm từ bổ nghĩa cho các tên thực
thể xuất hiện trong tài liệu. Có thể xem đây như là các thực thể thuộc lớp Ngữ_liệu, dùng
trong các mẫu nhận dạng thực thể thuộc các lớp khác trong Ontology. Ví dụ, trong “thành
phố Hồ Chí Minh” hay “Chủ tịch tỉnh Vũ Hoàng Hà”, “thành phố” và “Chủ tịch tỉnh” là
ngữ liệu. Ngữ liệu cung cấp cho thành phần rút trích thông tin một số dấu hiệu để nhận
dạng thực thể. Các dấu hiệu này bao gồm các tiền tố, hậu tố và một số thành phần cấu
thành nên tên các thực thể thuộc một lớp nhất định trong cơ sở tri thức. Vì vậy, các đặc
điểm và cách thức viết tên thực thể của từng lớp được nghiên cứu để rút ra các cấu trúc
biểu diễn tên cho lớp thực thể đó.

Trích đoạn Phƣơng pháp ghom cụm tài liệu theo thực thể có tên
Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status