Xây dựng ứng dụng phân tích ngữ nghĩa trong tìm kiếm tài liệu trực tuyến - Pdf 14

MỤC LỤC
PHẦN 0: LỜI NÓI ĐẦU..............................................................................................6
PHẦN I: VẤN ĐỀ VÀ THỰC TRẠNG....................................................................14
PHẦN II: CƠ SỞ LÝ THUYẾT................................................................................30
PHẦN III: GIẢI PHÁP KỸ THUẬT........................................................................45
PHẦN IV: XÂY DỰNG CHƯƠNG TRÌNH, CÀI ĐẶT CHẠY DEMO................50
1
DANH MỤC HÌNH VÀ BẢNG
DANH MỤC HÌNH VÀ BẢNG...................................................................................2
Hình 1: Hình minh họa tập tách văn bản................................................................10
Hình 2: Cấu trúc giải thuật LSA..............................................................................11
5.3 Mô hình tư vấn dựa trên lịch sử phiên truy cập của người dùng.....................12
Hình 3: Quy trình truy vấn......................................................................................13
Hình 4: Giao diện chính trang chủ chương trình....................................................13
Hình 5: Tìm kiếm thông tin – So sánh gợi ý của người và máy.............................14
Hình 6: Mô hình sơ đồ hệ thống gợi ý cho người dùng...........................................16
Hình 7: Sơ đồ tổng quát hệ thống.............................................................................17
Hình 8: Giao diện tìm kiếm của Amazone.com.......................................................18
Hình 9: Giao diện kết quả trả lại..............................................................................19
Hình 10: Giao diện kết quả tìm kiếm của Amazone.com.......................................20
Hình 11: Sơ đồ cấu trúc từ của Nguyễn Tài Cẩn....................................................23
Hình 12: Giao diện tìm kiếm của Google.................................................................30
Hình 13: Giao diện tìm kiếm Yahoo.........................................................................31
Hình 14 Giao diện tìm kiếm Ask Jeeves...................................................................33
Hình 15: Giao diện tìm kiếm All the web.................................................................33
Table 1: : Tần suất xuất hiện độ dài từ tiếng Việt trên trang Vdict.com...............37
Table 2: Tần số tài liệu của một số từ thông dụng trong tiếng Việt.......................38
Table 3: Ví dụ về MI của n-gram.............................................................................39
Hình 16: Xây dựng ôtômát âm tiết .........................................................................41
Hình 17: Xây dựng ôtômát từ vựng ........................................................................42
.....................................................................................................................................42

Hình 44: Biểu đồ cộng tác quản lý user...................................................................62
Hình 45: Biểu đồ cộng tác quản lý user...................................................................63
.Table 5: Bảng các thực thể chính............................................................................64
Table 6: Bảng quan hệ các thực thể........................................................................65
Table 7: Danh sách các bảng chính...........................................................................68
Mô tả chi tiết bảng......................................................................................................69
3
Table 8: Mô tả bảng tài liệu A01...............................................................................69
Table 9: Mô tả bảng Catalogue A02..........................................................................70
Table 10: Mô tả bảng tác giả A04..............................................................................70
Table 11: Mô tả bảng NXB A05................................................................................71
Table 12: Mô tả bảng User A06.................................................................................71
Table 13: Mô tả bảng subCatalogue A07.................................................................72
Table 14: Mô tả bảng Child A08...............................................................................72
Table 15: Mô tả bảng A11..........................................................................................73
Table 16: Mô tả bảng A12..........................................................................................73
4

5
PHẦN 0: LỜI NÓI ĐẦU
1 1. MỤC TIÊU VÀ Ý NGHĨA CỦA ĐỀ TÀI
Máy tính hiện nay đã đóng góp một phần không nhỏ vào đời sống, và đã trở nên phổ
dụng. Trong lĩnh vực lưu trữ dữ liệu, chỉ cần một ổ cứng 10x15x3 cm
3
là đã có thể lưu
trữ được số lượng sách tương ứng với cả một thư viện sách khổng lồ. Theo đó, là vấn đề
tra cứu dữ liệu trong kho dữ liệu như thế. Cũng như việc tổ chức trong thư viện, việc lưu
trữ tài liệu điện tử trong máy tính cũng được chia thành các loại sách, và chủ đề lớn khác
nhau. Hiện nay xu thế người đọc sách là coi sách là nguồn để tra cứu những vấn đề mình
quan tâm, chứ không phải học một kiến thức mới do một cuốn sách mang đến. Vấn đề

thống. Với hệ thống gợi ý trong luận văn này, các đánh giá, các nhận định sẽ được lưu
lại dần dần, loại bỏ dần những kết quả không chính xác.
6 Vấn đề tài nguyên mới: Hệ thống không ngừng cập nhật các tài liệu mới cho kho dữ
liệu của mình. Mỗi lần thêm một tài liệu mới, hệ thống sẽ tính lại (off-line) là phân tích
độ tương đồng về ngữ nghĩa giữa các văn bản (kỹ thuật LSA) để tìm ra tập các láng
giềng gần của một cuốn sách.
7 Vấn đề người dùng mới: Như đã đề cập, hệ thống sẽ phân tích và lưu trữ lại lịch sử
của tất cả các phiên làm việc, kết hợp phân tích nội dung trong hệ thống để lọc ra sự
tương đồng, liên quan chính xác nhất của các tài liệu. Nên hệ thống hoàn toàn có thể gợi
ý tư vấn cho một người dùng mới. Khi người dùng cung cấp cho hệ thống các sở thích,
hệ thống sẽ lọc tiếp theo sở thích đó, để cung cấp kết quả chính xác hơn.
Phương pháp lọc dựa trên nội dung: là một giải thuật hướng về nghiên cứu lọc
thông tin, phương pháp lọc dựa trên nội dung ước lượng hàm đánh giá R(u,i) của item i
với user u được thiết lập dựa trên cơ sở đánh giá R(u,i’) của cùng user u cho item i’ mà
trong đó i và i’ là tương tự nhau về mặt nội dung.
Nhược điểm chính của phương pháp này là nó giả định các thuật ngữ là độc lập
nhau. Trong thực tế, các thuật ngữ thường có liên quan với nhau và hiểu được điều này
có thể dẫn đến việc tính độ liên quan tốt hơn.
Tính đồng nghĩa: có nhiều cách để chỉ đến một đối tượng, ví dụ: car và automobile
8 • Các sản phẩm tương tự được đối xử theo cách khác nhau
9 • Tăng sự thưa thớt, làm mất tính chất bắc cầu giữa các từ khóa
10 • Sinh ra kết quả có chất lượng thấp
Tính nhiều nghĩa của từ: hầu hết các từ đều có nhiều nghĩa, ví dụ: model, python, chip.
11 • Độ chính xác thấp
12
2 3. CÁCH GIẢI QUYẾT
3 Sử dụng phương pháp lọc cộng tác, hệ thống đã đưa ra phương án giải quyết
được các nhược điểm của nó như đã trình bầy ở trên. Về sử dụng phương pháp lọc dựa
trên nội dung, hệ thống đang sử dụng các phương pháp:
13.1 Phân tách tài liệu thành các từ khóa (Filter)

6
Một phiên làm việc của người dùng được đánh dấu bằng việc nhập một từ khóa và
nhấn nút search. Các kết quả gợi ý được đưa ra, khi người dùng quyết định chọn một tài
liệu (A), hệ thống gợi thống gợi ý các tài liệu có liên quan (dựa vào phân tích LSA trước
và phân tích lịch sử phiên làm việc). Khi người dùng chọn một tài liệu (B) tiếp theo
trong phần của hệ thống gợi ý để đọc, hệ thống ghi nhận tài liệu B có liên quan nhất
trong phiên làm việc đó với tài liệu A. Và cứ thế, hệ thống sẽ cập nhật và đánh giá lại sự
liên quan nhất định của các tài liệu qua các phiên làm việc của người dùng.
Hệ thống còn đưa ra kỹ thuật khảo sát (survey) để thu thập ý kiến chính xác hơn của
người dùng về sự tương đồng của các tài liệu.
Hạn chế của phương pháp này, là khi có một tài liệu mới được cập nhật, chỉ số lịch
sử truy cập của nó là 0, hoặc một giá trị âm nào đó. Có thể về cơ bản thì nó rất tương
đồng với văn bản A trên chẳng hạn, nhưng phải qua nhiều lần, nhiều phiên làm việc thì
nó mới đứng đầu trong các văn bản liên quan của A.
8
4. CÁC ĐÓNG GÓP CHÍNH CỦA LUẬN VĂN
 Cung cấp bộ phân tách văn bản thành các từ khóa với văn bản tiếng Việt
và văn bản tiếng Anh. Sử dụng bộ đọc văn bản đầu vào Ifilter để xử lý, kết hợp các file
từ điển, file từ stopword để tách dữ liệu được đọc vào thành các từ khóa, đặc trưng cho
tài liệu đó.
 Kỹ thuật LSA, đánh giá độ tương đồng về mặt ngữ nghĩa giữa các tài liệu
dựa trên kỹ thuật xử lý ma trận SVD. Phần này sẽ được trình bày chi tiết trong luận văn
còn lại của dự án
 Cung cấp kỹ thuật xử lý lịch sử phiên làm việc của một người dùng, cho
phép các kết quả chính xác hơn sau nhiều phiên làm việc.
 Đề xuất mô hình và phương thức triển khai cho phần mở rộng dự án, xây
dựng hệ thống CSDL động trên Internet và đẩy hết các quá trình xử lý thành on-line (hệ
thống như một tool tìm kiếm cho khách hàng. Hệ thống sẽ bắt đầu khi người dùng bắt
đầu phiên làm việc)
9

Cập nhật CSDL
(dữ liệu tài liệu
liên quan )
5.3 Mô hình tư vấn dựa trên lịch sử phiên truy cập của người dùng
Kế thừa từ các hệ thống học thông minh, từ các phiên làm việc của người dùng, hệ
thống sẽ tự động cập nhật để chính xác hơn những thông tin có trong cơ sở dữ liệu để
phục vụ cho những lần tư vấn sau đó. Có rất nhiều mô hình khai thác trên lĩnh vực người
dùng. Trong đồ án này, tôi chỉ khai thác trên khía cạnh sở thích và lịch sử các phiên làm
việc của người dùng. Khi người dùng đăng ký thông tin, hệ thống ghi nhận ở tài khoản
của họ, thông tin về các lĩnh vực người dùng quan tâm để lọc các kết quả tìm kiếm. Tại
phiên làm việc của người dùng, khi người dùng click vào một tài liệu mà hệ thống đưa ra
để gợi ý cho tài liệu đang đọc, hệ thống sẽ cập nhật hệ số tương quan giữa 2 tài liệu đó,
phục vụ cho các kết quả tư vấn ở lần tiếp theo.
12
Nhận và tiền
xử lý query
Câu truy vấn
Xử lý query,
tạo kết quả trả
Tài liệu chứa từ
khóa trong query
Tài liệu có liên quan
với tài liệu kết quả
Truy vấn
CSDL (tài
liệu)
Tập tài liệu
Các tài liệu liên quan
Cập nhật tài
liệu liên quan

Rất nhiều người không có thời gian để lọc ra trong một tệp các cuốn sách được
thông tin mình mong muốn. Thậm chí trong một cuốn sách dầy tới nghìn trang. Mục lục
ở mỗi cuốn sách cũng là các tóm tắt ý, các chủ đề viết về cho cuốn sách. Người dùng có
thể tìm trong các mục lục đó, cũng có thể tìm theo từ khóa (ứng với mỗi tài liệu, chúng
được tìm theo từ khóa dựa vào chương trình đọc tài liệu đó). Như hình trên, vấn đề là,
tìm được một cuốn sách chứa chủ đề của mình và có đủ lượng thông tin cần thiết cho
vấn đề mình quan tâm. Hoặc khi chưa đủ thông tin, người dùng được gợi ý những cuốn
sách viết về những chủ đề có liên quan mà người ta cần tra cứu thông tin về.
Bài toán đặt ra là, trong kho dữ liệu, bao gồm rất nhiều cuốn sách, rất nhiều các tài
liệu như bài báo, tạp chí. Người dùng cần tra cứu thông tin về một vấn đề nào đó. Hệ
thống sẽ phải cung cấp những cuốn sách viết về vấn đề đó và sắp xếp theo thứ tự ưu tiên
nhất định cho người đọc. Hơn nữa, hệ thống cũng cung cấp các tài liệu mà những người
dùng trước đó đã sử dụng khi cần tra cứu vấn đề đó.
Người dùng thiết lập một phiên giao dịch, bằng việc đăng nhập vào hệ thống hoặc
có thể không cần đăng nhập (Tất nhiên, khi đăng nhập vào hệ thống sẽ được hỗ trợ một
số tính năng tìm kiếm nâng cao). Bằng việc đánh một từ khóa người dùng quan tâm, hệ
thống sẽ cung cấp hai loại kết quả:
1. Kết quả do truy vấn SQL trong cơ sở dữ liệu của hệ thống
2. Kết quả do phân tích qua lịch sử truy cập của những người dùng trước.
Với loại kết quả đầu tiên, kết quả tìm được do việc truy vấn bằng các câu truy vấn
SQL trong cơ sở dữ liệu. CSDL phải được thiết kế sao cho quá trình tìm kiếm là thuận
lợi nhất. Khi tìm được các kết quả theo mức độ ưu tiên, người dùng sẽ chọn một văn bản
nào đó để nghiên cứu. Hệ thống phải cung cấp tiếp cho người dùng những tài liệu liên
quan tới tài liệu mà họ đang đọc. Việc tìm những văn bản liên quan là dựa trên sự tương
đồng giữa hai văn bản. Với loại kết quả thứ hai, hệ thống sẽ cung cấp cho người dùng
những văn bản mà qua những lần truy cập hệ thống trước đó, hệ thống ghi nhận những
tài liệu mà các người dùng trước đã đọc khi đọc tài liệu này học tài liệu khác cùng chủ
đề hay có độ tương đồng nhất định với tài liệu đó. Sơ đồ tổng quát giao dịch của hệ
thống:
15

Hình 7: Sơ đồ tổng quát hệ thống
Trong môt số hệ thống cũng thường áp dụng cả hai kỹ thuật này cách này gọi là hệ
thống lai (Hybrid).
17
Về căn bản mô hình bài toán được xây dựng như sau:
- Gọi C là số thành viên của hệ thống: ci là tường người dùng cụ thể.
- Gọi S là toàn bộ không gian đối tượng có thể đưa ra và si là một đối tượng cụ thể.
- Gọi u là giá trị phù hợp của đối tượng s với người dùng c.
Vậy bài toán là sự ánh xạ u: CxS  R. Trong đó R chính là tập hợp các đối tượng
được đưa ra giới thiệu. Tập R sẽ được sắp xếp theo thứ tự giảm dần của u.Công việc
chính của giải thuật đơn giản chỉ là đi tìm giá trị hàm u=f(c, s) sao cho u (max) là giá trị
được ưa thích nhất.
Dễ thấy độ phức tạp của bài toán là rất cao bởi không gian S là rất lớn. Ví dụ như
cách ứng dụng về gợi ý sách, số lượng sách có thể lên tới hàng triệu quyển. Hoặc hệ
thống gợi ý về CDs…Đồng thời không gian C cũng rất lớn nếu như mạng phát triển
mang tính toàn cầu như Ebay, Google, Yahoo có thể lên đến hàng tỉ thành viên.
2.1.2 Các hệ thống recommender tiêu biểu
Hệ thống bán hàng trực tuyến m a z o n e .
Hình 8: Giao diện tìm kiếm của Amazone.com
18
Đầu vào: Tên thiết bị, tên công ty, tên danh mục hay bất cứ từ khóa nào
Đầu ra: Gợi ý cho người dùng các sản phẩm hiện có.
Hình 9: Giao diện kết quả trả lại
Kết quả trả về với đúng cuốn sách cần tìm. Ngoài ra, hệ thống còn tư vấn các sản phẩm
khác tương tự

19
Hệ thống tìm kiếm âm nhạc trực tuyến Chacha.vn.
Hình 10: Giao diện kết quả tìm kiếm của Amazone.com
Recommender System của ChaCha.vn là một hệ thống tư vấn âm nhạc độc đáo với nhiều

Hệ thống này có ưu điểm nổi bật:
• Hệ thống giúp cho người dùng có thể tìm thấy các bài hát gần gũi với bài hát mà
mình yêu thích thông qua các bài hát liên quan.
• Hệ thống Recommender cũng là kênh kết nối bạn với những người dùng khác có
cùng sở thích âm nhạc. Bạn sẽ có nhiều cơ hội làm quen, khám phá những sở thích
mới lạ từ những người cùng “gu” âm nhạc.
• Với các mục hỗ trợ tìm kiếm hiện nay, người dùng muốn tìm một bài hát buộc
phải đưa thông tin nào đó về bài hát cần tìm (tên bài hát, một câu hát trong bài, tên
ca sĩ, nhạc sĩ sáng tác...). Vì thế rất khó để tìm thấy một bài hát mới hoặc một bài
hát hợp sở thích của mình, hoặc bạn sẽ gặp khó khăn nếu bạn không có thông tin
về bài hát đó. Với chức năng tư vấn âm nhạc, hệ thống Recommender cho phép
người dùng có thể khám phá các bài hát mới lạ, bất ngờ. Nhờ hệ thống
Recommender, bạn có thể nghe nhạc chọn lọc theo đúng sở thích mà không mất
nhiều thời gian tìm kiếm.
Kết luận:
Nhìn chúng các hệ thống truyền thống đều có mặt hạn chế nhưng chúng ta biết cách
kết hợp các kỹ thuật phù hợp với từng hệ thống riêng biết. Trong nhiều hệ thống thực tế
21
chúng ta đã thấy được khả năng mở rồng đầy tiềm năng đặc biệt trong hệ thống tìm
kiếm.
2.2 Xử lý tài liệu tiếng Việt
Tiếng nói và chữ viết là hai yếu tố cơ bản nhất của bất kỳ ngôn ngữ nào. Trong sự
phát triển của công nghệ thông tin (CNTT) ở Việt Nam, một số việc liên quan đến “tiếng
Việt” đã được làm và ít nhiều có kết quả ban đầu:
(a) Trước hết là các bộ gõ chữ Việt và thành công của việc đưa được bộ mã chữ Việt
vào
bảng mã Unicode, cũng như việc chọn Unicode cho bộ mã chuẩn tiếng Việt (nhân đây
cũng xin nói thêm, do chưa ý thức về chuẩn, rất nhiều cán bộ CNTT, nhiều cơ quan nhà
nước vẫn chưa chịu đổi thói quen cũ để dùng bộ mã chuẩn Unicode, một việc rất quan
trọng của xử lý tiếng Việt). Bảo tồn chữ Nôm trên máy tính cũng là một việc đầy nỗ lực

Hình 11: Sơ đồ cấu trúc từ của Nguyễn Tài Cẩn
Trong thực tế danh ngữ còn có thể xuất hiện cả dưới dạng những dạng chỉ có hai
phần: phần đầu+phần trung tâm, phần trung tâm+phần sau hoặc phần đầu + phần sau.
Phần trung tâm của danh ngữ không phải chỉ có một từ trung tâm mà bao gồm cả
bộphận trung tâm ghép gồm hai trung tâm T1 và T2, với hai vị trí T1, T2 bộ phận trung
tâm có thể xuất hiện dưới 3 biến dạng :
a o Có đầy đủ : T1T2, ví dụ : con chim ( này)
b o Dạng thiếu T1 : -T2, ví dụ : - chim (này)
c o Dạng thiếu T2: T1-, ví dụ : con – ( này)
-Phần đầu của danh ngữ có tất cả 3 loại thành tố phụ (3 loại định tố) :
a o Định tố “cái”, ví dụ : cái cậu học sinh ấy
b o Định tố chỉ số lượng, ví dụ : mấy cái cậu học sinh ấy
c o Định tố chỉ ý nghĩa toàn bộ, ví dụ : tất cảmấy cái cậu học sinh ấy
-Phần cuối của danh ngữ, có thể có 2 loại định tố có tổ chức hoàn toàn khác nhau:
a o Loại định tố chỉ gồm một từ, ví dụ : một quyển sách quý
b o Loại định tố do một mệnh đềđảm nhiệm, ví dụ : cuốn sách tôi vừa mua hôm
qua
Trong tiếng Việt có theer dùng những từ loại sau đây để làm định tố cuối :
1 + Danh từ, ví dụ : vườn cau
2 + Tính từ, ví dụ : ghế dài, một cái ghể rất tốt
3 + Động từ, ví dụ : bàn học
4 + Từ chỉ trỏ, ví dụ : sáng nay, người ấy
5 + Từ chỉ vị trí, ví dụ : nhà trong, cổng trước
6 + Từ chỉ con số : giường một, ngày 27
Hồ Lê (1992) [20] cho rằng vị trí của số lượng từ, đại từ chỉ định và sự kiện từ
xoay xung quanh danh từ theo mô hình sau :
23
Trong đó:
D1: gồm những danh từ như : con, cái, …; ông, bà…; loại, thứ, hạng, …; phía,
bên, nơi, chốn, buổi, hôm, ngày, giờ, khi, lúc….

tựổn định. Phần phụ trước cụm danh từ chuyên dùng chỉ mặt số lượng của sự vật nêu ở
trung tâm, phần phụ sau chủ yếu dùng chỉ mặt chất lượng của sự vật nêu ở trung tâm.
24
Phần phụ trước Phần phụ trung tâm Phần phụ sau
-3 -2 -1 0 1 2
Ví dụ:
tất cả những
con
mèo đen ấy
-3 -2 -1 0 1 2
• Vị trí 0 là vị trí của danh từ chính
• Vị trí -1 là vị trí của từ chỉ xuất cái
• Vị trí -2 là vị trí của từ chỉ số lượng, ví dụ: một, hai,…; vài, ba, dăm, dăm ba...;
mỗi, từng, mọi…; những, các, một…; mấy
• Vị trí -3 là vị trí của từ chỉ tổng lượng, ví dụ : hết thảy, tất cả, cả…
• Vị trí 1 là vị trí của từ nêu đặc trưng miêu tả có thể gặp nhiều loại từ khác nhau
như : danh từ, động từ, tính từ, số từ, đại từ và thời vị từ.
← Ví dụ:
phòng tạp chí, phòng đọc, phòng hẹp, phòng chúng tôi….
• Vị trí 2 là vị trí của từ chỉ định, ví dụ: cái máy này, quả táo kia…
2.2.2 Tóm tắt đặc trưng của cấu trúc ngữ pháp tiếng Việt, Anh
Các đặc điểm trong câu của tiếng Việt:
 Câu được cấu tạo đa thành phần, có câu đơn, câu ghép, câu tối giản.
 Các câu được phân tách bằng các dấu chấm câu.
 Câu hoàn chỉnh có hoặc không sử dụng các trạng từ, từ cảm thán (các stopword,
sẽ được loại bỏ khi phân tách để lọc thông tin)
 Câu được hình thành từ các từ, hoặc các câu đơn.
 Mỗi câu mang một ý nghĩa thông tin hoàn chỉnh.
Như đã trình bày ở trên, ngày nay, các tài liệu viết tiếng Việt đang chuyển sang khai
thác trên font chữ chung, tuân theo chuẩn unicode. Điều này có lợi rất nhiều cho việc

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Xây dựng ứng dụng phân tích ngữ nghĩa trong tìm kiếm tài liệu trực tuyến - Pdf 14

Tài liệu, ebook tham khảo khác

Học thêm