XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN PHẦN 1 - Pdf 63

PHẦN 0: LỜI NÓI ĐẦU
1 1. MỤC TIÊU VÀ Ý NGHĨA CỦA ĐỀ TÀI
Máy tính hiện nay đã đóng góp một phần không nhỏ vào đời sống, và đã trở nên phổ
dụng. Trong lĩnh vực lưu trữ dữ liệu, chỉ cần một ổ cứng 10x15x3 cm
3
là đã có thể lưu trữ
được số lượng sách tương ứng với cả một thư viện sách khổng lồ. Theo đó, là vấn đề tra
cứu dữ liệu trong kho dữ liệu như thế. Cũng như việc tổ chức trong thư viện, việc lưu trữ
tài liệu điện tử trong máy tính cũng được chia thành các loại sách, và chủ đề lớn khác nhau.
Hiện nay xu thế người đọc sách là coi sách là nguồn để tra cứu những vấn đề mình quan
tâm, chứ không phải học một kiến thức mới do một cuốn sách mang đến. Vấn đề đặt ra là
làm sao tư vấn cho người dùng những cuốn sách nào liên quan nhiều nhất tới chủ đề người
dùng yêu cầu (thông qua các từ khóa được nhập) bằng phân tích nội dung và lịch sử truy
cập của những người dùng trước.
Luận văn này đực thực hiện nhằm đề xuất ra được một phương thức xây dựng hệ thống
hỗ trợ tư vấn với các kết quả sau:
1 - Tư vấn hoàn toàn tự động các tài liệu cho người dùng theo từ khóa, lịch sử truy cập của
người dùng đó và những người dùng khác và sở thích của họ. Kết quả tư vấn ngày càng
chính xác hơn vì hệ thống có phân tích và cập nhật lịch sử truy cập của người dùng.
2 - Giới thiệu tài liệu có độ tương tự nhất định với tài liệu đang nghiên cứu để người dùng
lựa chọn tài liệu tiếp theo nghiên cứu.
- Hệ thống khảo sát (survey) để thu thập các ý kiến đánh giá của người dùng về sự tương
tự của các tài liệu hệ thống gợi ý. Qua đó, càng thu thập nhiều sự đánh giá, kết quả tư vấn
cho người dùng càng sát với vấn đề người ta đặt ra hơn.
3 - Người dùng mới không nhất thiết phải đăng ký thông tin với hệ thống. Hệ thống vẫn gợi ý
cho người dùng thông qua phân tích nội dung và lịch sử truy cập hệ thống.
4 - Đáp ứng các yêu cầu tìm kiếm trên các trang web (tìm kiếm trong site riêng hoặc trên
internet). Hệ thống hướng tới việc tìm kiếm và xây dựng cơ sở dữ liệu động từ internet.
1 2. VẤN ĐỀ GIẢI QUYẾT
Có 2 phương pháp chủ đạo được dùng trong hệ tư vấn:
Phương pháp lọc cộng tác: là phương pháp tập hợp các đánh giá hoặc các quan điểm

Tính nhiều nghĩa của từ: hầu hết các từ đều có nhiều nghĩa, ví dụ: model, python, chip.
11 • Độ chính xác thấp
12
2 3. CÁCH GIẢI QUYẾT
3 Sử dụng phương pháp lọc cộng tác, hệ thống đã đưa ra phương án giải quyết được
các nhược điểm của nó như đã trình bầy ở trên. Về sử dụng phương pháp lọc dựa trên nội
dung, hệ thống đang sử dụng các phương pháp:
13.1 Phân tách tài liệu thành các từ khóa (Filter)
2 Các tài nguyên là các tài liệu được thể hiện dưới dạng văn bản như một cuốn sách,
tạp chí, hay một bài báo, bài diễn văn điện tử nào đó. Với những tài liệu tiếng Anh,
một từ thường có một âm tiết, ta có thể dễ dàng xác định một từ dựa vào dấu cách
(space) hoặc dấu câu. Việc phân tách văn bản tiếng anh thành các từ khóa không khó
khăn. Với những văn bản tiếng việt, mỗi từ nó có thể có một, hai hoặc nhiều hơn số
lượng âm tiết. Việc phân tách thành từ khóa đối với văn bản tiếng việt phải dựa trên
từ điển và các thuật toán đọc từ khóa sao cho đúng nghĩa nhất của câu. Thí dụ: Học
sinh học sinh học thì hệ thống sẽ tách thành Học sinh, học, sinh học. Sau đó, loại
bỏ các từ dừng (Stopword – Những từ mang ý nghĩa cảm thán, đại từ…như anh,
bạn, do đó…), những từ không mang nhiều ý nghĩa về nội dung. Bước tiếp theo,
dùng kỹ thuật TF-IDF để lọc bỏ bớt số lượng từ khóa của tài liệu.
3.2 Phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analystic-LSA)
3 Kỹ thuật LSA là những lý thuyết và phương thức cho việc trích rút và thể hiện ngữ
cảnh sử dụng ngữ nghĩa của từ dựa trên việc tính toán thông kê. Kỹ thuật này cho phép ứng
dụng trên một kho dữ liệu văn bản lớn. Ý tưởng cơ bản của kỹ thuật là tổng hợp tất cả các
văn cảnh của từ, trong đó, một từ được đưa ra đã và không chỉ định biểu lộ những tập ràng
buộc lẫn nhau. Những tập ràng buộc này cho phép xác định sự tương đồng về nghĩa của
những từ và tập hợp mỗi từ khác.
4 Tập các từ khóa của các tài liệu của bước phân tích trên được dùng làm đầu vào cho
các hàng của ma trận. Theo đó, bộ từ khóa của một tài liệu được dùng làm cột, các tài liệu
làm hàng, các cell của ma trận được khởi tạo là tần suất xuất hiện của từ khóa-thuật ngữ đó
trong tài liệu. LSA dùng kỹ thuật phân tích giá trị riêng (SVD-singular value

 Đề xuất mô hình và phương thức triển khai cho phần mở rộng dự án, xây dựng hệ thống
CSDL động trên Internet và đẩy hết các quá trình xử lý thành on-line (hệ thống như một
tool tìm kiếm cho khách hàng. Hệ thống sẽ bắt đầu khi người dùng bắt đầu phiên làm việc)
5. CÀI ĐẶT
5.1 Tách tài liệu thành các từ khóa. Tìm kiếm dựa trên từ khóa
Mô hình này áp dụng cho những lần gợi ý đầu tiên, cho khi người dùng nhập từ khóa.
Giải thuật tách từ khóa (chạy off-line):
Input: tập tài nguyên là sách, tạp chí, trang thông tin (html) ở các định dạng tài liệu.
Output: Tập các từ khóa với rank tương ứng.
Quá trình tìm kiếm sẽ ưu tiên với những khóa được lọc ra ở tập khóa có mức độ ưu tiên
được đánh giá bằng rank tương ứng của chúng
Giải thuật này được thiết kế để chạy offline trong phiên bản đầu tiên này. Quá trình cập
nhật tài liệu được người quản trị nhập. Chi phí thời gian cho modul này là khá lớn, một
cuốn sách điện tử tầm 200 trang tương ứng là 3 phút cho hệ thống đọc và tách thành từ
khóa.
Hình : Hình minh họa tập tách văn bản
Tập văn bản nguồn Tập văn bản đã được phân tách
5.2 Mô hình tìm tư vấn dựa trên phân tích ngữ nghĩa tiềm ẩn
Sau khi tách thành tập các từ khóa, modul này sẽ thực hiện việc cập nhật tiếp các tài
liệu liên quan, có độ tương đồng nhất định về nội dung. Mỗi tài liệu sẽ được xác định cùng
với nó một tập các tài liệu khác có tương đồng về mặt nội dung.
C p nh t CSDLậ ậ (dữ
li u tài li u liên ệ ệ
quan )
T p các tài li uậ ệ
liên quan t i 1 ớ
tài li uệ
X lý LSAử (ma
tr n và gi i thu t ậ ả ậ
SVD)

Câu truy vấn
Nhận và tiền xử lý
query

Hình : Quy trình truy vấn
6. GIAO DIỆN TRANG CHỦ CHƯƠNG TRÌNH
Hình : Giao diện chính trang chủ chương trình
PHẦN I: VẤN ĐỀ VÀ THỰC TRẠNG
1. ĐẶT BÀI TOÁN
Hiện nay, khoa học kỹ thuật ngày càng phát triển. Máy vi tính được phát triển từ năm
1980 đã ngày càng được sử dụng rộng rãi với các ứng dụng tiên tiến của nó. Theo đó, các
hệ thống lưu trữ tài liệu dần chuyển sang lưu trữ số trên máy tính. Các hệ thống thư viện
điện tử, thư viện trực tuyến ngày càng được sử dụng rộng rãi. Theo đó, là các vấn đề liên
quan đến tìm kiếm, chia theo danh mục và gợi ý nội dung đọc Ebook cho người dùng.
Trên internet, chúng ta đã có rất nhiều các công cụ tìm kiếm và gợi ý các tài liệu cần
đọc và những tài liệu liên quan. Thí dụ như công cụ tìm kiếm của Google, ngoài những tài
liệu có chứa từ khóa, nó còn gợi ý những tài liệu có độ tương đồng nhất định với nội dung
người dùng tra cứu, thể hiện ở các liên kết cuối mỗi trang. Với amazon.co.uk, hệ thống
recommender chỉ với những thành viên đăng ký tài khoản với hệ thống. Khi đăng ký tài
khoản, user đăng ký luôn các sở thích và các lĩnh vực họ quan tâm. Với hệ thống
mubu.com, họ gợi ý trong lĩnh vực âm nhạc. Người dùng cũng phải cung cấp thông tin về
sở thích như ca sỹ, nhạc sĩ, thể loại nhạc quan tâm. Từ đó, hệ thống gợi ý cho người dùng
không cần keyword…
Hình : Tìm kiếm thông tin – So sánh gợi ý của người và máy
Rất nhiều người không có thời gian để lọc ra trong một tệp các cuốn sách được thông
tin mình mong muốn. Thậm chí trong một cuốn sách dầy tới nghìn trang. Mục lục ở mỗi
cuốn sách cũng là các tóm tắt ý, các chủ đề viết về cho cuốn sách. Người dùng có thể tìm
trong các mục lục đó, cũng có thể tìm theo từ khóa (ứng với mỗi tài liệu, chúng được tìm
theo từ khóa dựa vào chương trình đọc tài liệu đó). Như hình trên, vấn đề là, tìm được một
cuốn sách chứa chủ đề của mình và có đủ lượng thông tin cần thiết cho vấn đề mình quan

Items Databases
2. CÁC VẤN ĐỀ VÀ CÁC GIẢI PHÁP HIỆN TẠI
2.1Các hệ thống gợi ý (recommender systems - RS)
2.1.1 Các khái niệm về Recommender System
Recommender Systems (RS) là một hế thống lọc thông tin đặc biệt, hệ thống cho phép
lọc thông tin dựa trên sự quan tâm của người dùng và nội dung của văn bản. Điển hình, một
hệ thống RS sẽ so sánh những thông tin người dùng với những đặc trưng liên quan. Những
đặc trưng này có thể thu thập từ nội dung thông tin (Cách tiếp cận theo nội dung: Content -
based approach) hoặc từ môi trường mạng xã hội của người sử dụng (Cách tiếp cận theo
hướng lọc cộng tác: Collaborative filtering approach). <Theo wikipedia>
Như vậy dựa vào khái niệm trên chúng ta có thể thấy hiện có hai kỹ thuật chính
được sử dụng để xây dựng một hệ thống RS hiện nay. Một là kỹ thuật hướng nội dung –
Content based approach, kỹ thuật này cho phép hệ thống đưa ra những gợi ý phù hợp
nhất với những tiêu chuẩn đã được xác định. Hệ thống phải nắm được tất cả những đặc
điểm chính được thể hiện trong đối tượng được quan tâm (Theo từ khoá của người dùng)
và sắp xếp chúng theo những tiêu chuẩn tương ứng.
Mặt khác , tiếp cận theo hướng lọc cộng tác – Collborative filtering CF lại làm
việc dựa trên cơ chế tìm kiếm những sự đồng nhất của một cá nhân với cộng đồng mà họ
tham gia để xác định gợi ý hơn là dựa trên việc xác thực nội dung của sự quan tâm. Tức là
CF dựa trên sự công tác giữa một nhóm cá thể có chung một quan điểm hay một sự lựa
chọn nào đó để đưa ra nhưng gợi ý cho người tìm kiếm.
Hình : Sơ đồ tổng quát hệ thống
Trong môt số hệ thống cũng thường áp dụng cả hai kỹ thuật này cách này gọi là hệ thống
lai (Hybrid).
Về căn bản mô hình bài toán được xây dựng như sau:
- Gọi C là số thành viên của hệ thống: ci là tường người dùng cụ thể.
- Gọi S là toàn bộ không gian đối tượng có thể đưa ra và si là một đối tượng cụ thể.
- Gọi u là giá trị phù hợp của đối tượng s với người dùng c.
Vậy bài toán là sự ánh xạ u: CxS  R. Trong đó R chính là tập hợp các đối tượng được
đưa ra giới thiệu. Tập R sẽ được sắp xếp theo thứ tự giảm dần của u.Công việc chính của


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status