Biểu diễn văn bản sử dụng các khái niệm mờ - pdf 16

Download miễn phí Khóa luận Biểu diễn văn bản sử dụng các khái niệm mờ



MỤC LỤC
LỜI CẢM ƠN .i
TÓM TẮT .ii
MỤC LỤC . iii
MỞ ĐẦU .1
Chương 1. KHAI PHÁ DỮLIỆU VĂN BẢN.3
1.1. Tổng quan vềkhai phá dữliệu.3
1.1.1. Khái niệm.3
1.1.2. Các bước của quá trình khai phá dữliệu .3
1.1.3. Ứng dụng của khai phá dữliệu.5
1.2. Một sốbài toán trong khai phá dữliệu văn bản.6
1.2.1. Tìm kiếm văn bản .6
1.2.2. Phân lớp văn bản.7
Chương 2. CÁC PHƯƠNG PHÁP CƠBẢN BIỂU DIỄN VĂN BẢN .10
2.1. Tiền xửlý văn bản .10
2.2. Mô hình Logic.12
2.3. Mô hình phân tích cú pháp .14
2.4. Mô hình không gian vector .15
2.4.1. Mô hình Boolean .17
2.4.2. Mô hình tần suất .17
2.5. Biểu diễn văn bản trong máy tìm kiếm.20
2.5.1. Giới thiệu vềmáy tìm kiếm .20
2.5.2. Mô hình biểu diễn văn bản trong máy tìm kiếm .21
Chương 3. BIỂU DIỄN VĂN BẢN SỬDỤNG CÁC KHÁI NIỆM MỜ.23
3.1. Lý thuyết mờ.23
3.1.1. Tập mờ.23
3.1.2. Các phép toán trên tập mờ.25
3.1.3. Quan hệmờ.27
3.1.4. Các phép toán trên quan hệmờ.27
3.2. Biểu diễn văn bản sửdụng các khái niệm mờ.29
3.2.1. Khái niệm mờ.30
3.2.2. Biểu diễn văn bản .32
3.2.3. Đềxuất giải pháp cho vấn đề đồng nghĩa.32
Chương 4. CÁC PHƯƠNG PHÁP PHÂN LỚP VĂN BẢN .35
4.1. Tổng quan vềbài toán phân lớp.35
4.2. Các thuật toán phân lớp .36
4.2.1. Phân lớp dựa trên thuật toán Naive Bayes.36
4.2.2. Phân lớp dựa trên thuật toán K - Nearest Neighbor (KNN) .38
4.2.3. Phân lớp dựa vào thuật toán cây quyết định.39
4.2.4. Phân lớp sửdụng Support Vector Machines (SVM).41
Chương 5. MỘT SỐKẾT QUẢTHỰC NGHIỆM .43
5.1. Tập dữliệu và tiền xửlý .43
5.2. Công cụvà phương pháp phân lớp .44
5.3. Kết quảthực nghiệm .45
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .53
TÀI LIỆU THAM KHẢO .55



Để tải bản Đầy Đủ của tài liệu, xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:

i viết là: Tìm các tài
liệu có chứa từ “tôi” hay từ “ta” hay “tao”.
Nhược điểm
Đòi hỏi người tìm kiếm phải có kinh nghiệm và chuyên môn trong lĩnh vực tìm
kiếm vì câu hỏi đưa vào dưới dạng Logic nên kết quả trả lại cũng có giá trị Logic
(Boolean). Một số tài liệu sẽ được trả lại khi thoả mãn mọi điều kiện đưa vào. Như vậy
muốn tìm được tài liệu theo nội dung thì phải biết đích xác về tài liệu.
Việc Index các tài liệu rất phức tạp và làm tốn nhiều thời gian, đồng thời cũng tốn
không gian để lưu trữ các bảng Index.
Các tài liệu tìm được không được xắp xếp theo độ chính xác của chúng. Các bảng
Index không linh hoạt vì khi các từ vựng thay đổi (thêm, xóa,…) thì dẫn tới chỉ số Index
cũng phải thay đổi theo.
2.3. Mô hình phân tích cú pháp
Trong mô hình này, mỗi văn bản đều phải được phân tích cú pháp và trả lại thông
tin chi tiết về chủ đề của văn bản đó. Sau đó, người ta tiến hành Index các chủ đề của từng
Khóa luận tốt nghiệp Nguyễn Việt Cường
15
văn bản. Cách Index trên chủ đề cũng giống như khi Index trên văn bản nhưng chỉ Index
trên các từ xuất hiện trong chủ đề.
Các văn bản được quản lý thông qua các chủ đề này để có thể tìm kiếm được khi
có yêu cầu, câu hỏi tìm kiếm sẽ dựa trên các chủ đề trên.
™ Cách tìm kiếm:
Tiến hành tìm kiếm bằng cách dựa vào các chủ đề đã được Index ở trên. Câu hỏi
đưa vào có thể được phân tích cú pháp để trả lại một chủ đề và tìm kiếm trên chủ đề đó.
Như vậy bộ phận xử lý chính đối với một hệ CSDL xây dựng theo mô hình này
chính là hệ thống phân tích cú pháp và đoán nhận nội dung văn bản.
Một số ưu điểm, nhược điểm của phương pháp này
Ưu điểm
Tìm kiếm theo phương pháp này lại khá hiệu quả và đơn giản, do tìm kiếm nhanh
và chính xác.
Đối với những ngôn ngữ đơn giản về mặt ngữ pháp thì việc phân tích trên có thể
đạt được mức độ chính xác cao và chấp nhận được.
Nhược điểm
Chất lượng của hệ thống theo phương pháp này hoàn toàn phụ thuộc vào chất
lượng của hệ thống phân tích cú pháp và đoán nhận nội dung tài liệu. Trên thực tế, việc
xây dựng hệ thống này là rất phức tạp, phụ thuộc vào đặc điểm của từng ngôn ngữ và đa
số vẫn chưa đạt đến độ chính xác cao.
2.4. Mô hình không gian vector
Cách biểu diễn văn bản thông dụng nhất là thông qua vector biểu diễn theo mô
hình không gian vector (Vector Space Model). Đây là một cách biểu diễn tương đối đơn
giản và hiệu quả.
Theo mô hình này, mỗi văn bản được biểu diễn thành một vector. Mỗi thành phần
của vector là một từ khóa riêng biệt trong tập văn bản gốc và được gán một giá trị là hàm
f chỉ mật độ xuất hiện của từ khóa trong văn bản.
Khóa luận tốt nghiệp Nguyễn Việt Cường
16
Hình 3: Biểu diễn các vector văn bản trong không gian 2 chiều
Giả sử ta có một văn bản và nó được biểu diễn bởi vector V(v1,v2, …, vn). Trong
đó, vi là số lần xuất hiện của từ khóa thứ i trong văn bản. Ta xét 2 văn bản sau:
VB1: Life is not only life
VB2: To life is to fight
Sau khi qua bước tiền xử lý văn bản, ta biểu diễn chúng như sau:
Trong các cơ sở dữ liệu văn bản, mô hình vector là mô hình biểu diễn văn bản
được sử dụng phổ biến nhất hiện nay. Mối quan hệ giữa các trang văn bản được thực hiện
thông qua việc tính toán trên các vector biểu diễn vì vậy được thi hành khá hiệu quả. Đặc
biệt, nhiều công trình nghiên cứu về mối quan hệ "tương tự nhau" giữa các trang web
(một trong những quan hệ điển hình nhất giữa các trang web) dựa trên mô hình biểu diễn
vector .
Khóa luận tốt nghiệp Nguyễn Việt Cường
17
2.4.1. Mô hình Boolean
Một mô hình biểu diễn vector với hàm f cho ra giá trị rời rạc với duy nhất hai giá
trị đúng và sai (true và false, hay 0 và 1) gọi là mô hình Boolean. Hàm f tương ứng với
từ khóa ti sẽ cho ra giá trị đúng nếu và chỉ nếu từ khóa ti xuất hiện trong văn bản đó.
Mô hình Boolean được xác định như sau:
Giả sử có một cơ sở dữ liệu gồm m văn bản, D = {d1, d2,… dm}. Mỗi văn bản
được biểu diễn dưới dạng một vector gồm n từ khóa T = {t1, t2,…tn}. Gọi W = {wij} là ma
trận trọng số, trong đó wij là giá trị trọng số của từ khóa ti trong văn bản dj.
⎩⎨
⎧=
lai nguoc neu
trongmat co neu
0
dt1
w jiij
Trở lại với 2 văn bản trên, áp dụng mô hình Boolean ta có biểu diễn sau:
2.4.2. Mô hình tần suất
Trong mô hình tần suất, ma trận W = {wij} được xác định dựa trên tần số xuất
hiện của từ khóa ti trong văn bản dj hay tần số xuất hiện của từ khóa ti trong toàn bộ cơ
sở dữ liệu. Sau đây là một số phương pháp phổ biến:
a. Phương pháp dựa trên tần số từ khóa (TF – Term Frequency)
Các giá trị wij được tính dựa trên tần số (hay số lần) xuất hiện của từ khóa trong
văn bản. Gọi fij là số lần xuất hiện của từ khóa ti trong văn bản dj, khi đó wij được tính
bởi một trong ba công thức:
wij = fij
wij = 1 + log(fij)
Khóa luận tốt nghiệp Nguyễn Việt Cường
18
wij = ijf
Trong phương pháp này, trọng số wij tỷ lệ thuận với số lần xuất hiện của từ khóa
ti trong văn bản dj. Khi số lần xuất hiện từ khóa ti trong văn bản dj càng lớn thì điều đó có
nghĩa là văn bản dj càng phụ thuộc vào từ khóa ti, hay nói cách khác từ khóa ti mang
nhiều thông tin trong văn bản dj.
Ví dụ, khi văn bản xuất hiện nhiều từ khóa máy tính, điều đó có nghĩa là văn bản
đang xét chủ yếu liên quan đến lĩnh vực tin học.
Nhưng suy luận trên không phải lúc nào cũng đúng. Một ví dụ điển hình là từ
“và” xuất hiện nhiều trong hầu hết các văn bản, nhưng trên thực tế từ này lại không mang
nhiều ý nghĩa như tần suất xuất hiện của nó. hay có những từ không xuất hiện trong văn
bản này nhưng lại xuất hiện trong văn bản khác, khi đó ta sẽ không tính được giá trị của
log(fij). Một phương pháp khác ra đời khắc phục được nhược điểm của phương pháp TF,
đó là phương pháp IDF.
b. Phương pháp dựa trên nghịch đảo tần số văn bản (IDF – Inverse Document
Frequency)
Trong phương pháp này, giá trị wij được tính theo công thức sau:
⎪⎩
⎪⎨
⎧ −==
l¹i ng−îc nÕu
liÖu tµi trong xuÊt hiÖn khãa tõ nÕu
0
dt)hlog()mlog(
h
mlog
w jiiiij
trong đó m là số lượng văn bản và hi là số lượng văn bản mà từ khóa ti xuất hiện.
Trọng số wij trong công thức này được tính dựa trên độ quan trọng của từ khóa ti
trong văn bản dj. Nếu ti xuất hiện trong càng ít văn bản, điều đó có nghĩa là khi nó xuất
hiện trong dj thì trọng số của nó đối với văn bản dj càng lớn hay nó là điểm quan trọng để
phân biệt văn bản dj với các văn bản khác và hàm lượng thông tin trong nó càng lớn.
c. Phương pháp TF × IDF
Phương pháp này là tổng hợp của hai phương pháp TF và IDF, giá trị của ma trận
trọng số được tính như sau:
Khóa luận tốt nghiệp Nguyễn Việt Cường
19
⎪⎩
⎪⎨
⎧ ≥⎟⎟⎠

⎜⎜⎝
⎛+=
l¹i ng−îc nÕu
f nÕu1
0
1
h
mlog)]flog([
w iji
ij
ij
Đây là phương pháp kết hợp được ưu điểm của cả hai phương pháp trên. Trọng số
wij được tính bằng tần số xuất hiện ...
Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status