TIỂU LUẬN:
Phân loại văn bản tiếng Việt bằng
phương pháp phân tích cú pháp LỜI GIỚI THIỆU
Ngày nay, cơ sở dữ liệu đã trở thành một phần không thể thiếu của xã hội loài người.
Trong kỉ nguyên thông tin này, các thông tin được lưu trữ và xử lý hiệu quả hầu hết
là thông qua cơ sở dữ liệu. Sau gần 50 năm phát triển, cơ sở dữ liệu đã có những
bước tiến vô cùng quan trọng trong lịch sử Công nghệ thông tin. Từ mô hình Cơ sở
dữ liệu quan hệ do E.Codd đề xuất từ những năm 60, các ứng dụng công nghệ thông
tin đã thực sự biến việc lưu trữ dữ liệu trở thành lưu trữ thông tin thông qua các công
cụ quản lý và xử lý cơ sở dữ liệu. Ngày nay, nhu cầu lưu trữ và xử lý thông tin có
mặt ở khắp mọi nơi. Ở bất cứ một tổ chức nào, với bất kỳ một mô hình hay quy mô
nào cũng đều có những nhu cầu về lưu trữ và khai thác thông tin. Khái niệm thông tin
ở đây bao gồm cả thông tin về nội tại của tổ chức và thông tin về môi trường và tổ
chức hoạt động.
Việc nghiên cứu lý thuyết về cơ sở dữ liêu đã trở thành một ngành khoa học ứng
dụng. Do những tiến bộ vượt bậc trong nghiên cứu lý thuyết cũng như cài đặt thực tế,
các hệ quản trị cơ sở dữ liệu đã trở thành nền tảng, là phần cốt yếu trong hoạt động
của các tổ chức. Nhờ chúng mà các tổ chức hoạt động hiệu quả hơn. Việc ứng dụng
Hầu hết các thuật toán nghiên cứu cho DataMining là tập trung trên các nguồn số liệu
có cấu trúc (structured data). Nhưng phần lớn thông tin mà chúng ta lưu trữ và trao
đổi hằng ngày lại được lưu trữ dưới các dạng dữ liệu bán cấu trúc (semi-structured
data) hoặc phi cấu trúc (non-structured data). Ví dụ như trong các nhà xuất bản, hệ
thống các trang web trên một website, tập các công văn, giấy tờ, báo cáo, thư tín điện
tử trong một công ty. Thậm chí ta có thể nhận thấy rằng trong một hệ quản trị cơ sở
dữ liệu (nơi mà dữ liệu được lưu trữ có cấu trúc) thì dữ liệu kiểu text vẫn chiếm một
tỷ lệ cao. Do đó một vấn đề đặt ra là làm thế nào để có thể tìm kiếm và khai thác tri
thức từ nguồn dữ liệu như vậy. Các kỹ thuật để giải quyết vấn đề này được gọi là kỹ
thuật "TextMining" hay Khai phá dữ liệu văn bản. Bài toán Khai phá dữ liệu văn bản
không chỉ tập trung vào một hay một nhóm các thông tin được lưu trữ dưới dạng văn
bản, vấn đề đặt ra là làm thế nào có thể Khai phá được các thông tin theo lịch sử, từ
quá khứ hướng dự đoán tương lai. Những tri thức tưởng trừng như vô ích trong quá
khứ nhưng có thể được phát hiện để sử dụng cho các mục đích sau này.
Một số bài toán quan trọng trong Khai phá dữ liệu văn bản hay được xét đến như là
các bài toán “Text Classification”, “Text Sumarization”, và “Text Categorization”.
Trên thế giới đã có rất nhiều thành công trong đề tài phân lớp văn bản như các nghiên
cứu của hãng IBM, trong các phòng thí nghiệm ở MIT hay ở các viện nghiên cứu của
các trường đại học ở Mỹ, Pháp, Nhật Bản, Canada. Tuy nhiên, các thành công đó chủ
yếu tập trung vào vấn đề nghiên cứu về các văn bản tiếng Anh, tiếng Pháp. Những
ngôn ngữ này là các ngôn ngữ tương đối thuận lợi khi xử lý.
Hiện nay, chưa có một công cụ nào được coi là hiệu quả trong lĩnh vực khai phá văn
bản tiếng Việt. Nền Công nghệ thông tin của nước ta được phát triển hết sức mạnh
mẽ. Do nhu cầu hội nhập, nhu cầu phát triển kinh tế, văn hoá, Xã hội ngày càng tăng,
các thông tin được xử lý thông qua văn bản điện tử, qua web, qua email phát triển với
tốc độ chóng mặt. Từ đó, nhu cầu nghiên cứu và xây dựng các công cụ Khai phá dữ
liệu văn bản tiếng Việt đang được hết sức coi trọng.
bản tiếng Việt lại có những đặc trưng riêng của nó. Ta có thể nhận thấy được ngay sự
khác biệt về mặt kí pháp, cú pháp và ngữ pháp tiếng Việt trong các văn bản so với
các ngôn ngữ phổ biến trên thế giới như tiếng Anh, tiếng Pháp. Vậy thì những đặc
trưng này ảnh hưởng thế nào đến các kỹ thuật khai phá dữ liệu văn bản, ta cần phải
có những ký thuật mới nào để có thể tận dụng được những ưu thế của tiếng Việt cũng
như giải quyết được những phức tạp trong tiếng Việt.
Để trả lời được những câu hỏi này, đồ án sẽ đi từ những bước nghiên cứu về Khai
phá dữ liệu văn bản, tìm hiểu những đặc trưng của tiếng Việt, từ đó đề ra phương
hướng giúp giải quyết bài toán phân loại văn bản tiếng Việt phức tạp ở các nghiên
cứu cao hơn. Các kết quả của nghiên cứu trong đề tài thực tập này sẽ là nhưng bước
tiến đầu tiên cho luận văn tốt nghiệp của em với đề tài “Phân loại văn bản tiếng Việt
bằng phương pháp phân tích cú pháp.”
II. Cơ sở lý thuyết
1. Khái niệm Text Mining
a. Khai phá dữ liệu (Data Mining)
Việc sử dụng cơ sở dữ liệu vào hoạt động của một tổ chức đã được phát triển trong
vòng 60 năm trở lại đây. Với dữ liệu được thu thập trong suốt quá trình hoạt động
của một tổ chức, một nhu cầu được đặt ra là tìm kiếm và khai thác tri thức từ những
dữ liệu đó. Đó chính là xuất phát điểm của bài toán Phát hiện tri thức từ cơ sở dữ
liệu. Người ta nhận thấy rằng có rất nhiều tri thức mà chúng ta không lường trước
đang còn tiềm ẩn trong dữ liệu, nhiệm vụ của chúng ta là phát hiện, khám phá các tri
thức đó, phục vụ cho những nhu cầu sử dụng thông tin cao hơn, ví dụ như trong các
hệ chuyên gia hay hệ hỗ trợ quyết định.
Khai phá dữ liệu là giai đoạn chủ yếu của quá trình Phát hiện tri thức từ cơ sở dữ
mẫu dữ liệu vào một trong các lớp cho trước.
- Bài toán hồi quy (regression): Tìm một ánh xạ hồi quy từ một mẫu dữ
liệu vào một biến dự đoán có giá trị thực
- Bài toán lập nhóm ( clustering): Là việc mô tả chung để tìm ra các tập
xác định hữu hạn các nhóm hay các loại để mô tả dữ liệu.
- Bài toán tổng kết (summarization): Là việc đi tìm kiếm một mô tả
chung tóm tắt cho một tập con dữ liệu.
b. Khai phá dữ liệu văn bản (Text Mining)
Khai phá dữ liệu văn bản hay phát hiện tri thức từ các cơ sở dữ liệu văn bản (textual
databases) đề cập đến tiến trình trích lọc các mẫu hình thông tin (pattern) hay tri thức
(knowledge) đáng quan tâm hoặc có giá trị (non-trivial) từ các tài liệu văn bản phi
cấu trúc. Quá trình này có thể được coi là việc mở rộng kỹ thuật Khai phá dữ liệu
truyền thống, vì như ch úng ta đã thấy (đã được đề cập ở trên) kỹ thuật Khai phá dữ
liệu truyền thống (DataMining) hướng tới việc phát hiện tri thức từ các cơ sở dữ liệu
có cấu trúc.
Thông tin được lưu trữ dưới dạng nguyên sơ nhất chính là văn bản. Thậm chí ta có
thể thấy rằng dữ liệu tồn tại dưới dạng văn bản còn có khối lượng lớn hơn rất nhiều
so với các dữ liệu có cấu trúc khác. Thực tế, những nghiên cứu gần đây đã cho thấy
rằng có đến 80% thông tin của một tổ chức nằm dưới dạng văn bản. Đó có thể là các
công văn giấy tờ, các biểu mẫu điều tra, các phiếu đặt hàng, các yêu cầu khiếu nại,
giải quyết quyền lợi, các thư tín điện tử (email), các thông tin trên các website thương
mại Khi các nghiên cứu về cơ sở dữ liệu ra đời vào những năm 60, người ta tưởng
rằng có thể lưu mọi loại thông tin dưới dạng dữ liệu có cấu trúc. Nhưng trên thực tế
sau gần 50 năm phát triển, người ta vẫn dùng các hệ thống lưu trữ ở dạng văn bản và
thậm trí còn có xu hướng dùng thường xuyên hơn. Từ đó người ta có thể tin rằng các
sản phẩm Khai phá dữ liệu văn bản có thể có giá trị thương mại cao hơn rất nhiều lần
so với các sản phẩm Khai phá dữ liệu truyền thống khác. Tuy nhiên ta cũng có thể
dạng phi cấu trúc về dạng có cấu trúc. Ví dụ, với văn bản Tổ chức này
to lắm, hệ thống sẽ cố gắng phân tích thành Tổ chức|này|to|lắm. Các từ
được lưu riêng rẽ một cách có cấu trúc để tiện cho việc xử lý.
- Loại bỏ các thông tin không cần thiết. Ở bước này, bộ phân tích
tìm cách loại bỏ các thông tin vô ích từ văn bản. Bước này phụ thuộc
rất nhiều vào ngôn ngữ đang được phân tích và kỹ thuật sẽ được dùng
để phân tích ỏ bước tiếp theo. Ví dụ, nếu kỹ thuật phân tích văn bản chỉ
dựa vào xác xuất xuất hiện từ khoá, khi đó ta có thể loại bỏ các từ phụ
như: nếu, thì, thế nhưng, như vậy…
- Khai phá dữ liệu đã được giản lược với các kỹ thuật khai phá dữ
liệu (data mining) truyền thống.
Có rất nhiều kỹ thuật và phương pháp tốt được sử dụng cho Text Mining để tìm ra
các kiến trúc mới, các mẫu mới, và các liên kết mới. Các bước tiền xử lý là các kỹ
thuật rất phức tạp nhằm phân tích một phân lớp đặc biệt thành các thuộc tính đặc biệt,
sau đó tiến hành áp dụng các phương pháp khai phá dữ liệu kinh điển tức là phân tích
thống kê và phân tích các liên kết. Các bước còn lại sẽ khai phá cả văn bản đầy đủ từ
tập các văn bản, ví dụ như phân lớp văn bản.
Mục tiêu cuối cùng của Text Mining thường là đường lối hiệu quả, hoàn thiện, và
đặc trưng để trình diễn và tìm kiếm các tập hợp rộng lớn của các văn bản. Do đó, các
kỹ thuật chính của Text Mining có thể được phân phân ra thành các nhiệm vụ mà
chúng thực hiện khi xử lý khai phá văn bản: loại thông tin mà chúng có thể trích ra và
loại phân tích được thực hiện bởi chúng.
Các loại thông tin được trích ra có thể là:
- Các nhãn: Giả sử, được liên kết với mỗi văn bản là tập các nhãn
các thao tác khai phá tri thức được thực hiện trên các nhãn của mỗi văn
bản. Nói chung, có thể giả sử rằng các nhãn tương ứng với các từ khoá,
mỗi một từ khoá có quan hệ với một chủ đề cụ thể nào đó.
ra quyết định xử lý. Với mỗi xử lý phân nhóm, khi đưa ra một tài liệu, một quyết
định được đưa ra nó có thuộc một lớp nào hay không. Nếu nó thuộc một phân lớp
nào đó thì phải chỉ ra phân lớp mà nó thuộc vào. Ví dụ, đưa ra một chủ đề về thể
thao, cần phải đưa ra quyết định rằng chủ đề đó thuộc các phân lớp cờ vua, quần vợtt,
cầu lông, bơi lội hay bất cứ một môn thể thao nào khác. Các hệ thống phân loại văn
bản thường làm việc với một thuật toán tự học (learning algorithm). Thuật toán đó
được cung cấp một tập mẫu để phục vụ cho việc dạy học. Tập mẫu này bao gồm một
tập các thực thể có gán nhãn được phân lớp trước có dạng (x, y) ở đó x là thực thể
được phân lớp, y là nhãn (hay phân lớp) được gán cho nó. Với cơ cấu cơ sở như vậy,
khi một thực thể được cung cấp cho hệ thống, nó sẽ cố gắng suy ra một hàm toán học
từ tập đào tạo mẫu và ánh xạ thực thể mới đó vào một phân lớp. Phân lớp văn bản là
bài toán hay và đang có những bước phát triển hết sức quan trọng mà nguyên nhân
chủ yếu do sự phát triển mạnh mẽ gần đây của các thông tin nguyên trực tuyến.
b. Các phương pháp phân loại văn bản
b.1. Sử dụng từ điển phân cấp chủ đề
Một phương pháp thống kê phân lớp văn bản được điều khiển bởi một từ điển chủ đề
có phân cấp được đề xuất. Phương pháp này sử dụng một từ điển với một cấu trúc
đơn giản. Từ điển này có thể dạy được dễ dàng trên một tập hợp tài liệu được phân
lớp bằng tay và có thể dịch được tự động sang nhiều ngôn ngữ khác nhau.
Chúng ta xem xét nhiệm vụ phân loại văn bản bởi chủ đề của tài liệu: ví dụ, một số
tài liệu về những động vật, và một số khác nói về vấn đề công nghiệp. Chúng ta giả
sử rằng danh sách chủ đề là lớn nhưng cố định. Giải thuật của chúng ta không thu
được những chủ đề từ thân của tài liệu nhưng thay vào đó, nó liên hệ tài liệu với một
trong những chủ đề được liệt kê trong từ điển hệ thống. Kết quả là phép đo (về phần
trăm) sự tương ứng của tài liệu với mỗi từngchủ đề có sẵn.
Có một vấn về xuất hiện là độ tối ưu, hay độ hợp lý, độ chi tiết cho phân loại như
vậy. Ví dụ, khi phân loại tin tức trên internet với một người đọc “bình thường”,
Phần thứ hai của giải thuật có trách nhiệm lan truyền các tần suất tìm thấy trên cây
[1]. Với phần giải thuật này, chúng ta có thể chỉ ra rằng một tài liệu đề cập đến chủ
về những động vật có vú, những động vật thân mềm, những động vật giáp sát ở nút
lá, phù hợp với chủ đề về những động vật, các sinh vật sống và tự nhiên không ở nút
lá.
b.1.2. Sự phù hợp và sự phân biệt của các trọng số
Thay vì các danh sách từ đơn giản, một số trọng số có thể được sử dụng bởi giải thuật
để định nghĩa (1) phép đo định lượng sự phù hợp của các từ với các chủ đề và (2) đo
mức quan trọng của các nút của thuộc cây phân cấp [1].
Loại trọng số đầu tiên, chúng ta gọi là các trọng số sự phù hợp, có liên hệ với các liên
kết giữa các từ và các chủ đề và các liên kết giữa các nút trên cây. Ví dụ, nếu tài liệu
đề cập đến từ “bộ chế hòa khí” thì nó đang nói về ô tô. Làm sao phù hợp hoá từ “bộ
chế hòa khí” hoặc “bánh lái” cho những chủ đề về ô tô, độ mạnh trong các quan hệ
này như thế nào? Về trực giác, đóng góp của từ “bộ chế hòa khí” vào chủ đề ô tô lớn
hơn sự đóng góp của từ “bánh lái”; như vậy, mối liên kết giữa “bánh lái” và chủ đề
ô tô được gán một trọng số nhỏ hơn.
Có thể thấy rằng, trọng số
i
k
w
của một liên kết như vậy (giữa một từ k và một chủ đề
j, hay giữa một chủ đề k và chủ đề cha j của nó trên cây) có thể được định nghĩa như
độ phù hợp trung bình cho chủ đề của những tài liệu được đưa ra chứa từ này:
của các tài liệu cho các lĩnh vực một cách độc lập. Thay vào
đó, một phép đo như vậy được đánh giá bằng tay bởi chuyên gia, và sau đó hệ thống
được huấn luyện trên hợp các tài liệu. Các chuyên gia có thể phải thường xuyên gán
những trọng số thích hợp bằng tay cho các tài liệu.
Cả hai cách tiếp cận này yêu cầu rằng được làm băng tay. Để tránh điều đó, với một
phép toán gần đúng, với những đề tài đủ hẹp, có thể giả thiết rằng những văn bản trên
về chủ đề này gần như không bao giờ xuất hiện trong những văn bản thông thường.
Khi đó biểu thức của các trọng số có thể được đơn giản hóa:
Di
k
i
j
k
n
w
1
[1].
Yêu cầu chính cho loại thứ hai của các trọng số - sự phân biệt các trọng số - là khả
năng phân biệt giữa chúng: một chủ đề cần phải tương ứng tới một tập con (đáng kể)
những tài liệu. Mặt khác, những chủ đề mà tương ứng với gần như tất cả các tài liệu
trong cơ sở dữ liệu thì chúng là vô ích vì chúng không cho phép đưa ra bất kỳ kết
luận phù hợp nào với các tài liệu tương ứng.
Như vậy, trọng số
j
xác định bởi giải thuật này mà không tính đến giá trị w
j
. Trong một yêu cầu chính xác
hơn, lý thuyết thông tin có thể được áp dụng cho phép tính các trọng số. Ở đây chúng
ta không bàn luận về ý tưởng này.
Với cách tiếp cận này, với một cơ sở dữ liệu sinh vật, trọng số của các chủ đề như
các động vật, các sinh vật sống, thiên nhiên sẽ thấp vì tất cả các tài liệu đề cập bằng
nhau về các chủ đề này. Mặt khác, do có sự pha trộn trong các tờ báo trọng số của
chúng sẽ cao, do nhiều tài liệu trong đó không tương ứng tới những chủ đề này,
nhưng vẫn góp phần đề cập đáng kể đến các chủ đề này.
b.2. Phương pháp cây quyết định (Decision tree)
Phương pháp phân lớp văn bản Cây quyết định (decision tree - DT) được Mitchell
đưa ra vào năm 1996 [2]. Trên cây gồm các nút trong được gán nhãn bởi các thuật
ngữ, các nhánh cây chứa nút được gán nhãn bằng các trọng số của thuật ngữ tương
ứng đối với tài liệu mẫu, và các lá cây được gắn nhãn bởi các phân lớp. Một hệ thống
phân lớp như vậy sẽ phân loại một tài liệu d
j
bởi phép thử đệ quy các trọng số mà các
thuật ngữ được gán nhãn cho các nút trong với vec-tơ
j
d
cho đến khi với tới một nút
lá. Khi đó, nhãn của nút này được gán cho d
j
. Đa số các phướng pháp phân loại như
nông nghiệp
lúa mì lúa mì
lúa mì
lúa mì
lúa mì
lúa mì lúa mì
lúa mì
Hình 1: Một ví dụ về cây quyết định
như vậy một cây con riêng biệt. Quá trình đệ quy lặp lại trên các cây con cho đến khi
mỗi lá của cây phát sinh chứa các khái niệm huấn luyên gán cho cùng phạm trù c
i
,
khi đó nó được chọn như là nhãn của lá đó. Bước quyết định là việc chọn thuật ngữ t
k
ở đó sẽ xảy ra thao tác chia, một phương pháp lựa chọn là chọn theo lợi ích thông tin
hay entropi. Tuy nhiên, một cây "quá lớn lên" có thể bị sập, nếu như các nhánh cây
quá đặc biệt với dữ liệu huấn luyện.
Đa số các phướng pháp dạy cây quyết định như vậy bao gồm một phương pháp thêm
cây và một phương pháp xén bớt cây để loại bỏ những nhánh quá đặc biệt [2].
3. Bài toán thu thập thông tin (Information retrieval - IR)
a. Khái niệm thu thập thông tin
Thu thập thông tin (Information Retrieval) là một trong những bài toán khai phá dữ
liệu văn bản. Bài toán này chủ yếu tập trung vào việc tìm ra các tài liệu trong một tập
hợp các tài liệu có sẵn theo một điều kiện nào đó. Các điều kiện này có thể là một
truy vấn hay một văn bản.
Khi điều kiện đưa vào là một truy vấn, bài toán sẽ đưa ra các suy luận để tìm ra đặc
k
ết
qu
ả
Đánh giá kết quả
Tốt ?
Dừng lại
Đúng
C
ô
ng th
ức
ho
á
l
ại
Sai
Hình 2. Mô hình thu thập thông tin chuẩn
bản có nội dung liên quan nội tại đến các văn bản được sử dụng trước đó. Hình 2 đưa
ra một mô hình tương tác thu thập thông tin chuẩn. Hiển nhiên, việc thu thập thông
tin là quá trình xử lý lặp lại, với xử lý đầu vào và đầu ra bao gồm vòng lặp tính toán
Phần lớn các kỹ thuật chuẩn được phát triển từ những năm 1960 đến những năm
1970, và phần lớn trong số chúng dựa trên các thuật toán và công thức toán học
truyền thống. Trong bài nghiên cứu này chỉ đề cập đến các mô hình mô hình Boolean
(Boolean model), mô hình không gian vec-tơ (vector space model).
b.1.1. Mô hình Boolean
Boolean là mô hình nghiên cứu chiến lượng, đơn giản nhất, và được thể hiện để đưa
ra ý tưởng cơ bản cho các chiến lượng xa hơn [4]. Hầu hết đồng ý rằng tất cả các
chiến lược nghiên cứu dựa trên việc so sánh giữa câu truy vấn và các tài liệu được
lưu trữ. Mô hình Boolean nghiên cứu chiến lược thu thập các tài liệu được gán giá trị
“true” ứng với truy vấn đó. Giả sử tài liệu d
j
được biểu diễn thành tập các thuật ngữ
kj
tttd , ,,
21
, ở đó t
i
là một thuật ngữ xuất hiện trong tài liệu d
j
. Một truy vấn
được biểu diễn bằng một biểu thức logic của các thuật ngữ bao gồm các toán tử
AND, OR, và NOT.
Ví dụ với truy vấn:
Q=(K1 AND (NOT K2)) OR K3
Ở đây phép tìm kiếm Boolean sẽ nhận được tất cả các tài liệu có liên kết với K1
nhưng không liên kết với K2 hoặc các tài liệu có liên kết với K3.
Cụ thể hơn, với một câu truy vấn:
N
DDD , ,,
21
và một truy vấn Q, chúng
ta đi tính N giá trị của hàm so sánh M(Q,D
i
). Để nhận được các tài liệu liên quan,
chúng ta cần sắp xếp các tài liệu giảm dần của hàm so sánh và bỏ đi tất cả các tài liệu
ứng với hàm so sánh nhỏ hơn một ngưỡng cắt cho trước. Ngưỡng này có thể được
định nghĩa như một giá trị hàm so sánh M hoặc là một gí trị so sánh với một văn bản
nào đó. Thách thức lớn nhất của kỹ thuật này là tìm được cách chọn giá trị ngưỡng
cắt phù hợp.
Để thực hiện mô hình tìm kiếm Boolean, chúng ta có thể sử dụng một số kỹ thuật
hiệu quả. Tuy nhiên, các thuật toán đó không được đề cập trong bài nghiên cứu này.
b.1.1.3. Thực hiện
Mỗi một tài liệu cần được đánh chỉ mục (index) bởi một số thuật ngữ, mỗi thuật ngữ
này miêu tả nội dung của tài liêu. Các thuật ngữ này thường được gọi là các thuật
ngữ đã gắn chỉ mục hay các từ khoá. Để việc thu thập được thực hiện nhanh chóng,
chúng ta nên sắp xếp các từ này. Các từ khoá được lưu trữ trong tệp tin chỉ mục, và
với mỗi từ khoá thuộc bộ từ vựng sẽ có danh sách các tài liệu chứa từ khoá này. Để
thoả mãn một truy vấn, chúng ta sẽ thực hiện tìm kiếm trên file chỉ mục này.
Kỹ thuật này được sử dụng bởi nhiều hệ thống thương mại với các độ tối ưu khác
nhau của tệp tin chỉ mục tìm kiếm (ví dụ B-trees).
Các nhược điểm của kỹ thuật này là:
- Lưu trữ quá nhiều (có thể cần không gian lưu trữ lên đến 300% so với
đâu đầu, ta có hai vec-tơ được hinh hoạ trên đồ thị 2-chiều như sau:
Các trọng số trên mỗi vec-tơ biểu diễn xác suất xuất hiện của các thuật ngữ trong
mỗi bài báo. Tài liệu D
1
, thuật ngữ Đau đầu, Magê xuất hiện với xác suất lần lượt
là 0.75, 0.25. Tài liệu D
2
, thuật ngữ Đau đầu, Magê xuất hiện với xác suất lần lượt
là 0.2, 0.6.
Trong mô hình này, một truy vấn được đối xử như một tài liệu [4] (xem hình 4). Hay
nói cách khác, chúng ta sẽ biểu câu truy vấn bởi một vec-tơ trọng số của các thuật
ngữ. Sau khi thực hiện việc phân tích câu truy vấn ta sẽ thu được một vec-tơ. Việc
thực hiện câu truy vấn này thực chất là việc so sách vec-tơ của câu truy vấn với các
vec-tơ đại diện cho các tài liệu theo một tiêu chuẩn nào đó. Kết quả ta sẽ thu được
Magê
Đau đầu
1.0
1.0
D
1
(0.25, 0.75)
D
2
(0.6, 0.2)
Hình 3. Đồ thị biểu diễn các vec-tơ của bài báo D
1
và D
2
tài liệu D1, D2