Website: Email : Tel : 0918.775.368
XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG
VĂN BẢN TIẾNG VIỆT
DANH MỤC TỪ VIẾT TẮT
STT Từ viết tắt Giải nghĩa
1. KDD
Knowledge Discovery in Databases
Phát hiện tri thức trong cơ sở dữ liệu
2. TFxIDF
Term Frequency times Inverse Document Frequency
3 IR
Hệ thu thập thông tin
Information Retrieval
4. NLP
Natural Language Processing
Xử lý ngôn ngữ tự nhiên
5. SVM
Support Vector Machine
Mô hình máy vector hỗ trợ
6. CFG
Context Free Grammar
Văn phạm phi ngữ cảnh
7. CSDL Cơ sở dữ liệu
8. POS
Part of Speech
Từ loại
9. RST
Rhetorical Structure Theory
Lý thuyết cấu trúc tu từ
1
Website: Email : Tel : 0918.775.368
1.4.3. Bài toán Đánh chỉ mục - Tìm kiếm........................................................................20
1.4.4. Bài toán Tóm tắt văn bản .......................................................................................20
1.5. Kết chương........................................................................................................21
Chương 2. XỬ LÝ NGÔN NGỮ TỰ NHIÊN..................................................22
2.1. Tổng quan về Xử lý ngôn ngữ tự nhiên............................................................22
2.2. Các vấn đề cơ bản của Xử lý ngôn ngữ tự nhiên..............................................24
2.2.1. Phân tách thuật ngữ - Phân tách đoạn và câu......................................................24
2.2.2. Gán nhãn từ loại........................................................................................................25
2.2.3. Phân tích cú pháp......................................................................................................26
4
Website: Email : Tel : 0918.775.368
2.2.4. Phân tích ngữ nghĩa...................................................................................................27
2.3. Các đặc trưng ngôn ngữ của tiếng Việt............................................................27
2.3.1 Đặc trưng về ngữ âm và âm vị..................................................................................27
2.3.2 Đặc trưng về từ pháp và hình thái...........................................................................28
2.3.3. Đặc trưng về ngữ pháp............................................................................................29
2.4. Kết chương........................................................................................................31
Chương 3. BÀI TOÁN TÓM TẮT VĂN BẢN................................................32
3.1. Giới thiệu chung................................................................................................32
3.1.1. Tóm tắt văn bản là gì ?.............................................................................................33
3.1.2. Các tiêu chí đánh giá.................................................................................................35
3.1.3. Phân loại bài toán Tóm tắt văn bản........................................................................36
3.2. Mô hình Tóm tắt văn bản..................................................................................39
3.2.1. Mô hình chung...........................................................................................................39
3.2.2. Các phương pháp áp dụng trong pha Phân tích....................................................41
3.2.2.1. Phương pháp thống kê (Statistical Methods)...........................................42
3.2.2.2 . Phương pháp cấu trúc.............................................................................43
3.2.2.3. Kết luận về các phương pháp trong pha Phân tích..................................45
3.2.3. Các phương pháp áp dụng trong pha Biến đổi......................................................46
3.2.3.1. Giản lược về cấu trúc câu ( Syntactic Condensation ).............................46
4.3. Lựa chọn, cài đặt các kĩ thuật sử dụng trong bài toán Tóm tắt .......................67
4.3.1. Các phương pháp trong pha Phân tích...................................................................67
a. Phương pháp Title............................................................................................67
b. Phương pháp Heading......................................................................................68
c. Phương pháp NamedEntity - NE.....................................................................69
d. Phương pháp Quan hệ liên đoạn (Paragraph Cooccurence).............................70
e. Phương pháp Tần suất xuất hiện của thuật ngữ................................................71
f. Phương pháp TFxIPF (Term Frequency times Inverted Paragraph Frequency)
..............................................................................................................................72
4.3.2. Các phương pháp trong pha Biến đổi.....................................................................73
4.3.2.1. Biến đổi nhờ vào rút gọn câu.................................................................73
4.3.2.2. Giản lược câu về mặt ngữ nghĩa..............................................................75
4.3.3. Các phương pháp trong pha Hiển thị.....................................................................76
4.4. Kết chương........................................................................................................76
6
Website: Email : Tel : 0918.775.368
Chương 5. KIỂM THỬ VÀ ĐÁNH GIÁ ỨNG DỤNG...................................77
5.1. Giao diện kết quả thực nghiệm.........................................................................77
5.2. Tập kiểm thử.....................................................................................................82
5.3. Kết quả kiểm thử và đánh giá............................................................................83
5.3.1. Kiểm thử thuật toán tách term tiếng Việt..............................................................83
5.3.2. Kiểm thử thuật toán tách named Entity.................................................................84
5.3.3. Kiểm thử, đánh giá module chọn câu quan trọng................................................84
5.3.3.1. Phương pháp truyền thống......................................................................85
5.3.3.2. Phương pháp đánh giá theo độ tương tự nội dung..................................86
5.3.4. Kiểm thử đánh giá rút gọn câu................................................................................87
7
Website: Email : Tel : 0918.775.368
LỜI NÓI ĐẦU
Hai thập kỷ gần đây, khắp nơi trên thế giới tràn ngập thông tin. Chính sự phát
tìm hiểu nghiên cứu cũng như xây dựng các ứng dụng mang tính thực tiễn cao. Tuy
nhiên, vẫn còn rất nhiều vấn đề cần phải giải quyết, đặc biệt là ở Việt Nam, khi Khai phá
văn bản mới được chúng ta quan tâm tới trong khoảng chục năm trở lại đây. Các bài toán
điển hình của Khai phá văn bản như Phân lớp văn bản, Phân nhóm văn bản hiện mới
trong quá trình nghiên cứu, chưa có một sản phẩm nào mang tính thương mại trên thị
8
Website: Email : Tel : 0918.775.368
trường. Một bài toán khác của Khai phá văn bản là Thu thập thông tin đã được cài đặt
thành các ứng dụng tìm kiếm trên mạng như các bộ máy tìm kiếm của Netnam
(PanVietNam) hay Tinh Vân (Vinaseek). Nhưng những ứng dụng như vậy còn quá ít và
chưa đáp ứng đầy đủ cho các nhu cầu to lớn của nền Công nghệ thông tin Việt Nam.
Trong khi lĩnh vực Khai phá dữ liệu mới trở thành đề tài nóng bỏng, cấp thiết gần
đây do sự bùng nổ thông tin toàn cầu thì trong ngành Khoa học máy tính, có một lĩnh
vực khác đã ra đời cách đây khá lâu, và cũng đã có nhiều thành tựu trong suốt quá trình
phát triển của mình. Đó là lĩnh vực Xử lý ngôn ngữ tự nhiên. Mục đích của Xử lý ngôn
ngữ tự nhiên là giúp cho máy tính và con người hiểu nhau hơn, thuận tiện hơn trong quá
trình làm việc và đem lại lợi ích tối đa cho con người. Thông qua các giao tiếp thân
thiện, dễ hiểu giữa người và máy, việc đưa Công nghệ thông tin thật sự đi vào đời sống
nhân loại là mục tiêu lớn nhất mà Xử lý ngôn ngữ tự nhiên hướng tới.
Xử lý ngôn ngữ tự nhiên là quá trình xử lý sao cho máy tính có thể hiểu được một
thông tin giống như cách mà con người hiểu thông tin đó thông qua các khía cạnh ngôn
ngữ bao hàm trong nó. Theo định nghĩa này thì Xử lý ngôn ngữ tự nhiên là một phần của
Trí tuệ nhân tạo - làm cho máy tính nắm bắt, thao tác, mô phỏng cách mà con người thực
hiện. Vì vậy các phương pháp của Trí tuệ nhân tạo thường được dùng trong lĩnh vực Xử
lý ngôn ngữ tự nhiên, kết hợp với các đặc trưng của ngành ngôn ngữ học như hình thái,
ngữ pháp, ngữ nghĩa… Các bài toán điển hình của Xử lý ngôn ngữ tự nhiên là Trả lời tự
động, Dịch máy, Sinh văn bản tự động, Kiểm tra chính tả…
Như vậy, hai lĩnh vực Khai phá dữ liệu và Xử lý ngôn ngữ tự nhiên có nhiều
điểm khác biệt mặc dù cùng sử dụng một số các phương pháp của Trí tuệ nhân tạo. Nói
đến Khai phá dữ liệu là nói đến việc tìm ra thông tin quan trọng, thông tin mong muốn
Đồ án gồm các phần sau :
Chương 1. Trình bày về lĩnh vực Khai phá dữ liệu nói chung và Khai phá văn bản
nói riêng, các vấn đề mô hình hóa văn bản cũng như đề cập sơ qua một số bài toán Khai
phá văn bản điển hình.
Chương 2. Trình bày về lĩnh vực Xử lý ngôn ngữ tự nhiên, các vấn đề chung của
Xử lý ngôn ngữ tự nhiên, các đặc trưng ngôn ngữ tiếng Việt cũng như các vấn đề riêng
khi xử lý tự động văn bản tiếng Việt.
Chương 3. Trình bày những vấn đề cơ bản về bài toán Tóm tắt văn bản, bao gồm
mô tả khái niệm chung và phân loại một bài toán Tóm tắt văn bản, lịch sử phát triển và
những ứng dụng của Tóm tắt văn bản, mô hình chung và các phương pháp xây dựng
một ứng dụng Tóm tắt văn bản…
Chương 4. Trình bày việc thiết kế và xây dựng ứng dụng tóm lược văn bản tiếng
Việt VTAS dựa trên một số phương pháp trong các phương pháp đã nêu ở chương 3.
Ngoài ra trong chương này, những cài đặt tiền xử lý văn bản cũng được em đề cập đến
với những nét mới so với các công việc tương tự trước đây của một số nhà nghiên cứu
lĩnh vực Khai phá văn bản tiếng Việt.
Chương 5. Trình bày việc kiểm thử và đánh giá ứng dụng VTAS, các kết quả
thực nghiệm của chương trình.
Sau đó là phần kết luận và các hướng phát triển sắp tới của đề tài này.
Cuối cùng là phần tài liệu tham khảo và các phụ lục của đồ án.
10
Website: Email : Tel : 0918.775.368
Chương 1. KHAI PHÁ VĂN BẢN
Trong chương này em xin trình bày những vấn đề cơ bản của lĩnh vực Khai
phá dữ liệu và Khai phá văn bản :
Khái niệm chung về Khai phá dữ liệu và Khai phá văn bản
Các mô hình biểu diễn văn bản
Một số bài toán điển hình của lĩnh vực Khai phá văn bản
1.1. Khai phá dữ liệu
Khai phá dữ liệu, thuật ngữ mới ra đời từ đầu những năm 90 của thế kỷ trước,
liệu như chúng ta vẫn từng nghĩ từ trước đến nay.
Các ứng dụng Khai phá dữ liệu hiện tại đã tiến xa trong các môi trường thương
mại cũng là vì khả năng dự đoán được các xu hướng tương lai của một thông tin cần
quan tâm - khía cạnh nổi bật của tri thức. Oracle, IBM, Yahoo, Microsoft đã tích hợp
những nghiên cứu Khai phá dữ liệu hết sức nghiêm túc và thành công của mình vào các
họ sản phẩm, các nền tảng (Platform) dành cho các doanh nghiệp cỡ lớn cũng như các
ứng dụng phổ biến cho cá nhân người dùng. Các kỹ thuật của Khai phá dữ liệu cũng
được áp dụng rộng rãi trong Data warehousing - quá trình lưu trữ và quản lý tập trung
các cơ sở dữ liệu khác nhau bằng các công cụ quản lý tiên tiến trong việc lưu trữ, truyền
tải, phân tích và khai thác dữ liệu với dung lượng lưu trữ cực lớn và tốc độ xử lý cực
mạnh.
1.2. Khai phá văn bản
Trong cơ sở dữ liệu, phần lớn dữ liệu ở dạng văn bản. Lĩnh vực con của Khai phá
dữ liệu áp dụng với dữ liệu văn bản phi cấu trúc được gọi là Khai phá văn bản (Text
Mining). Các kỹ thuật chính của Khai phá văn bản là Nhận dạng mẫu, Trích rút đặc
trưng, Thống kê tần suất từ khóa, Phân loại…, các phương pháp Trí tuệ Nhân tạo như
Học máy, Mạng Nơ-ron, Giải thuật Di truyền…, các phương pháp Xử lý ngôn ngữ tự
nhiên…
Khai phá văn bản do làm việc với các dữ liệu phi cấu trúc nên cần phải có
phương tiện để mô hình hóa chúng, tiền xử lý cho các bước tiếp theo. Nói chung Khai
phá văn bản gồm các bước: Thu thập dữ liệu ở dạng văn bản, làm sạch chúng, phân tích
biến đổi, lấy thông tin và hiển thị thông tin.
Mô hình chung của Khai phá văn bản :
12
Website: Email : Tel : 0918.775.368
Hình 1.1: Mô hình khai phá văn bản chung
Công việc thu thập và công việc làm sạch dữ liệu văn bản có thể diễn ra theo thứ
tự thu thập trước, làm sạch sau và cũng có thể ngược lại tùy yêu cầu. Thậm chí, việc thu
thập và làm sạch còn được lặp đi lặp lại nhiều lần để có được một kết quả tối ưu cho các
bước tiếp. Do vậy quá trình thu thập – làm sạch là quá trình chung và hết sức quan trọng
thành phần liên kết. Độ liên quan này chỉ có thể mang hai giá trị : 0 – văn bản không phù
hợp với truy vấn và 1 – văn bản phù hợp.
Do vậy có thể thấy rằng hạn chế lớn nhất của mô hình này đó là việc đánh giá độ
liên quan chỉ trả về hai kết quả, hoặc phù hợp hoặc không, như vậy yêu cầu của hệ thống
khi cần sắp xếp và chọn lựa các văn bản theo mức độ liên quan đến truy vấn sẽ không
đạt. Độ liên quan của mô hình này không thể phân chia thành các mức khác nhau, do vậy
không phản ánh được thực tế là việc liên quan giữa văn bản và truy vấn có thể là mờ,
không chắn chắn. Hạn chế này được gỡ bỏ khi ta sử dụng một mô hình tổng quát hơn –
Mô hình không gian vector (Vector Space Model).
1.3.2. Mô hình không gian vector
a. Mô hình không gian vector chuẩn
Như trên đã đề cập, mô hình không gian vector là mô hình tổng quát hơn mô hình
Boolean. Các văn bản được biểu diễn thành các vector nhiều chiều, với trọng số không
chỉ mang hai giá trị là 0 hay 1 mà có thể mang các giá trị khác tùy theo cách đánh giá,
tính toán. Một khác biệt nữa so với mô hình boolean là các phép toán cơ bản của mô
hình không gian vector. Các phép toán đại số quan hệ dĩ nhiên không phù hợp nữa, thay
vào đó là các phép toán vector như cộng hai vector, nhân hai vector, tích vô hướng…
Khi biểu diễn văn bản thành các vector, vấn đề về truy vấn và xác định độ liên
quan hoàn toàn được giải quyết. Truy vấn là kết quả của các phép toán vector giữa các
vector biểu diễn cho những văn bản cấu thành nên truy vấn, như vậy, truy vấn trong
trường hợp này cũng là một văn bản đặc biệt. Việc xác định độ liên quan giữa truy vấn
và văn bản được quy thành độ liên quan giữa văn bản và văn bản. Hai văn bản là hai
vector, vậy khoảng cách hay góc giữa chúng đều có thể đại diện cho sự liên quan giữa
hai văn bản này. Tất nhiên, để áp dụng được các phép toán vector cơ bản, hai vector cần
chuẩn hóa về số chiều (độ dài).
14
Website: Email : Tel : 0918.775.368
Biểu diễn hai văn bản lần lượt là hai vector :
x(w
1,x
xi
1
2
1
2
1
,,
)(
)(
,
,
Theo cách biểu diễn như trên người ta không quan tâm đến chỉ số của một term,
vì vốn nó đã được sắp thứ tự ngay trong vector biểu diễn văn bản. Nghĩa là với vector
x(w
1,x
,w
2,x
,….,w
n,x
) kể trên, w
1,x
chính là trọng số của term có chỉ số là 1, w
2.x
là trọng số
của term có chỉ số là 2,…Việc đánh chỉ số cho term thường dựa vào một danh sách thuật
ngữ. Do vậy ta sẽ quan tâm đến việc trọng số của term được xác định ra sao. Trọng số
của term, ngoài cách gán giá trị là 0 hay 1 tùy vào sự xuất hiện của term như mô hình
boolean, người ta còn có thể gán các giá trị tần suất cho chúng. Việc gán các giá trị tần
suất cho trọng số của term cũng là một điều hợp lý vì người ta có thể đánh giá độ quan
trọng của một term thông qua tấn suất xuất hiện của term đó trong văn bản. Giá trị này
N
tf
idftfw
log
,
×=
×=
Như vậy giá trị TFxIDF có thể đại diện cho sự quan trọng, mối liên quan của term
t với một tập hợp các văn bản cho trước.
Quay lại với mô hình không gian vector, chúng ta hoàn toàn có thể dùng giá trị
TFxIDF gán cho trọng số của term. Tất nhiên khi làm như vậy thì vector biểu diễn của
một văn bản không những phụ thuộc vào từ điển và bản thân văn bản đó mà nó còn phụ
thuộc vào những văn bản còn lại trong hệ thống đang xét. Việc tính độ liên quan hoàn
toàn có thể thực hiện theo các công thức tính khoảng cách Euclidean hay Cosine như đã
nêu ở trên, tuy nhiên với một tập các văn bản ổn định, không đổi của hệ thống thì chúng
ta có thể tối ưu việc xác định độ liên quan của một văn bản và các văn bản khác.
Một trong những kỹ thuật tối ưu như sau : giả sử ta muốn xác định độ liên quan
của một văn bản d và một văn bản Di trong tập các văn bản của hệ thống, ta sẽ tính trước
độ liên quan TFxIDF của tất cả các term có trong từ điển với D
i
, lưu trữ ở đâu đó. Sau
này, ta xem các term nào có mặt trong d, tính độ liên quan của term đó với D
i
bằng cách
nhân số lần xuất hiện của nó trong d với các giá trị TFxIDF đã tính sẵn, sau đó cộng tất
cả kết quả này lại ta sẽ có được độ liên quan của văn bản d và Di. Tất nhiên, cách này sẽ
làm giảm thời gian tính toán khi xử lý nhưng đổi lại, chúng ta sẽ phải mất chi phí về tài
nguyên và thời gian khi lưu trữ các giá trị TFxIDF của tất cả các term trong từ điển với
tất cả các văn bản trong tập văn bản D. Kỹ thuật này được gọi là kỹ thuật ngoại tuyến -
Như vậy, thay vì biểu diễn vector văn bản dạng chuẩn, chúng ta còn có thể biểu
diễn chúng thành tuyến tính các vector thành phần. Các vector này có thể là các vector
đơn vị, các vectơ trực giao, trực chuẩn. Mỗi cách chọn các vector thành phần đưa lại cho
chúng ta các mô hình không gian vector tiên tiến hơn nhằm phục vụ tốt hơn những mục
đích hay những kết quả cho các bước xử lý văn bản tiếp sau.
Một trong những cách biểu diễn tuyến tính vector thành phần đó là kỹ thuật Đánh
chỉ mục khái niệm (Concept Indexing). Thay vì đơn vị văn bản là các term, đơn vị theo
kỹ thuật này là khái niệm. Mỗi khái niệm cũng là một vector. Vector biểu diễn văn bản
là tuyến tính của các vector này. Kỹ thuật Đánh chỉ mục khái niệm không dừng lại ở việc
mô tả văn bản mà thật sự nó là một kỹ thuật mới được nghiên cứu và đưa vào áp dụng
gần đây nhằm xây dựng các giải thuật tiên tiến cho các bài toán như Phân lớp văn bản,
Phân loại văn bản v.v...
1.3.3. Các mô hình biểu diễn văn bản khác
a. Mô hình Xác suất
Mô hình xác suất biểu diễn và sắp xếp văn bản thu được theo thứ tự giảm dần
của xác suất độ liên quan giữa truy vấn và các văn bản đối tượng [3].
Mô hình xác suất thường được dùng trong bài toán Tìm kiếm văn bản truyền
thống cũng như bài toán Thu thập thông tin ( Information Retrieval - IR ).
b. Mô hình Mạng Bayes
Mô hình mạng Bayes là sự kết hợp phần nào của mô hình xác suất và lý thuyết đồ
thị. Mạng Bayes được mô tả bởi một đồ thị có hướng, trong đó các nút là các biến ngẫu
nhiên, các cung là quan hệ nhân quả giữa các biến này. Trên cung có ghi các xác suất có
điều kiện [3,6].
Mô hình mạng Bayes thường được dùng cho các phương pháp học Bayes dựa
theo lý thuyết phân loại Bayes ( Naive Bayes Classify ).
17
Website: Email : Tel : 0918.775.368
c. Mô hình tập thô dung sai
Mô hình tập thô dung sai (Tolerance Rough Set Model) là một mô hình mới, tiên
tiến dựa trên lý thuyết về logic mờ và tập mờ (Fuzzy Set). Điều cốt lõi của lý thuyết này
thường xuyên (Frequent Term Set).
19
Website: Email : Tel : 0918.775.368
Hình 1.3: Mô tả bài toán Phân nhóm văn bản
1.4.3. Bài toán Đánh chỉ mục - Tìm kiếm
Một tên gọi khác phổ biến hơn của bài toán này là Thu thập thông tin
(Information Retrieval). Nói chính xác hơn bài toán Thu thập thông tin là bài toán cơ bản
của Khai phá dữ liệu, và là bài toán tổng quát hơn của bài toán Đánh chỉ mục - Tìm kiếm
(Indexing - Searching). Yêu cầu bài toán là tìm kiếm trong kho dữ liệu những văn bản
phù hợp với câu truy vấn đưa vào. Bước đánh chỉ mục thường giúp tìm kiếm nhanh hơn.
Bài toán này là cơ sở cho các Search Engine - những bộ máy tìm kiếm và trả về thông tin
- một trong những công cụ hũu ích nhất trên Internet giúp chúng ta có thể tìm được
thông tin cần thiết chỉ thông qua một câu truy vấn đơn giản. Hiện nay các ứng dụng tìm
kiếm kiểu này thường áp dụng các phương pháp truy hồi để tăng khả năng chính xác cho
dữ liệu tìm được. Bài toán này còn là đầu vào cho một số các bài toán khác [2,3,6].
1.4.4. Bài toán Tóm tắt văn bản
Quá trình tóm tắt là quá trình rút ra những thông tin quan trọng nhất từ một hay
nhiều nguồn văn bản để tạo ra một văn bản gọn hơn phục vụ cho một số nhiệm vụ hay
người dùng cụ thể. Bài toán tóm tắt văn bản (Text Summarization) là một trong những
bài toán khó cài đặt nhất nhưng cũng hữu ích nhất của lĩnh vực Khai phá văn bản. Một
số biến thể của bài toán này như sinh phụ đề tự động (Subtitling), sinh ý chính tài liệu
(Document Gisting), sinh tiêu đề văn bản (Header Generating)... Những thuật toán của
20
Website: Email : Tel : 0918.775.368
bài toán này cũng được dùng trong các bài toán tương tự như tóm tắt hình ảnh, âm thanh
- những dữ liệu đa phương tiện.
1.5. Kết chương
Trong chương này em đã đề cập đến những khái niệm cơ bản về Khai phá dữ
liệu, Khai phá văn bản, các mô hình biểu diễn văn bản và các bài toán điển hình của
Khai phá văn bản. Các chương sau em sẽ đi sâu vào việc trình bày những hiểu biết bài
• Phonology & Phonetics (Âm vị và Ngữ âm)
• Morphology (Hình thái học)
• Grammar (Ngữ pháp)
• Stôiantic (Ngữ nghĩa)
• Pragmatics (Ngữ dụng)
22
Website: Email : Tel : 0918.775.368
Âm vị và ngữ âm học là các ngành nghiên cứu của Ngôn ngữ học, chuyên
nghiên cứu về đơn vị phát âm, cách phát âm và các biến thái của chúng. Hướng ứng
dụng tương ứng của chúng thuộc Xử lý ngôn ngữ tự nhiên là ngành Xử lý - Nhận dạng
tiếng nói.
Hình thái học là ngành nghiên cứu về hình thái của từ, nghĩa là tùy thuộc vào
thời, thể, cách mà các từ có sự biến đổi hay kết hợp khác nhau. Các thành tựu của hình
thái học được các nhà khoa học về Máy tính sử dụng trong các nghiên cứu mà họ lấy từ
hay chữ là đơn vị để xử lý như Nhận dạng chữ viết, Kiểm tra và sửa chính tả…
Grammar là ngành nghiên cứu về ngữ pháp, bao gồm từ pháp và cú pháp. Từ
pháp đề cập đến các đặc tính từ loại (Part Of Speech), giống, số của từ. Một số nhà ngôn
ngữ cũng xếp Hình thái học vào vấn đề Từ pháp học. Cú pháp (Syntactic) đề cập đến sự
liên kết giữa các từ, các ngữ trong câu. Ngữ pháp và ngữ nghĩa là hai vấn đề mà Xử lý
ngôn ngữ tự nhiên quan tâm nhất và cũng đạt được nhiều kết quả nghiên cứu nhất cho
đến hiện tại.
Syntactic đề cập đến vấn đề ngữ nghĩa : một từ, ngữ hay câu được “hiểu” như
thế nào, hàm chứa ý gì, quan hệ về nghĩa giữa các từ với nhau thế nào... Đối với tiếng
Anh đã có nhiều nghiên cứu về ngữ nghĩa và thậm chí nhiều mạng ngữ nghĩa - mô tả
quan hệ về nghĩa giữa các từ theo nhiều khía cạnh - đã được xây dựng. Nổi tiếng nhất có
lẽ là WordNet [9,18,24]. Mạng ngữ nghĩa này là một kho tri thức khổng lồ được cung
cấp miễn phí cho việc nghiên cứu. Hiện tại nhiều mạng Wordnet cho các thứ tiếng khác
ngoài tiếng Anh cũng đã được xây dựng, tuy nhiên mạng Wordnet Việt nam hiện tại vẫn
chưa được chính thức nghiên cứu và xây dựng.
Pragmatic - Ngữ dụng học - là ngành nghiên cứu việc dùng các từ, các ngữ
2.2. Các vấn đề cơ bản của Xử lý ngôn ngữ tự nhiên
Như chúng ta đã đề cập, ngữ pháp và ngữ nghĩa là các vấn đề được quan tâm nhất
và có ứng dụng nhiều nhất trong các bài toán điển hình của lĩnh vực Xử lý ngôn ngữ tự
nhiên như Tóm tắt, Dịch máy, Trả lời tự động… Sau đây là các bài toán cơ bản thuộc về
ngữ pháp và ngữ nghĩa mà các nhà Xử lý ngôn ngữ tự nhiên thường phải giải quyết.
2.2.1. Phân tách thuật ngữ - Phân tách đoạn và câu
Phân tách thuật ngữ (Word Segmentation) là công việc tách một chuỗi văn bản ra
thành các term (tạm dịch : thuật ngữ) xem các term nào có trong từ điển, term nào không
có trong từ điển (các tên riêng, ký hiệu, chữ viết tắt…). Công việc này làm tiền đề cho
việc mô hình hóa văn bản. Chúng ta phải thực hiện việc này trước thì mới có thể vector
hóa một văn bản, đối sánh hay xác định độ liên quan…
Đối với các ngôn ngữ Latin giống như tiếng Anh và tiếng Pháp thì vấn đề này
không phức tạp bằng các ngôn ngữ khác như tiếng Việt, tiếng Trung Quốc hay tiếng
Nhật… do các từ của tiếng Anh hay tiếng Pháp được tách nhau bởi một hay nhiều dấu
cách còn trong tiếng Việt, Trung Quốc, Nhật… thì giữa các dấu cách không phải là từ
mà là tiếng (chữ) - một đơn vị nhỏ hơn từ.
Ví dụ: Xét câu tiếng Anh sau :
We announced that we have captured him.
Dựa vào dấu cách chúng ta có thể phân tách được các từ dễ dàng :
We | announced | that | we | have | captured | him.
Tuy nhiên ta xem câu tiếng Việt tương ứng :
Chúng em xin thông báo rằng chúng em đã bắt được hắn ta.
24
Website: Email : Tel : 0918.775.368
Rõ ràng chúng ta không thể dùng dấu cách để phân tách từ cho câu này. Kết quả
phân tách thuật ngữ đúng phải là như sau :
Chúng em | xin | thông báo | rằng | chúng em | đã | bắt được | hắn ta.
Để giải quyết vấn đề này các nhà Xử lý ngôn ngữ tự nhiên của Việt Nam, Trung
Quốc, Nhật Bản… thường sử dụng một số phương pháp như : Đối sánh thuật ngữ dài
nhất (Maximum Length Matching), Đồ thị chuyển trạng thái (Transducing Graph), dựa
Học sinh học sinh học
25