Viện công nghệ thông tin
Báo cáo tổng kết khoa học và công nghệ
đề tài nhánh
dóng hàng văn bản song ngữ
pháp-việt thuộc đề tài cấp nhà nớc
nghiên cứu phát triển côngnghệ nhận dạng, tổng hợp
và xử lý ngôn ngữ tiếng việt
Mã số: KC 01.03
Chủ nhiệm đề tài: gs.tskh . bạch hng khang 6455-5
Hà Nội, 2004
MỤC LỤC
MỤC LỤC 2
DANH MỤC BẢNG 5
DANH MỤC HÌNH VẼ 6
GIỚI THIỆU 7
Chương 1 TÀI LIỆU KĨ THUẬT DÓNG HÀNG VĂN BẢN SONG NGỮ PHÁP - VIỆT 8
1.1 Giới thiệu 8
1.2 Dóng hàng ở mức câu 9
1.2.1 Phương pháp luận 9
1.2.2 Kết quả 11
1.3 Dóng hàng ở mức từ/ngữ 11
1.3.1 Phương pháp luận 11
1.3.2 Kết quả 12
1.4 Hướng dẫn sử dụng phần mềm 13
1.4.1 Phần mềm dóng hàng ở mức câu 13
1.4.2 Phần mềm dóng hàng ở mức đơn vị từ vựng 15
1.4.3 Phần mềm hiển thị/soạn thảo kết quả dóng hàng 15
1.5 Tài liệu tham khảo 17
Chương 2 CÔNG CỤ VÀ TÀI NGUYÊN NGÔN NGỮ CHO PHÂN TÍCH VĂN BẢN 19
Chương 3 SỬ DỤNG BỘ GÁN NHÃN TỪ LOẠI XÁC SUẤT QTAG CHO VĂN BẢN TIẾNG VIỆT A
case study of the probabilistic tagger QTAG for Tagging Vietnamese Texts 20
3.1 Giới thiệu 20
3.2 Bài toán gán nhãn từ loại 21
3.3 Xây dựng từ điển từ vựng, xác định bộ chú thích từ loại tiếng việt 22
4.2.13 Từ đơn lẻ (Unique): 38
4.2.14 Từ viết tắt (Abbreviation): 38
4.2.15 Các từ ngữ còn lại : 38
4.3 Lớp ngoài: các mô tả từ loại chi tiết 38
4.3.1 Danh từ (Nouns - N) 38
4.3.2 Động từ (Verbs - V) 40
4.3.3 Tính từ (Adjectives - A) 41
4.3.4 Đại từ (Pronouns - P) 41
4.3.5 Định từ (Determiners/Articles - D) 42
4.3.6 Số từ (Numerals - M) 42
4.3.7 Phụ từ (Adverbs - R) 42
4.3.8 Giới từ (Adpositions - S) 44
4.3.9 Liên từ (Conjunctions - C) 44
4.3.10 Thán từ (Interjections - I) 44
4.3.11 Trợ từ - tiểu từ - từ tình thái (Particles -T) 45
4.3.12 Tổ hợp từ cố định 45
4.3.13 Từ đơn lẻ (Unique - U) 45
4.3.14 Từ viết tắt (Abbreviations - Y) 45
4.3.15 Các từ còn lại không phân loại được (Residual - X) 45
4.4 Biểu diễn dữ liệu từ vựng 46
Chương 5 TỔ CHỨC CƠ SỞ NGỮ LIỆU 49
5.1 Giới thiệu 49
5.2 Xác địng đơn vị ngữ pháp tiếng Việt 50
5.2.1 Từ pháp học 50
1.1.1 Từ và từ vựng 50
1.1.2 Từ loại 52
5.2.2 Cú pháp học 53
1.1.3 Khái lược về ngữ 53
1.1.4 Khái lược về câu 57
1.1.5 Các thành phần chính của câu 57
7.6 Kết quả và hướng nghiên cứu 93
7.7 Tài liệu tham khảo 94
DANH MỤC BẢNG
Bảng 1-1. Các phép dịch cơ bản 9
Bảng 3-1. Kết quả gán nhãn từ loại mức 1 31
Bảng 5-1. Danh sách từ loại 61
Bảng 6-1. Một văn phạm phi ngữ cảnh đơn giản 74
DANH MỤC HÌNH VẼ
Hình 1-1. Cấu trúc logic dạng cây của một văn bản biểu diễn dưới dạng XML 10
Hình 1-2. Giao diện xem liên kết dóng hàng 16
Hình 1-3. Giao diện soạn thảo liên kết dóng hàng 17
Hình 3-1. Xây dựng ôtômát âm tiết 24
Hình 3-2. Xây dựng ôtômát từ vựng 25
Hình 3-3. Một tình huống nhập nhằng 26
Hình 4-1. Sơ đồ tổ chức kho dữ liệu từ vựng theo TC 37 / SC 4 46
Hình 4-2. Sơ đồ tổng quát về bộ từ vựng hình thái cú pháp 47
Hình 6-1. Phân loại văn phạm của Chomsky 71
Hình 6-2. Cây biểu diễn câu John ate the cat 73
Hình 6-3. Đặc tả các lớp module phân tích từ vựng 75
Hình 6-4. Đặc tả các lớp module phân tích cú pháp 76
Hình 7-1. Cây cú pháp 79
Hình7-2. Cây cơ sở 81
Hình 7-3. Sơ đồ phép nối cây 81
Hình 7-4. Sơ đồ phép thế 81
Hình 7-5. Sơ đồ phép thế với cấu trúc đặc trưng 82
Hình 7-6. Sơ đồ phép nối cây với cấu trúc đặc trưng 83
Hình 7-7. Cấu trúc danh ngữ 86
Hình 7-8. Quan hệ phụ thuộc giữa các thành phần định ngữ 87
Nội, cán bộ Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội
o Nguyễn Thành Bôn, học viên cao học thuộc Viện Tin học khối Pháp ngữ (IFI) Hà
Nội.
- Cộng tác viên chuyên ngành Ngôn ngữ học:
o
Vũ Xuân Lương, biên tập viên, Trung tâm Từ điển
o Các chuyên viên ngôn ngữ khác thuộc Trung tâm Từ điển.
Chương 1
TÀI LIỆU KĨ THUẬT
DÓNG HÀNG VĂN BẢN SONG NGỮ PHÁP - VIỆT
Biên soạn:
Nguyễn Thành Bôn, Viện Tin học Pháp ngữ (IFI), Hà Nội
Nguyễn Thị Minh Huyền, Trường Đại học Khoa học Tự nhiên, Hà Nội
1.1 Giới thiệu
Do xu hướng toàn cầu hoá đi kèm với địa phương hoá, nhu cầu dịch trong tất cả các lĩnh
vực không ngừng tăng lên. Trong khi đó, lĩnh vực dịch tự động tuy đã ra đời từ hơn 50 năm
trước, nhưng cho đến nay kết quả vẫn còn hết sức hạn chế. Một xu hướng mới đã ra đời trong
những năm gần đây nhằm tận dụng khai thác kho tàng khổng lồ các văn bản dịch trong nhiều thứ
tiếng, thuộc đủ thể loại như văn học, báo chí, hàn lâm hay luật học. Việc sử dụng kho tài nguyên
gồm các bản dịch đa phần có chất lượng rất tốt này để xây dựng các bộ nhớ dịch hay các bộ từ
vựng đa ngữ trong các hệ thống dịch máy có vẻ là một giải pháp hợp lí. Cách khai thác kho văn
bản dịch đa ngữ hay còn gọi là văn bản song song (parallel texts) này là thực hiện việc dóng hàng
(alignment).
Những hệ thống dóng hàng bắt nguồn từ các công trình khoa học trong lĩnh vực nghiên
cứu ngôn ngữ học dựa vào kho văn bản. Dóng hàng văn bản song song (Alignment of parallel
texts) là công việc tìm kiếm tự động các tương ứng dịch trong các văn bản vốn được dịch ra từ
cùng một văn bản gốc nào đó. Các tương ứng dịch này có thể ở các mức độ chi tiết khác nhau: có
khi chỉ đòi hỏi ít chi tiết là mức đoạn, phổ biến nhất là ở mức câu, và chi tiết, lí tưởng hơn là mức
ngữ đoạn hoặc từ.
khả năng đưa ra được mô hình dịch Pháp - Việt đầy đủ.
Trong chương này chúng tôi sẽ trình bày 2 phần chính. Phần thứ nhất tập trung vào kĩ
thuật dóng hàng ở mức câu và kết quả thu được trên kho ngữ liệu Pháp - Việt. Phần thứ hai tập
trung vào kĩ thuật dóng hàng ở mức từ ngữ. Các nghiên cứu cơ bản về phân tích văn bản tiếng
Việt được trình bày trong các chương sau.
1.2 Dóng hàng ở mức câu
1.2.1 Phương pháp luận
1.2.1.1 Dóng hàng động
Tư tưởng cơ bản của kĩ thuật dóng hàng động ở mức câu là dựa trên một mô hình thống
kê theo độ dài văn bản (số kí tự).
Một phép dóng một câu trong văn bản nguồn tới một câu trong văn bản đích phụ thuộc rất
nhiều vào cách dịch. Người ta đã thống kê là phần lớn các phép dịch câu thuộc một trong 8 kiểu
sau đây :
Bảng 1-1. Các phép dịch cơ bản
Số câu trong
văn bản nguồn
Số câu trong
văn bản đích
Phép dịch
1 1 Thay thế
2 1 Rút gọn
1 2 Phát triển
2 2 Hỗn hợp
1 0 Lược bỏ yếu
0 1 Chèn yếu
Nhiều hơn một câu 0 Lược bỏ mạnh
0 Nhiều hơn một câu Chèn mạnh
Kĩ thuật dóng hàng động dựa trên giả thiết là văn bản song ngữ chỉ chứa các kiểu dịch
như trên một cách "tuyến tính", tức là không xét đến các trường hợp dịch chéo nhiều hơn 2 câu
trong đó, s
i
, t
j
(i=1,…,n; j=1,…,m) là đoạn văn bản.
Kết quả của phép dóng hàng Align(S, T) có thể mô tả như một chuỗi các cặp tương quan
(σ
j
, τ
j
) – đọc là σ
j
trong văn bản S được dóng với τ
j
trong văn bản T :
[
]
),(), ,,(),(
11 rr
TSAlign
τ
σ
τ
σ
=
trong đó, σ
j
là những chuỗi con phân biệt của S, τ
).
Mục 4.1 và 4.3 sẽ trình bày cụ thể chương trình dóng hàng cũng như chương trình hiển thị
và sửa đổi kết quả dóng hàng ở mức câu.
1.3 Dóng hàng ở mức từ/ngữ
1.3.1 Phương pháp luận
Trong khuôn khổ đề tài, chúng tôi nghiên cứu việc dóng hàng dựa trên thuật toán DK-Vec
(Fung & McKeown, 1997). Quá trình dóng hàng hai văn bản song song ở mức từ được thực hiện
qua hai bước sau:
Tiền xử lí: Chia văn bản thô thành các đơn vị từ (tokenization). Với các ngôn ngữ biến
hình hay chắp dính, bước tiền xử lí có thể bao gồm cả việc đưa các đơn vị từ này về dạng nguyên
thể (lemmatization).
Thực hiện dóng hàng bằng thuật toán DK-Vec kết hợp với vi
ệc xử lí văn bản có cấu trúc.
1.3.1.1 Thuật toán DK-vec
Với mỗi từ w trong một văn bản, xác định một vectơ khoảng cách biểu diễn khoảng cách
tương đối giữa các lần xuất hiện của từ w: D
w
= <d
1
w
, , d
n
w
>, trong đó n là số lần xuất hiện của
w trong văn bản, d
i
w
là khoảng cách (tính theo số đơn vị từ vựng) giữa lần xuất hiện thứ i và lần
xuất hiện thứ i-1 của w trong văn bản.
Các vectơ khoảng cách này phản ánh tính tương tự về mặt phân bố của 1 cặp từ bất kì
)()(),(
tsts
DDDD
mmts
σσε
−+−=
trong đó m và σ tương ứng là giá trị trung bình và độ lệch chuẩn của mỗi vectơ.
Sau bước lọc bằng các tiêu chuẩn trên, áp dụng thuật toán quy hoạch động xác định các
cặp vectơ khoảng cách có độ tương tự lớn nhất, sử dụng hàm chi phí đối sánh được tính theo
công thức:
⎪
⎩
⎪
⎨
⎧
−
−
−−
+−=
===
)1,()(
),1()(
)1,1()(
min||),(
0,0,0)0,0(
00
jiCiii
jiCii
jiCi
ddjiC
Tất cả các phần mềm dóng hàng, hiển thị dóng hàng đều được xây dựng bằng ngôn ngữ
Java. Chúng có thể chạy được trên tất cả các hệ điều hành có hỗ trợ máy ảo Java. Do vậy, để
phần mềm có thể hoạt động được, người sử dụng phải đảm bảo được rằng trên máy đã cài đặt
máy ảo java (Java Runtime Environment). Nếu chưa, có thể tải về từ địa chỉ
.
1.4.1 Phần mềm dóng hàng ở mức câu
1.4.1.1 Tên phần mềm
Phần mềm dóng hàng ở mức câu có tên là Xalign.
1.4.1.2 Tập tin mô tả ý nghĩa của thẻ [*.properties]
Do yêu cầu dóng hàng các văn bản đa ngữ có nguồn gốc không định trước nên Xalign
phải có khả năng đọc và hiểu tất cả các thẻ đánh dấu mà các văn bản đã sử dụng. Để phục vụ khả
năng này, mỗi một file văn bản phải được đi kèm với một file mô tả ý nghĩa các thẻ theo quy ước.
Có 6 kiểu như sau :
PHRASE
Phần tử ở mức câu. Mỗi phần tử không được chứa một câu khác, một phân đoạn
(paragraph), hay phần (division).
PARAG
Phần tử cấp phân đoạn. Một phân đoạn chỉ được phép chứa các phần tử ở mức câu.
DIV
Phần tử ở mức phần. Mỗi phần tử có thể chứa các phần tử thuộc kiểu phân đoạn hoặc
phần.
IGNORE
Bỏ qua phần tử này và tất cả các phần tử con của nó khi dóng hàng.
TRANSP
Coi như phần tử không có. Và các phần tử con của nó được coi như con của phần tử
cha.("transparent").
SEQ
Không được xử lí(cách xử lí mặc nhiên).
một chỉ
số duy nhất. Chỉ số này sẽ được sử dụng trong tập tin kết quả dóng hàng để làm tham
chiếu. Chỉ số không được chứa khoảng trắng.
1.4.1.4 Tập tin kết quả dóng hàng
Dây là tập tin có phần mở rộng *.align, chứa tất cả các thông tin về kết quả dóng hàng.
Phần tử <linkgrp> chứa thông tin chung như : đường dẫn đến văn bản nguồn, văn bản đích. Phần
tử <linkPhrase>, <linkParag>, <linkDiv> lần lượt chứa thông tin dóng hàng ở mức câu, phân
đoạn và phần.
1.4.1.5 Cú pháp Xalign
Để thực hiện dóng hàng hai văn bản, ta sử dụng chương trình Xalign với cú pháp như sau:
align [-d] sfile tfile src-properties tar-properties [slang tlang] lnkgrpfile
Trong đó,
-d : hiển thị các thông tin trung gian
sfile : tập tin văn bản nguồn
tfile : tập tin văn bản đích
src-properties : tập tin mô tả cho file văn bản nguồn
tar-properties : tập tin mô tả cho file văn bản đích
lnkgrpfile : tập tin lưu kết quả dóng hàng
Ví dụ, muốn thực hiện dóng hàng file
MuốiCủaRừng.vn.xml và file
MuốiCủaRừng.fr.xml, các tập tin văn bản trên sử dụng chung một file mô tả là
multialign.properties, kết quả dóng hàng xuất ra tập tin mcr.align thì ta thực hiện câu lệnh sau
Hình 1-2. Giao diện xem liên kết dóng hàng
Kết quả dóng hàng sẽ hiện ra như trong hình trên. Phần văn bản bên trái là nguồn, bên
phải là văn bản đích. Bạn có thể nhấn vào từng các cặp tương quan để xem nội dung hoặc đánh
dấu chọn nhiều cặp một lần.
Muốn chọn xem kết quả dóng hàng ở mức nào thì bạn nhấn chọn mức đó trong danh sách
các cấp dóng hàng nằm ở dưới bên trái nhất.
1.4.3.3 Soạn thảo kết quả dóng hàng
Để soạn thảo lại kết quả dóng hàng, bạn tiến hành mở tập tin chứa kết quả như để hiển thị.
Rồi sau đó, chọn cặp tương quan nào mà bạn muốn hủy bỏ liên kết dóng hàng rồi chọn
Menu/Edit/Unlink để thực hiện. Hình 1-3. Giao diện soạn thảo liên kết dóng hàng
Để tiến hành liên kết hai phần tử ở hai văn bản với nhau, bạn đánh dấu chọn những phần
tử tương ứng của hai văn bản sẽ tham gia vào phép dóng hàng muốn tạo và chọn Menu/Edit/Link
(Xem trên hình).
Nếu muốn lưu lại những thay đổi thì chọn Menu/File/Save.
1.5 Tài liệu tham khảo
Choueka Y., Conley E.S., Dagan I., "A comprehensive bilingual word alignment system.
Application to disparate languages: Hebrew and English", in Véronis J. (ed.), Parallel
Text Processing, Dordrecht, Kluwer, 2000, p. 69-96.
Bonhomme
P., "Codage et normalisation de ressources textuelles", in Pierrel J-M. (ed.),
Ingénierie des langues, Hermes Science Europe, 2000, p.173-191.
Brown
P.F., Lai J.C., Mercer R.L., "Aligning sentences in parallel corpora", Proceedings of the
29th Annual Meeting of the Association for Computational Linguistics, Berkeley,
1991, p. 169-176.
Fung, P. & McKeown, K. R., "A technical word and term translation aid using noisy parallel
corpora across language groups". Machine translation, 12 (1/2), 1997, 53-87
kiểm tra được tính đúng đắn của âm tiết và từ.
Phân tích cú pháp. Là quá trình đưa ra mô tả quan hệ về vai trò ngữ pháp của các từ, các
cụm từ (hoặc ngữ) trong câu, từ đó xây dựng cấu trúc câu.
Phân tích ngữ nghĩa. Mục đích của phân tích ngữ nghĩa là kiểm tra ý nghĩa của câu có
mâu thuẫn với ý nghĩa cả đoạn hay không. Dựa trên mối liên hệ logic về nghĩa giữa các cụm từ
trong câu và mối liên hệ giữa các câu trong đoạn, hệ thống sẽ xác định được một phần ý nghĩa
của câu trong ngữ cảnh của cả đoạn.
Phân tích thực chứng. Là quá trình phân tích nhằm xác định ý nghĩa của câu dựa trên
mối liên hệ của câu với hiện thực. Ý nghĩa thực tế của câu phụ thuộc rất nhiều vào ngữ cảnh diễn
ra lời nói. Do vậy, quá trình phân tích này rất khó thực hiện được bằng máy tính. Thường thì việc
phân tích câu chỉ dừng ở phân tích ngữ nghĩa, còn việc phân tích thực chứng do người dùng tự
quyết định.
Trong khuôn khổ dự án này, chúng tôi tập trung vào hai vấn đề
cơ bản là phân tích từ
vựng và phân tích cú pháp tiếng Việt. Do các công cụ và dữ liệu ngôn ngữ liên quan đến hai vấn
đề này đều thiếu vắng, trong khi việc xây dựng ngữ liệu lại tốn rất nhiều công sức. Nhiệm vụ đặt
ra của nhóm là xây dựng một bộ công cụ và một kho ngữ liệu tiếng Việt có thể được truy cập tự
do (trong phạm vi nghiên cứu), làm cơ sở cho các nghiên cứu trong lĩnh vự
c xử lí ngôn ngữ tiếng
Việt tiếp sau.
Việc phân tích từ vựng gồm có 2 bước: phân đoạn văn bản thành các đơn vị từ và xác
định từ loại cho mỗi từ (chương số 3, 4).
Phân tích cú pháp tiếng Việt đòi hỏi mô hình hoá ngữ pháp tiếng Việt theo một hệ hình
thức văn phạm (chương số 5, 6, 7).
Chương 3
SỬ DỤNG BỘ GÁN NHÃN TỪ LOẠI XÁC SUẤT QTAG
CHO VĂN BẢN TIẾNG VIỆT
A case study of the probabilistic tagger QTAG
for Tagging Vietnamese Texts
Biên soạn : Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương
thân việc phân loại từ tiếng Việt cho đến nay vẫn là một vấn đề còn nhiều tranh cãi, chư
a có một
chuẩn mực thống nhất [3], [5], [8], [13], [18]. Nghiên cứu của nhóm chúng tôi phục vụ đồng thời
hai mục đích: một mặt thực hiện nỗ lực nhằm xây dựng các công cụ cho việc xử lí văn bản tiếng
Việt trên máy tính phục vụ cho các ứng dụng công nghệ, mặt khác các công cụ này cũng hỗ trợ
tích cực cho các nhà ngôn ngữ nghiên cứu tiếng Việt.
Trong báo cáo này chúng tôi sẽ trình bày phương pháp tiếp cận và kết quả thu được của
nhóm nghiên cứu trong bước thử nghiệm đầu tiên với một công cụ gán nhãn tự động thuần tuý
xác suất.
3.2 Bài toán gán nhãn từ loại
Trong phần này chúng tôi giới thiệu tổng quan về các kĩ thuật gán nhãn từ loại và các
bước giải quyết bài toán gán nhãn từ loại cho văn bản tiếng Việt.
Quá trình gán nhãn từ loại có thể chia làm 3 bước [15].
Phân tách xâu kí tự thành chuỗi các từ. Giai đoạn này có thể đơn giản hay phức tạp tuỳ
theo ngôn ngữ và quan niệm về đơn vị từ vựng. Chẳng hạn đối với tiếng Anh hay tiếng Pháp,
việc phân tách từ
phần lớn là dựa vào các kí hiệu trắng. Tuy nhiên vẫn có những từ ghép hay
những cụm từ công cụ gây tranh cãi về cách xử lí. Trong khi đó với tiếng Việt thì dấu trắng càng
không phải là dấu hiệu để xác định ranh giới các đơn vị từ vựng do tần số xuất hiện từ ghép rất
cao.
Gán nhãn tiên nghiệm, tức là tìm cho mỗi từ tập tất cả các nhãn từ loại mà nó có thể có.
Tập nhãn này có thể
thu được từ cơ sở dữ liệu từ điển hoặc kho văn bản đã gán nhãn bằng tay.
Đối với một từ mới chưa xuất hiện trong cơ sở ngữ liệu thì có thể dùng một nhãn ngầm định hoặc
gắn cho nó tập tất cả các nhãn. Trong các ngôn ngữ biến đổi hình thái người ta cũng dựa vào hình
thái từ để đoán nhận lớp từ loại tương
ứng của từ đang xét.
Quyết định kết quả gán nhãn, đó là giai đoạn loại bỏ nhập nhằng, tức là lựa chọn cho mỗi
từ một nhãn phù hợp nhất với ngữ cảnh trong tập nhãn tiên nghiệm. Có nhiều phương pháp để
thực hiện việc này, trong đó người ta phân biệt chủ yếu các phương pháp dựa vào quy tắc ngữ
vựng. Hầu hết các mục từ trong từ điển đều có thông tin từ loại đi kèm.
Xây dựng công cụ phân tách các đơn vị từ vựng trong văn bản.
Xây dựng kho văn bản đã loại bỏ nhập nhằ
ng từ loại bằng tay, sau khi tự động gán tất cả
các nhãn có thể cho mỗi từ.
Xây dựng bộ gán nhãn từ loại tự động, dựa trên các thông tin từ loại trong từ điển từ vựng
và các quy tắc kết hợp từ loại học được từ kho văn bản đã gán nhãn mẫu.
Trong phần tiếp theo của báo cáo, chúng tôi sẽ lần lượt trình bày các bước 1, 2 và 4.
3.3 Xây dựng từ điển từ vựng, xác định bộ chú thích từ loại tiếng việt
Trong khuôn khổ đề tài cấp Nhà nước KC01 "Nghiên cứu phát triển công nghệ nhận
dạng, tổng hợp và xử lí ngôn ngữ tiếng Việt", nhóm nghiên cứu đã triển khai các công việc xây
dựng kho ngữ liệu tiếng Việt bao gồm từ điển từ vựng và kho văn bản có kèm theo mô tả từ loại
của các đơn vị từ vựng với chất lượng cao, tuân theo các chuẩn quốc tế về biểu diễ
n dữ liệu
4
, cho
phép cập nhật và mở rộng dễ dàng.
3.3.1 Từ điển từ vựng
Trong tiếng Việt, bên cạnh những đơn vị rõ ràng là từ, là ngữ cố định như thành ngữ (sơn
cùng thuỷ tận, tay xách nách mang ), quán ngữ (lên lớp, lên mặt, ra vẻ), còn tồn tại những đơn
vị có người cho là từ, có người cho là ngữ cố định (như xe lăn đường, máy quay đĩa, làm ruộng,
lạnh ngắt, suy cho cùng, ). Ranh giới của từ trong tiếng Việt là một vấn đề ph
ức tạp, trong
nhiều trường hợp còn có những ý kiến khác nhau [8].
Chúng tôi lựa chọn quan niệm đơn vị từ vựng theo cuốn Từ điển tiếng Việt [7] (do Viện
Ngôn Ngữ Học biên soạn) để xây dựng cơ sở ngữ liệu. Trong toàn bộ cuốn từ điển này, quan
điểm về việc thu thập từ vựng, về chuẩn hoá chính tả, về chú thích từ loại là rõ ràng và th
ống
nhất.
Ngoài ra, chúng tôi có đưa thêm các đơn vị từ vựng ít dùng, gặp trong kho văn bản nhưng
từ vựng, làm cơ sở dữ liệu cho chương trình tự động xác định ý nghĩa danh từ, động từ , động từ
nội động hay động từ ngoạ
i động của mỗi từ khi phân xuất trực tiếp trong văn bản. Cùng với từ
điển này là kho văn bản đã được chúng tôi gán nhãn bằng tay sau khi đã chạy chương trình tách
từ và xác định tất cả các nhãn có thể tìm được trong từ điển cho mỗi từ.
Trong quá trình xác định nhãn cho từng từ trong văn bản cụ thể, chúng tôi nhận thấy sự
cần thiết phải bổ sung thêm một số nhãn từ
loại để tránh trường hợp một từ mang cùng một lúc
nhiều nhãn từ loại (chẳng hạn động từ ngoại động chỉ cảm nghĩ hay động từ nội động chỉ cảm
nghĩ). Như vậy quá trình xây dựng tập mẫu cũng đồng thời là quá trình điều chỉnh việc phân chia
từ loại hợp lí hơn. Hiện tại chúng tôi làm việc với bộ nhãn từ loạ
i ở mức mịn hơn gồm 47 từ loại
và bổ sung một nhãn cho các từ chưa xác định được từ loại.
3.4 Phân tách từ trong văn bản tiếng Việt
3.4.1 Đặt bài toán.
Cho một câu tiếng Việt bất kỳ, hãy tách câu đó thành những đơn vị từ vựng (từ), hoặc chỉ ra
những âm tiết nào không có trong từ điển (phát hiện đơn vị từ vựng mới).
Để giải quyết bài toán đặt ra, chúng tôi sử dụng tập dữ liệu gồm bảng âm tiết tiếng Việt
(khoảng 6700 âm tiết) và từ điển từ vựng tiếng Việt (khoảng 30.000 từ). Các từ điển được lưu
dưới dạng các tệp văn bản có định dạng mã TCVN hoặc Unicode dựng sẵn (UTF-8). Chương
trình xây dựng bằng Java, mã nguồn mở (liên hệ nhóm tác giả).
3.4.2 Các bước giải quyết
Xây dựng ôtômát âm tiết đoán nhận tất cả các âm tiết tiếng Việt
Xây dựng ôtômát từ vựng đoán nhận tất cả các từ vựng tiếng Việt.
Dựa trên các ôtômát nêu trên, xây dựng đồ thị tương ứng với câu cần phân tích và sử
dụng thuật toán tìm kiếm trên đồ thị để liệt kê các cách phân tích có thể.
Bảng chữ cái của ôtômát âm tiết là bảng chữ cái tiếng Việt, mỗi cung chuyển được ghi
trên đó một ký tự. Ví dụ, với ba âm tiết phương, pháp, trình ta sẽ có ôtômát đoán nhận âm tiết
như Hình 3-1.
i
c ;
ii.
Tìm trong các cung chuyển từ trạng thái
p
cung trên đó ghi ký tự
i
c .
Nếu có cung
(,)
p
q như thế:
1.
:1;ii=+
2.
:;
p
q=
iii.
Nếu không có cung
(,)
p
q
nào như thế thì thoát khỏi vòng lặp b.
c.
Với
j
từ i đến 1n−