ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đồng Thị Ngân
CÁC KỸ THUẬT XÁC ĐỊNH COLLOCATION VÀ
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành:
Công Nghệ Thông TinCán bộ hướng dẫn:
TS. Lê Anh Cường
HÀ NỘI - 2010
LỜI CẢM ƠN
Trước hết, em xin gửi lời cảm ơn chân thành tới TS. Lê Anh Cường, người đã
luôn theo sát giúp đỡ em trong quá trình hoàn thành luận văn này.
Đồng thời, em cũng xin cảm ơn các thầy cô giáo trong bộ môn Khoa học máy
tính nói riêng và các thầy cô giáo trong khoa Công nghệ thông tin nói chung. Nếu
không có các thầy, các cô và khoa thì chắc chắn em không thể hoàn thành tốt khoá
không sai cả về cấu trúc ngữ pháp và về nghĩa. Nhưng nó không được dùng đơn giản
chỉ là bởi vì người bản xứ không quen dùng như vậy. Những sự kết hợp từ không tuân
theo một quy tắc ngữ pháp hay ngữ nghĩa nào như vậy được giới hạn trong một định
nghĩa collocations. Như vậy, một collocation có thể được hiểu là một sự kết hợp các từ
không tuân theo một quy tắc ngữ pháp hay ngữ nghĩa nào cả. Xét về một số khía cạnh
nào đó, collocations mang tính thành ngữ, cứng nhắc. Nghĩa của một collocation
thường không được suy ra từ nghĩa của các từ thành phần, và sự thay thế một từ thành
phần bằng một từ đồng nghĩa có thể làm thay đổi hoàn toàn nghĩa của collocation đó.
Có rất nhiều định nghĩa về collocation đã được đưa ra, tuy nhiên, không một định
nghĩa nào được coi là chính thống, hay chuẩn. Định nghĩa và phương pháp trích chọn
collocation phụ thuộc vào mục đích sử dụng của người làm nghiên cứu. Trong luận văn
này, chúng tôi chấp nhận định nghĩa collocation là một sự kết hợp các từ thường xuất
hiện cùng nhau trên mức bình thường trong văn bản, với vị trí và quan hệ ngữ pháp
tương đối cố định.
Collocations có ứng dụng rộng rãi trong các lĩnh vực ngôn ngữ học [2, 21, 23],
biên soạn từ điển[1] cũng như các bài toán xử lý ngôn ngữ tự nhiên[4, 14, 16, 18, 25,
27, 29]. Chính vì vậy, việc trích chọn các collocations trong mỗi ngôn ngữ là thực sự
cần thiết, nhằm nâng cao độ chính xác và tính tự nhiên của các ứng dụng xử lý ngôn
ngữ tự nhiên, cũng như giúp việc học một ngôn ngữ mới dễ dàng hơn.
Có khá nhiều nghiên cứu về việc trích chọn collocations cho tiếng Anh đã được
tiến hành, tuy nhiên, nghiên cứu về collocations cho tiếng Việt vẫn còn là một lĩnh vực
khá mới mẻ. Chưa có nhiều nghiên cứu được tiến hành và kết quả thu được vẫn còn ở
mức độ rất hạn chế. Luận văn này tập trung vào việc áp dụng một số phương pháp
thống kê vào trích chọn collocation trong tiếng Việt, nghiên cứu tác động của việc tiền
xử lý văn bản lên quá trình trích chọn, so sánh độ chính xác các mô hình thử nghiệm;
từ đó, đề xuất một số phương pháp kết hợp nhằm cải thiện độ chính xác của chương
trình.
ĐỊNH NGHĨA 1
1.2.
ĐẶC TRƯNG 1
1.2.1.
Được sử dụng lặp đi lặp lại trong văn bản. 1
1.2.2.
Có tính cứng nhắc: 2
1.2.3.
Phụ thuộc vào lĩnh vực của văn bản. 2
1.2.4.
Có liên kết kết chặt chẽ về mặt từ vựng: 3
1.3.
PHÂN LOẠI 3
1.4.
ỨNG DỤNG 5
Khái quát về dữ liệu sử dụng 15
2.4.2.
Trích chọn bigrams 16
2.4.3. Các mô hình thử nghiệm 18
2.4.4.
Kết quả thực nghiệm 19
Chương 3.
MỘT PHƯƠNG PHÁP KẾT HỢP ÁP DỤNG CHO TRÍCH
CHỌN COLLOCATIONS CÓ DẠNG CỤM DANH TỪ 25
3.1.
GIAI ĐOẠN 1: TRÍCH CHỌN CÁC COLLCOATIONS CÓ DẠNG
BIGRAM. 26
3.1.1.
Bước 1: Trích chọn bigram 26
3.1.2. Bước 2: Lọc các bigram không hợp lệ 27
3.2.
GIAI ĐOẠN 2: TRÍCH CHỌN CÁC COLLOCATIONS LÀ CỤM DANH
TỪ CÓ DẠNG N-GRAM. 28
DANH SÁCH HÌNH VẼ
Hình 2-1: Kết quả chạy 4 phương pháp khi chạy trên bộ dữ liệu chỉ được tách từ với độ
lớn cửa sổ thay đổi từ 1 đến 5 20
Hình 2-2: Kết quả thử nghiệm trên bộ dữ liệu đã được gán nhãn 21
Hình 2-3: Kết quả chạy thực nghiệm 9 mô hình trên bộ dữ liệu đã được phân tích cú
pháp 22
Hình 2-4: Kết quả chạy thực nghiệm trên tất cả các mô hình với 3 tập dữ liệu đầu vào
22
DANH SÁCH BẢNG
Bảng 1-1: Một số collocation có quan hệ vị ngữ trong tiếng Việt 4
Bảng 2-1: Mẫu nhãn từ loại cho bộ lọc nhãn từ loại cho tiếng Anh 8
Bảng 2-2: Mẫu nhãn cho bộ lọc nhãn từ loại cho tiếng Việt 9
Bảng 2-3: Một số collocations được trích chọn bằng phương pháp kiểm tra t 11
Bảng 2-4: Ví dụ sử dụng phương pháp kiểm tra Chi-square bình phương 12
Bảng 2-5: Kết quả thu được khi trích chọn collocations sử dụng phương pháp kiểm tra
Chi bình phương 13
số lượng và chất lượng, khái niệm về collocations còn ít nhiều xa lạ với nhiều người,
ngay cả đối với những người làm nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên.
Chương đầu tiên của luận văn này làm nhiệm vụ giới thiệu khái quát về collocation và
liên hệ cho tiếng Việt, giúp người đọc hiểu hơn về collocations và sự cần thiết của việc
xây dựng một hệ thống trích chọn collocations cho tiếng Việt. Cụ thể hơn, nó có
nhiệm vụ trả lời bốn câu hỏi chính: Collocations là gì? Đặc trưng của một collocation?
Có những loại collocations nào? Phải trích chọn collocations để làm gì? Phần còn lại
của chương sẽ đi sâu vào trả lời bốn câu hỏi này.
1.1. ĐỊNH NGHĨA
Firth[17] định nghĩa collocation là một khái niệm cú pháp trừu tượng, không trực
tiếp liên hệ với nghĩa của các từ cấu thành lên nó. Choueka[5] quan niệm collocation
là một dãy gồm hai hoặc nhiều hơn các từ liên tiếp nhau, có những đặc trưng của một
đơn vị cú pháp có nghĩa, và nghĩa của nó không thể được suy ra trực tiếp từ nghĩa của
các từ thành phần. Còn theo Benson[2]: một collocation là một tổ hợp cố định và lặp
đi lặp lại các từ. Như vậy, Firth thiên về góc độ từ vựng của collocation, còn Choueka
lại thiên về chức năng cú pháp của collocation trong văn bản. Định nghĩa của Benson
là một trong những định nghĩa hay được sử dụng nhất, tuy nhiên nó đã bỏ qua một số
đặc trưng và thuộc tính của collocation ứng dụng trong dịch máy như không thể dịch
một collocation trong tiếng Anh sang tiếng Việt theo cách đơn thuần dịch từ tương
ứng với từ. Đã có khá nhiều nghiên cứu về collocation cho tiếng Anh được tiến hành,
tuy nhiên không có định nghĩa chuẩn nào về collocation được đưa ra, và định nghĩa về
collocation phụ thuộc vào quan điểm và mục đích sử dụng của mỗi người làm nghiên
cứu. Trong luận văn này, chúng tôi chấp nhận định nghĩa: collocation là một sự kết
hợp các từ thường xuất hiện cùng nhau trên mức bình thường trong văn bản, với vị trí
và quan hệ ngữ pháp tương đối cố định.
1.2. ĐẶC TRƯNG
Theo định nghĩa được nêu ra ở trên, một collocation có 4 đặc trưng chính:
1.2.1. Được sử dụng lặp đi lặp lại trong văn bản.
Sự xuất hiện cùng nhau của các từ tạo thành collocation trong một văn bản
không phải là một trường hợp đặc biệt, mà chúng được sử dụng lặp đi lặp lại trong một
ngành xã hội, hoặc kinh tế khác. Bên cạnh đó, có rất nhiều cụm từ không chứa các
thuật ngữ chuyên ngành nhưng nghĩa của nó vẫn không quen thuộc với những người
không thuộc chuyên ngành. Ví dụ, trong văn bản tiếng Anh, “a dry suit” không phải là
một bộ comple khô, mà là một loại trang phục đặc biệt giúp người thủy thủ không bị
ướt trong các điều kiện thời tiết khắc nghiệt. Người bản xứ thường không ý thức được
tính cứng nhắc của các collocation trong các văn bản thông thường, tuy nhiên, tính
cứng nhắc của collocation trong các văn bản chuyên ngành cũng gây cho họ không ít
khó khăn.
3
1.2.4. Có liên kết kết chặt chẽ về mặt từ vựng:
Chúng ta thường không thể thay thế một thành phần tạo thành collocation bằng
từ đồng nghĩa của nó, vì việc thay thế có thể dẫn đến làm thay đổi hoàn toàn nghĩa của
cụm từ ban đầu. Tính chất này của collocation thường được sử dụng bởi các nhà thực
hành và biên soạn từ điển khi sưu tập các collocations (Cowie[7]; Benson[2]). Các nhà
thực hành và biên soạn từ điển dựa vào ý niệm ngôn ngữ của người khác để quyết định
cụm từ nào là collocation và cụm từ nào không phải là collocation. Họ thu thập thông
tin dưới dạng bảng hỏi bao gồm các câu, mỗi câu đều bị lấy đi một từ. Các từ khuyết
có thể dễ dàng được trả lời bởi người bản xứ, trong khi với người học ngôn ngữ (đó,
đó là việc không đơn giản. Chính vì vậy, collocation có phân phối xác suất riêng
(Halliday[22]; Cruse[8]). Nói cách khác, ví dụ, xác suất cụm “red herring” xuất hiện
liền nhau trong văn bản sẽ lớn hơn tích xác suất xuất hiện của “red” với xác suất xuất
hiện của “herring”; hay chúng ta không thể coi hai từ đó là hai biến ngẫu nhiên độc
lập. Dựa trên nhận định này, chúng ta xây dựng được tập các phương pháp trích chọn
và nhận dạng collocation từ các corpus dữ liệu lớn dựa trên thống kê.
1.3. PHÂN LOẠI
Các nhà ngôn ngữ học và các nhà biên soạn từ điển đã tiến hành khá nhiều
nghiên cứu nhằm đưa ra một hệ thống phân loại dành cho collocations. Một hệ thống
phân loại đã được đưa ra dựa trên quan hệ giữa hai từ thành phần. Theo đó, có hai loại
V-A Thở_phào nhẹ_nhõm
V-A Cảm_thông sâu_sắc
V-V Thực_hiện cải_cách
V-V Đề_nghị hợp_tác
V-O Khủng_hoảng tài_chính
V-O Chăn_nuôi heo
V-O Lập biên_bản
với N là danh từ, V là động từ và A là tính từ
- Collocations là các cụm danh từ cố định: là loại collocation có cấu trúc cố định
nhất. Chúng bao gồm các cụm danh từ mang tính chất thuật ngữ trong các lĩnh vực
cụ thể, và các cụm danh từ mà nghĩa của nó không thể được suy ra từ nghĩa của các
từ thành phần. Ví dụ: “stock market”, “foreign exchange”, “New York Stock
Exchange”, “The Dow Jones average of 30 industrials”. Bảng 1-2 minh họa một
số collocation có dạng cụm danh từ cố định trong tiếng Việt. 5
Bảng 1-2:
Một số collocations có dạng cụm danh từ cố định
Mức thuế_suất nhập_khẩu
Tình_hình kinh_tế chính_trị
Khối đại_đoàn_kết toàn dân
Quyền và nghĩa_vụ của công_dân
Cuộc chiến_tranh
Đồn biên_phòng
một nhu cầu tự nhiên, rất thường gặp trong đời sống hàng ngày là trích chọn các
collocations cho một ngôn ngữ để giúp người học ngôn ngữ đó quen với cách dùng từ,
kết hợp từ của người bản ngữ. Một vấn đề thứ hai liên quan đến collocation chúng tôi
muốn nhắc đến ở đây là vấn đề liên quan đến nghĩa của collocation. Như đã nói ở trên,
nghĩa của một collocation thường không được suy ra trực tiếp từ nghĩa của các từ
thành phần. Đặc trưng này có ảnh hưởng quan trọng đến một hệ thống dịch máy. Yêu
cầu người dùng đối với mỗi hệ thống dịch máy là văn bản đích đạt được một độ chính
xác và một độ trôi chảy nhất định. Sử dụng phương pháp dịch từ đối từ để dịch một
collocation từ một ngôn ngữ này sang một ngôn ngữ khác không chỉ làm giảm độ
chính xác của hệ thống mà còn ảnh hưởng không nhỏ tới độ trôi chảy của văn bản
đích. Chính vì vậy, một chương trình dịch máy có khả năng nhận dạng collocation và
dịch, đồng thời cập nhật vào từ điển collocation song ngữ không chỉ làm tăng độ chính
xác của chương trình mà còn làm tăng tính tự nhiên của văn bản. Thêm vào đó, kho
ngữ liệu song ngữ về collocation còn giúp ích không nhỏ cho các chương trình sinh
ngôn ngữ và nhiều ứng dụng khác.
Nói tóm lại, trong khi nhu cầu về các ứng dụng xử lý ngôn ngữ tự nhiên đang ngày
càng tăng cao, việc trích chọn một collocation trong một ngôn ngữ là thực sự cần thiết.
Nó không chỉ giúp tăng độ chính xác của các chương trình, mà còn làm cho kết quả
(bản dịch hay ngôn ngữ được sinh ra…) gần với ngôn ngữ tự nhiên hơn. 7
Chương 2. MỘT SỐ PHƯƠNG PHÁP CỔ ĐIỂN DỰA TRÊN THỐNG
KÊ
Hướng tiếp cận cổ điển trong nghiên cứu về collocation là hướng tiếp cận của các
nhà thực hành và biên soạn từ điển. Theo Benson và Morton[2], các thành phần tạo
thành collocation không thể tách ra xử lý một cách độc lập. Do đó, quá trình trích chọn
collocation là không theo một khuôn mẫu có sẵn nào, mà phải được trích chọn bằng
2.1. PHƯƠNG PHÁP DỰA TRÊN TẦN SỐ
Phương pháp này dựa trên giả định: collocation là tổ hợp các từ thường xuất hiện
cùng nhau trong văn bản. Nếu hai từ (không phải là hư từ), xuất hiện cùng nhau nhiều
lần hơn một ngưỡng nào nó, có thể coi chúng có quan hệ với nhau, hay có thể coi
chúng là collocation. Tuy nhiên, độ chính xác của phương pháp này rất hạn chế. Ta có
thể cải tiến phương pháp này bằng cách cho các cụm từ là bigram đi qua một bộ lọc.
Bộ lọc này chủ yếu dựa trên nhãn từ loại của các từ trong cụm đưa vào, và chỉ cho qua
các cụm từ mà nó cho là có thể là một cụm từ. Justeson and Katz[28] đưa ra các mẫu
cho các cụm từ như vậy cho tiếng Anh. Bảng 2-1 minh họa bộ nhãn sử dụng cho tiếng
Anh được đề xuất bởi Justeson and Katz[28]. Tuy nhiên, do đặc thù của tiếng Việt là
tính từ thường đi sau bổ nghĩa cho danh từ, vị trí động từ, tính từ và giới từ trong câu
khác với tiếng Anh, chúng tôi đề xuất một mô hình nhãn từ loại cho tiếng Việt như
trong bảng 2-2. Trong các mẫu này, A đại diện cho tính từ, P đại diện cho giới từ và N
đại diện cho danh từ. Khi tiến hành so sánh kết quả thực nghiệm, quả thật trích chọn
các bigram theo mẫu sẵn có cải thiện đáng kể độ chính xác của chương trình trích chọn
dựa trên tần số. Phần cuối của chương sẽ trình bày chi tiết hơn về vấn đề này.
Bảng 2-1: Mẫu nhãn từ loại cho bộ lọc nhãn từ loại cho tiếng Anh
A N Linear function
N N Regression coefficients
A A N Gaussian random variable
A N N Cumulative distribution function
N A N Mean squared error
N N N Class probability function
N P N Degree of freedom
Trong đó, A: tính từ, N: danh từ và P: giới từ.
nếu
p quá thấp (thông thường p<0.05, 0.01, 0.005 hay 0.001) và giữ lại H
0
trong các
trường hợp khác.
2.2.1. Phương pháp kiểm tra t
Kiểm tra t là một phương pháp kiểm định giả thuyết thường dùng. Trong phép
kiểm tra t, phân phối xác suất của từ w
i
xung quanh từ gốc w được giả định là tuân
theo phân phối chuẩn. Giả thuyết rỗng là tập mẫu có phân phối trung bình là µ, phép
kiểm tra t xem xét sự sai khác giữa giá trị trung bình của tập mẫu và giá trị trung bình
phân phối chuẩn của nó. Nếu t lớn hơn một ngưỡng t
0
nhất định, giả thuyết rỗng H
0
được chấp nhận; ngược lại, H
0
bị bác bỏ. Giá trị t được tính dựa theo công thức:
t
=
t
=
≈
3.05
Tra bảng giá trị của t tương ứng với độ chính xác α = 0.005, chúng ta thấy giá trị
t
0
= 2.576. Vì t = 3.05 > 2.576 = t
0
nên chúng ta có thể bác bỏ giả thuyết rỗng với độ
chính xác 99.5%. Do đó, tập mẫu không được lấy từ tập dân số ở trên, và độ chính xác
của phép kiểm tra lên đến 99.5%.
Để minh họa việc sử dụng phép kiểm tra t trong trích chọn collocations, chúng ta
tính toán giá trị t cho cụm từ new companies. Chúng ta coi corpus dữ liệu là một dãy
gồm N bigrams, và tập mẫu là một tập các biến ngẫu nhiên tương ứng với mỗi bigram,
nhận giá trị bằng 1 khi bigram xuất hiện trong corpus dữ liệu, và nhận giá trị bằng 0
trong trường hợp ngược lại.
Trong corpus dữ liệu của chúng ta, new xuất hiện 15,828 lần, companies xuất
hiện 4675 lần, và có tất cả 14,307,668 bigrams. Giá trị xác suất cho new và companies
được tính như sau:
P(new) =
P(companies)
=
-7
và độ lệch σ
2
=
p(1-p) ≈ p (do p có giá trị rất nhỏ).
Trong corpus dữ liệu đang xét, new companies xuất hiện 8 lần, có tất cả
14307668 bigrams. Do đó, với corpus dữ liệu đang xét, chúng ta có giá trị trung bình
mẫu =
≈ 5.591 x 10
-7
. Từ các giá trị xác suất tính được chúng ta tính được
giá trị t cho cặp từ new companies bằng:
t
=
≈
.×
.×
.×
san phẳng 12 12 12 1251.5222731106
Dàn_nhạc Giao_hưởng 12 12 12 1251.5222731106
phong_tục tập_quán 22 22 22 1251.51428290252
thiêu rụi 22 22 22 1251.51428290252
12 2.2.2. Phương pháp kiểm tra Pearson Chi bình phương.
Việc sử dụng phương pháp kiểm tra t gặp phải hạn chế vì nó giả định các xác suất
được phân phối đều, tuy nhiên trong thực tế, điều kiện này rất khó đươc thỏa mãn.
Chính vì vậy, phương pháp kiểm tra Chi bình phương được đưa ra. Trong trường hợp
đơn giản nhất, phương pháp này được áp dụng cho hai từ ứng với bảng 2x2 như hình
2-4. Bản chất của phép kiểm tra này là so sánh tần suất quan sát được trong bảng với
giá trị tần suất kỳ vọng. Nếu độ lệch giữa tần suất được kỳ vọng và tần suất quan sát
được lớn, chúng ta có thể bác bỏ giả thuyết rỗng về sự độc lập.
Bảng 2-4: Ví dụ sử dụng phương pháp kiểm tra Chi-square bình phương
w1 = new
w1 # new
w2 = companies
8
4667
w2 = companies
)(E
1j
+E
2j
) / N.
Phép kiểm tra Chi bình phương có thể áp dụng được cho bảng với bất kỳ kích
cỡ nào; với bảng 2x2 ta có công thức đơn giản để tính giá trị Chi bình phương như
sau:
χ =
(
)
(
)(
)(
13
Tra bảng ta thấy α = 0.05 tương ứng với χ = 3.841 > 1.55, do đó, chúng ta không
thể bác bỏ giả thuyết rỗng rằng new và companies xuất hiện độc lập với nhau. Hay
new và companies không thể tạo thành collocation.
Nhìn chung, với bài toán trích chọn collocation, phương pháp kiểm tra t và
phương pháp Pearson Chi bình phương không có sự khác biệt lớn về kết quả. Trong
một số trường hợp, phương pháp kiểm tra Chi bình phương tỏ ra thích hợp hơn với các
xác suất lớn, khi giả định phân phối chuẩn của phép kiểm tra t không được thỏa mãn.
Chính vì lý do đó, phương pháp kiểm tra Chi bình phương thường được áp dụng phổ
biến hơn trong trích chọn collocation. Bảng 2-5 minh họa một số kết quả thu được khi
áp dụng phương pháp kiểm tra Chi bình phương trong trích chọn collocation.
Bảng 2-5: Kết quả thu được khi trích chọn collocations sử dụng phương pháp kiểm tra Chi
bình phương
w
1
w
2
w
1
w
2
freq
w
1
freq
w
14
Thông tin tương hỗ giúp chúng ta xác định mức độ phụ thuộc về thông tin của 2
phần tử x, y. Trong lý thuyết thông tin, thông tin tương hỗ thường được định nghĩa là
thông tin thu được từ các biến ngẫu nhiên, không phải các giá trị của các biến ngẫu
nhiên như chúng ta định nghĩa ở đây.
Fano định nghĩa thông tin tương hỗ là: “Lượng thông tin thu được từ sự xuất hiện
của sự kiện được biểu diễn bởi [y’] về sự xuất hiện của sự kiện được biểu diễn bởi
[x’]”.
Ví dụ, việc đo thông tin tương hỗ cho ta thấy lượng thông tin chúng ta có về sự
xuất hiện của Ayatollah tại vị trí i trong corpus dữ liệu tăng 18.38bit nếu chúng ta biết
Ruhollah xuất hiện tại vị trí i+1. Hay, thông tin về sự xuất hiện của Ruhollah tại vị trí
i+1 trong corpus dữ liệu tăng 18.38 bits nếu chúng ta biết Ayatollah xuất hiện tại vị trí
i. Chúng ta cũng có thể nói răng độ không chắc chắn của chúng ta giảm 18.38bits. Nói
cách khác, chúng ta có thể chắc chắn hơn rằng Ruhollah sẽ xuất hiện tại ví trí tiếp theo
nếu chúng ta biết rằng Ayatollah là từ đang xét.
Có thể thấy rằng thông tin tương hỗ phản ánh khá tốt tính độc lập giữa hai sự
kiện. Giá trị thông tin tương hỗ tiệm cận 0 chứng tỏ hai sự kiện độc lập nhưng giá trị
thông tin tương hỗ lớn hơn 0 không thực sự phản ánh được quan hệ phụ thuộc giữa hai
biến vì quan hệ phụ thuộc còn phụ thuộc rất nhiều vào tần suất xuất hiện 2 sự kiện.
Nói cách khác, hai từ có giá trị thông tin tương hỗ lớn chưa hẳn đã là một collocation.
Một giải pháp cho vấn đề này được đưa ra đó là tách ngưỡng với một tần suất lớn hơn
một giá trị ngưỡng. Tuy nhiên, điều này vẫn chưa thực sự giải quyết được vấn đề đang
tồn tại, mà chỉ giảm nhẹ tác động của nó. Một hạn chế nữa của phương pháp này là do
nó dựa trên giả định là hai từ tạo thành collocation phải có quan hệ phụ thuộc lẫn
nhau, tập kết quả thường bao gồm cả các cụm từ không phải là collocations nhưng có
quan hệ với nhau về nghĩa (ví dụ: doctor-nurse, doctor-dentist).
Như đã nói ở trên, thông tin tương hỗ không thực sự phản ánh khả năng có thể
lý_luận chính_trị 21 35 940 6.90754163914149
đội quân 106 1835 461 5.28221694345149
sạt_lở nặng 22 82 1166 5.88723597735516
kháng_chiến chống 104 281 2121 5.61064041341448
gây hoang_mang 12 5308 12 5.68727674271944
2.4. KẾT QUẢ THỰC NGHIỆM
Do cả 4 phương pháp được đề cập ở trên đều nhận đầu vào là tập các bigram và
thông tin về tần suất xuất hiện của chúng, chúng tôi chia quá trình trích chọn
collocations dựa trên các phương pháp thống kê làm 3 bước chính: bước 1: trích chọn
bigram; bước 2: chạy thử nghiệm trên các mô hình; và bước 3: đánh giá kết quả thu
được. Từ việc xây dựng các mô hình thử nghiệm khác nhau, thu thập kết quả, đánh giá
và so sánh, chúng tôi đề xuất mô hình hiệu quả cho việc trích chọn collocations trong
tiếng Việt dựa trên thống kê. Phần bên dưới sẽ trình bày chi tiết hơn về dữ liệu sử
dụng, ba bước chính trong quá trình trích chọn collcations và một số đề xuất, nhận xét
về kết quả thu được.
2.4.1. Khái quát về dữ liệu sử dụng
Chúng tôi tiến hành thử nghiệm bốn phương pháp trên với đầu vào là ba bộ dữ
liệu. Ba bộ dữ liệu này đều xuất phát từ cùng một tập dữ liệu được sưu tầm từ báo Lao
Động và PCWorld gồm khoảng 300,000 câu, tương đương với 7,142,500 từ. Điểm
khác nhau duy nhất giữa các bộ dữ liệu là ở thông tin về nhãn từ loại và cú pháp. Ba
bộ dữ liệu được đề cập bao gồm một bộ dữ liệu chỉ được tách từ đơn thuần, một bộ
được gán nhãn từ loại và một bộ đã được phân tích cú pháp. Thông tin về nhãn từ loại
và cú pháp sẽ được sử dụng để loại bỏ các bigrams không phù hợp; từ đó, làm tăng độ
chính xác của chương trình trích chọn.
Bộ gán nhãn từ loại được chúng tôi sử dụng là bộ vnTagger – một bộ công cụ mã
nguồn mở được phát triển bởi tác giả Lê Hồng Phương, có thể được download từ trang
với độ chính xác đạt xấp xỉ 95% (*).
Bộ nhãn được sử dụng bao gồm 17 nhãn chính. Bảng 2-7 trình bày bộ nhãn sử dụng
bởi bộ vnTagger.