Nghiên cứu bài toán xác định collocation trong tiếng Việt - pdf 17

Download miễn phí Khóa luận Nghiên cứu bài toán xác định collocation trong tiếng Việt



Mục lục
Lời mở đầu . 1
Chương 1. TỔNG QUAN VỀ BÀI TOÁN XÁC ĐỊNH COLLOCATION . 3
1.1. Khái niệm collocation . 3
1.1.1. Định nghĩa collocation . 3
1.1.2. Đặc trưng của collocation . 4
1.2. Collocation trong các ứng dụng Xử lý ngôn ngữ tự nhiên . 4
Chương 2. CÁC PHưƠNG PHÁP XÁC ĐỊNH COLLOCATION . 6
2.1. Phương pháp Tần suất (Frequency) . 7
2.2. Phương pháp Kỳ vọng và Phương sai (Mean & Variance) . 11
2.3. Kiểm thử Giả thuyết (Hypothesis testing) . 16
2.3.1. Kiểm thử t (t test) . 17
2.3.2. Kiểm thử Giả thuyết để đo sự khác biệt giữa hai tập hợp (Hypothesis
testing of differences) . 19
2.4. Kiểm thử khi-bình phương (Pearson’s chi-square test) . 21
2.5. Các tỉ lệ likelihood (Likelihood ratios) . 26
2.5.1. Tỉ lệ likelihood (Likelihood ratio) . 26
2.5.2. Các tỉ lệ tần suất tương đối (Relative Frequency Ratios) . 29
2.6. Thông tin tương hỗ MI (Mutual information) . 30
Chương 3. COLLOCATION TRONG TIẾNG VIỆT . 36
3.1. Đặc điểm từ vựng Tiếng Việt . 36
3.1.1. Đơn vị cấu tạo từ . 36
3.1.2. cách cấu tạo từ . 36
3.1.3. Biến thể của từ . 37
3.1.4. Những quá trình diễn ra trong sự phát triển từ vựng Tiếng Việt . 38
3.2. Khái niệm collocation trong Tiếng Việt . 40
3.3. Bài toán xác định collocation trong Tiếng Việt . 41
Chương 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ . 44
4.1. Dữ liệu thực nghiệm . 44
4.1.1. Chuẩn bị dữ liệu . 44
4.1.2. Tiền xử lý dữ liệu . 44
4.2. Thiết kế thực nghiệm . 45
4.2.1. Phương pháp thực nghiệm. 45
4.3. Kết quả thực nghiệm và đánh giá kết quả . 46
Kết luận . 49
Tài liệu tham khảo . 50
Tài liệu Tiếng Việt . 50
Tài liệu Tiếng Anh . 50
Phụ lục . 53
1. Bảng phân phối t . 53
2. Bảng phân phối . 54



Để tải bản Đầy Đủ của tài liệu, xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:

ủa strong với các “từ
trung tâm”: opposition, support, for.
Hình 2a. Phân bổ của strong đối với opposition có một đỉnh ở vị trí -1 (strong
opposition). Vì vậy phƣơng sai thấp (s = 0.67), trung bình cho biết rằng
strong thƣờng xuất hiện ở vị trí -1 so với opposition.
cần hạn chế các vị trí xung quanh từ trung tâm (bằng việc giới hạn kích thƣớc
cửa sổ collocation) vì các collocation về cơ bản là cách dùng từ mang tính chất địa
phƣơng.
Hình 2b. Phân bổ của strong đối với support đƣợc rút ra từ một số vị trí âm có tần
suất xuất hiện của cụm từ lớn. Ví dụ, đếm đƣợc khoảng 20 cụm từ ở vị trí -2 (strong leftist
support hay strong business support). Bởi vậy chúng ta nhận đƣợc phƣơng sai cao hơn
(s=1.07) và trung bình .
15
Hình 2c. Sự xuất hiện của strong cùng với for là một phân bổ đều hơn. Có xu hƣớng
strong xuất hiện trƣớc for (vì vậy, trung bình là ), nhƣng thực ra nó có thể xuất
hiện ở bất cứ vị trí nào xung quanh for. Độ chênh lệch cao s = 2.15 đã chỉ ra sự thay đổi
này. Từ đó thấy rằng for và strong không tạo thành collocation.
Bảng 5 đƣa ra các collocation có thể đƣợc tìm thấy bằng phƣơng pháp Kỳ vọng và
phƣơng sai.
Bảng 5. Tìm kiếm collocation dựa vào Kỳ vọng và phƣơng sai.
Bảng này cho biết độ lệch mẫu s và trung bình mẫu của các khoảng cách giữa 12
cặp từ.
Nếu trung bình gần với 1.0 và độ lệch thấp (nhƣ trƣờng hợp từ New York), phƣơng
pháp Kỳ vọng và phƣơng sai cho kết quả tìm kiếm collocation không khác mấy so với
phƣơng pháp Tần suất của Justeson và Katz.
Nếu trung bình lớn hơn rất nhiều so với 1.0 thì độ lệch thấp sẽ cho biết các cụm từ
nào đáng đƣợc quan tâm.
Ví dụ:
- Cặp từ previous / games (khoảng cách là 2) tƣơng ứng với các cụm từ nhƣ in the
previous 10 games hay in the previous 15 games...
- Cặp từ minus / points tƣơng ứng với các cụm từ nhƣ minus 2 percentage points,
minus 3 percentage points...
16
Độ lệch cao chỉ ra rằng hai từ không có mối quan hệ mật thiết với nhau. Điều này
đƣợc chứng minh qua nhóm thứ hai (gồm 4 cặp từ với giá trị phƣơng sai cao) trong ví dụ
ở Bảng 5.
Phƣơng pháp tìm kiếm collocation dựa vào giá trị kỳ vọng và phƣơng sai đƣợc trình
bày ở trên là của Smadja [24]. Smadja chỉ ra rằng phƣơng pháp của ông khá thành công
trong việc trích ra các thuật ngữ (với độ chính xác ƣớc lƣợng khoảng 80%) và trong việc
xác định các cụm từ phù hợp cho việc sinh ngôn ngữ – natural language generation
(Smadja và McKeown 1990 [23]).
Tuy nhiên, sự kết hợp knocked / door không phải collocation ta muốn phân loại –
mặc dù có thể nó rất có ích cho mục đích sinh văn bản (text generation). Phƣơng pháp
phát hiện collocation dựa vào phƣơng sai là một phƣơng pháp phù hợp nếu chúng ta
muốn tìm kiếm kiểu kết hợp từ nhƣ knocked... door.
2.3. Kiểm thử Giả thuyết (Hypothesis testing)
Trong thực tế, có nhiều sự kết hợp từ mà giá trị tần suất cao và phƣơng sai thấp.
Điều mà chúng ta cần tìm hiểu, đó là có hay không hai từ xuất hiện cùng với nhau thƣờng
xuyên mà không phải là sự xuất hiện ngẫu nhiên. Việc đánh giá một biến cố có xảy ra hay
không là một trong những bài toán kinh điển. Nó thƣờng bị ẩn đi trong các thuật ngữ của
Kiểm thử Giả thuyết (hypothesis testing). Có một giả thuyết đƣợc gọi là Giả thuyết Không
(null hypothesis) , chỉ xét sự kết hợp từ ngẫu nhiên. Ta sẽ tính toán xác suất p mà biến
cố sẽ xảy ra nếu đúng, và sau đó loại nếu p quá nhỏ (p < 0.05, 0.01, 0.005, 0.001,
thông thƣờng ngƣời ta lấy ngƣỡng là trong các thực nghiệm khoa học) hay giữ
lại trong trƣờng hợp ngƣợc lại.
Đây là một cách phân tích dữ liệu mà chúng ta phải xem xét cùng lúc hai việc.
Trƣớc mắt, chúng ta sẽ đi tìm kiếm các mẫu đặc biệt trong dữ liệu, nhƣng bên cạnh đó,
cần tính toán đƣợc lƣợng dữ liệu đã đƣợc quan sát. Thậm chí nếu có một mẫu rất tốt,
thì chúng ta vẫn sẽ đánh giá thấp nó nếu nhƣ không có đủ dữ liệu quan sát để có thể chắc
chắn rằng mẫu đó tồn tại không phải do ngẫu nhiên.
Giả thuyết Không là đúng nếu hai từ không tạo thành một collocation. Giả sử rằng
mỗi từ và đƣợc sinh ra một cách hoàn toàn độc lập với nhau, vì vậy khả năng
chúng xuất hiện cùng nhau là:
17
Công thức cho thấy rằng xác suất cùng xuất hiện của hai từ chỉ là kết quả của các
xác suất riêng của mỗi từ .
2.3.1. Kiểm thử t (t test)
cần có một phép thử thống kê để kiểm tra xác suất cùng xuất hiện của các từ.
Phép thử đƣợc sử dụng rộng rãi trong việc tìm kiếm collocation là t test. T test xem
xét trung bình và phƣơng sai của một mẫu các phép đo, mà theo Giả thuyết Không, mẫu
đó đƣợc rút ra từ một phân bổ với trung bình μ. Phép thử xét sự khác nhau giữa trung bình
đƣợc quan sát và trung bình kỳ vọng (đƣợc đo bằng phƣơng sai của dữ liệu) sẽ cho chúng
ta một giá trị trung bình và phƣơng sai đặc biệt hơn, với giả thiết mẫu đƣợc rút ra từ một
phân phối thông thƣờng với trung bình μ.
Để xác định đƣợc xác suất của một mẫu đặc biệt, cần tính toán giá trị thống kê t:
là trung bình mẫu
là phƣơng sai mẫu
là kích thƣớc mẫu
là trung bình của phân phối
Nếu t đủ lớn, chúng ta có thể loại bỏ Giả thuyết Không. Chúng ta có thể tìm ra chính
xác là t cần lớn nhƣ thế nào bằng cách tra cứu trong Bảng phân phối t (Phụ lục).
Để thấy rõ hơn việc sử dụng t test để tìm kiếm collocation, chúng ta sẽ tính giá trị t
cho cụm từ new companies. Vấn đề là chúng ta sẽ đo giá trị trung bình và phƣơng sai của
một mẫu nhƣ thế nào. Có một cách, là coi kho ngữ liệu nhƣ một chuỗi dài gồm N bigram,
các mẫu sẽ đƣợc lấy bằng 1 nếu bigram đang kiểm tra xuất hiện, và bằng 0 trong trƣờng
hợp ngƣợc lại.
Các xác suất để new và companies xuất hiện trong kho ngữ liệu đƣợc tính nhƣ sau:
18
Trong kho ngữ liệu ví dụ, new xuất hiện 15828 lần, companies xuất hiện 4675 lần,
và có tất cả 14307668 bigram.
Giả thuyết Không quy ƣớc rằng sự xuất hiện các biến cố new và companies phải độc
lập với nhau.
Trung bình của phân phối này là và phƣơng sai là
(xấp xỉ này đƣợc sử dụng cho tất cả các bigram có xác suất p nhỏ).
Cụm từ new companies xuất hiện 8 lần trên tổng số 14307668 bigram trong kho ngữ
liệu. Vì thế, đối với mẫu này, chúng ta có trung bình mẫu là
. Theo công thức tính t:
Vì số mẫu rất lớn nên có thể xem bậc tự do (degrees of freedom) df = ∞, với ngƣỡng
cho xác suất p là , tra trong Bảng phân phối t (Phụ lục) đƣợc giá trị 2.57583.
Dễ thấy t < 2.57583 nên không thể loại bỏ Giả thuyết Không (Giả thuyết Không là đúng
vì new và companies tuy cùng xuất hiện nhƣng vẫn độc lập với nhau), vì vậy new
companies không phải là collocation.
Bảng 6 cho thấy các giá trị t của 10 bigram xuất hiện với tần suất 20 lần trong kho
ngữ liệu. Đối với 5 bigram đầu tiên, chúng ta có thể loại bỏ Giả thuyết Không với
, vì vậy các bigram này rất có thể là các collocation. Phép tính t cho 5 bigram
cuối cùng không cho kết quả tốt, vì vậy có khả năng chúng không phải là collocation.
19
Bảng 6. Xếp hạng 10 bigram xuất hiện với cùng tần suất là 20 với...
Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status