TRこNG AI HぃC KHOA HぃC Tで NHI ÊN
KHOA CÔNG NGH゛ THÔNG TI N
Dく MÔN CÔNG NGH゛ TRI THたC
Châu Hi Duy - 0112005
CÁCH TI蔭P C一N D衛A TRÊN NG頴 LI烏U
CHO KI韻M L姥I CHÍNH T謂 TI蔭NG VI烏T
KHÓA LU一N C盈 NHÂN TIN H窺C
GIÁO VIÊN H姶閏NG D郁N
TS. Ainh Ak隠n
NI ÊN KHÓA 2001 – 2005
N運i c違m 挨n
&
A亥u tiên em xin t臼 lòng bi院t 挨n sâu s逸c 8院n th亥y Ainh Ak隠n, ng逢運i 8ã t壱n
tình giúp 8叡, tr詠c ti院p h逢噂ng d磯n và truy隠n 8衣t nhi隠u kinh nghi羽m quý báu 8吋 em
có th吋 th詠c hi羽n và hoàn thành 8隠 tài này.
Em xin chân thành c違m 挨n các th亥y cô thu瓜c khoa Công ngh羽 Thông tin,
tr逢運ng A衣i h丑c Khoa h丑c T詠 nhiên. Các th亥y cô 8ã t壱n tình d衣y d厩, truy隠n 8衣t cho
em nhi隠u ki院n th泳c quý báu trong su嘘t nh英ng n<m A衣i h丑c 8吋 em có 8逢嬰c ngày
hôm nay.
Con xin g荏i l運i c違m 挨n sâu s逸c 8院n ông bà, cha m姻, nh英ng ng逢運i 8ã sinh
thành và nuôi d逢叡ng con thành ng逢運i.
Sau cùng tôi xin g荏i l運i c違m 挨n 8院n các b衣n trong nhóm VCL, 8員c bi羽t là
d衣n V Th映y – ng逢運i 8ã t鰻ng h嬰p và cung c医p ng英 li羽u hu医n luy羽n 8吋 ch逢挨ng
trình có th吋 ho衣t 8瓜ng.
TP. H欝 Chí Minh, tháng 7 n<m 2005
Châu H違i Duy – 0112005
Nh壱n xét c栄a Giáo viên ph違n bi羽n
Ch逢挨ng 1. V鰻ng quan 3
1.1. Ki吋m l厩i chính t違 c栄a ti院ng n逢噂c ngoài 4
1.1.1. Ki吋m l厩i chính t違 cho các ngôn ng英 châu Âu 4
1.1.1.1. Ph逢挨ng pháp T瑛 ng英 c違nh 4
1.1.1.2. Ph逢挨ng pháp A員c tr逢ng lân c壱n 4
1.1.1.3. Ph逢挨ng pháp Danh sách quy院t 8鵜nh 5
1.1.2. Ki吋m l厩i chính t違 cho các ngôn ng英 châu Á 6
1.1.2.1. Mô hình CInsunSpell cho ti院ng Hoa 6
1.1.2.2. Ph逢挨ng pháp c栄a Nagata cho ti院ng Nh壱t 7
1.1.3. Aánh giá chung v隠 các mô hình trên 9
1.2. Ki吋m l厩i chính t違 ti院ng Vi羽t 10
1.2.1. Ch逢挨ng trì nh Vie tSpel l 10
1.2.2. Ki吋m l厩i chính t違 d詠a vào phân tích cú pháp 11
1.2.3. Ki吋m l厩i chính t違 b茨ng mô hình l逢噂i t瑛 12
1.2.4. Word 2003 phiên b違n ti院ng Vi羽t 13
Ch逢挨ng 2. E挨 s荏 lý thuy院t 14
2.1. Chu育n chính t違 15
2.2. O瓜t s嘘 ki院n th泳c c挨 b違n v隠 chính t違 ti院ng Vi羽t 15
2.2.1. Các y院u t嘘 c栄a ti院ng và ch英 vi院t: 15
2.2.1.1. Âm 16
2.2.1.2. Ch英 cái 17
2.2.1.3. Thanh và d医u 17
2.2.1.4. Ti院ng hay âm ti院t 17
2.2.1.5. Hình v鵜 17
2.2.1.6. V瑛 18
2.2.2. Quy cách ghi d医u thanh trên ch英 vi院t 19
2.2.3. M院t qu違"8k隠u tra l厩i chính t違 19
2.2.3.1. X隠 thanh 8k羽u 19
2.2.3.2. X隠 âm 8亥u 20
3.2.3.3. Nh壱n di羽n phiên âm 38
3.3. Ki吋m l厩i non-word 39
3.3.1. Phát hi羽n l厩i 39
3.3.2. U穎a l厩i 39
3.3.2.1. U穎a l厩i phát âm 39
3.3.2. 2. U穎a l厩i nh壱p li羽u 40
3.3.2.3. Các l厩i khác 43
3.4. Ki吋m l厩i real-word 43
3.4.1. Phát hi羽n l厩i b茨ng bigram 44
3.4.1.1. Ý t逢荏ng chính 44
3.4.1.2. M院t h嬰p v噂i trigram 45
3.4.1.3. Làm m鵜n 47
3.4.1.4. Heuristic h衣n ch院 l厩i tích c詠c 47
3.4.2. Phát hi羽n l厩i b茨ng FMM và n-gram 48
3.5. N壱p danh sách 泳ng viên s穎a l厩i 50
3.6. J丑c trong quá trình ki吋m l厩i 51
Ch逢挨ng 4. Cài 8員t th詠c nghi羽m 52
4.1. Cài 8員t 53
4.1.1. Chu育n hoá ti院ng 53
4.1.1.1. Mã hoá các ch英 cái 53
4.1.1.2. Mã hoá ti院ng 53
4.1.1.3. E医u trúc l噂p Tieng 55
4.1.2. Mã hoá t瑛 và n-gram 57
4.1.2.1. Mã hoá t瑛 57
4.1.2.2. Mã hoá n-gram 58
4.1.2.3. E医u trúc l噂p Tu 59
4.1.3. E医u trúc d英 li羽u cho các t瑛"8k吋n và các b瓜 n-gram 59
4.1.4. Phát sinh 泳ng viên 60
4.1.4.1. Phát sinh các ti院ng g亥n gi嘘ng 60
Hình 7: S挨"8欝 ki吋m l厩i b茨ng FMM và n-gram 65
Hình 8: Quá trình ki吋m l厩i 71
Hình 9: Quá trình ki吋m l厩i hoàn t医t 72
Hình 10: K院t qu違 th穎 nghi羽m v噂i P_bi' = 5.33 75
Hình 11: K院t qu違 th穎 nghi羽m v噂i P_bi' = 4.95 76
Hình 12: K院t qu違 th穎 nghi羽m v噂i P_bi' = 4.73 77
Hình 13: K院t qu違 th穎 nghi羽m v噂i P_bi' = 4.59 78
Danh sách b違ng
D違ng 1: Các thành ph亥n d宇 nh亥m l磯n khi phát âm 39
D違ng 2: Phím g嘘c và các phím lân c壱n 42
D違ng 3: K院t qu違 th穎 nghi羽m 74
Danh sách thu壱t toán
Thu壱t toán 1: Phát sinh ti院ng 泳ng viên d詠a vào l厩i phát âm 40
Thu壱t toán 2: Phát hi羽n l厩i b茨ng bigram 45
Thu壱t toán 3: K院t h嬰p bigram và trigram 8吋 phát hi羽n l厩i 46
Thu壱t toán 4: Phát hi羽n l厩i b茨ng FMM và n-gram 49
Thu壱t toán 5: Phát sinh t瑛"泳ng viên 62
Thu壱t toán 6: Binary Search c違i ti院n 63
Thu壱t toán 7: Quá trình hu医n luy羽n 67
Thu壱t toán 8: Các b逢噂c t衣o n-gram trong giai 8q衣n hu医n luy羽n 68
Cách ti院p c壱n d詠a trên ng英 li羽u cho ki吋m l厩i chính t違 ti院ng Vi羽t
- 1 -
O荏"8亥u
A員t v医n 8隠
Là m瓜t ch英 vi院t ghi âm, ch英 vi院t ti院ng Vi羽t cng có r医t nhi隠u quy 8鵜nh v隠
cách k院t h嬰p t瑛ng ký t詠 c栄a b違ng ch英 cái v噂i nhau 8吋 t衣o thành nh英ng t瑛 có ngha,
i丑i là chính t違. Vi羽c dùng 8úng chính t違 r医t quan tr丑ng, nh医t là trong các v<n b違n
hành chính. M瓜t v<n b違n sai chính t違 có th吋 gây khó ch鵜u cho ng逢運i 8丑c, làm
chính t違 làm lu壱n v<n t嘘t nghi羽p c栄a mình.
O映c tiêu sau cùng c栄a 8隠 tài này là m瓜t ch逢挨ng trình ki吋m l厩i chính t違
hoàn ch雨nh, có th吋" 8逢嬰c s穎 d映ng ngay trong th詠c t院. A吋"8衣t 8逢嬰c yêu c亥u này,
ngoài hi羽u qu違 th詠c t院, các mô hình ngôn ng英"8逢嬰c áp d映ng 荏"8ây không nên quá
e亥u k, ph泳c t衣p ho員c 8òi h臼i nhi隠u không gian nh噂.
Tù nh英ng yêu c亥u trên, tôi ch丑n n-gram tixng làm h逢噂ng ti院p c壱n chính.
Mô hình n-gram có m瓜t s嘘"逢u 8k吋m, 8ó là không quá ph泳c t衣p trong x穎 lý, và n院u
8逢嬰c t鰻 ch泳c c医u trúc d英 li羽u t嘘t, l逢嬰ng b瓜 nh噂 chi院m d映ng là ch医p nh壱n 8逢嬰c.
Trong mô hình c栄a 8隠 tài này, n-gram 8逢嬰c dùng làm ph逢挨ng ti羽n 8吋 tính toán các
xác su医t, các m嘘i liên k院t gi英a nh英ng ti院ng trong v<n b違n, dò tìm ra nh英ng vùng b鵜
n厩i, và sau cùng 8逢a ra các 8隠 ngh鵜 s穎a ch英a cho ng逢運i dùng l詠a ch丑n.
D嘘 c映c lu壱n v<n
Lu壱n v<n này g欝m 4 ch逢挨ng v噂i n瓜i dung chính nh逢 sau:
• Ch逢挨ng 1: Trình bày tình hình phát tri吋n c栄a ki吋m l厩i chính t違 trên th院
gi噂i, 8ánh giá m瓜t s嘘 ph逢挨ng pháp 8ã 8逢嬰c công b嘘.
• Ch逢挨ng 2: Các v医n 8隠 lý thuy院t 8逢嬰c dùng 8院n trong lu壱n v<n, g欝m
lý thuy院t ngôn ng英 h丑c và tin h丑c.
• Ch逢挨ng 3: Mô hình và ph逢挨ng pháp 8逢嬰c s穎 d映ng trong lu壱n v<n.
• Ch逢挨ng 4: Tóm t逸t quá trình cài 8員t, cùng v噂i các th穎 nghi羽m và 8ánh
giá v隠 lu壱n v<n cùng h逢噂ng phát tri吋n sau này.
Ngoài ra còn có ph亥n tài li羽u tham kh違o và ph映 l映c.
Cách ti院p c壱n d詠a trên ng英 li羽u cho ki吋m l厩i chính t違 ti院ng Vi羽t
- 3 -
Ch[〔ng 1. V¬ng quan
V瑛 nh英ng n<m 60 c栄a th院 k益 XX, bài toán ki吋m l厩i chính t詠"8瓜ng b茨ng
máy tính 8ã nh壱n 8逢嬰c s詠 quan tâm c栄a các nhà khoa h丑c. Cho 8院n nay, r医t nhi隠u
thu壱t toán, mô hình 8吋 gi違i quy院t bài toán này 8ã 8逢嬰c công b嘘, tuy nhiên h亥u h院t
chúng 8隠u t壱p trung vào các ngôn ng英 bi院n cách c栄a châu Âu nh逢 ti院ng Anh, ti院ng
Pháp,… còn ki吋m l厩i chính t違 cho các ngôn ng英"8挨n l壱p c栄a châu Á nh逢 ti院ng
O瓜t trong nh英ng 8亥u m嘘i 8吋 phân bi羽t m瓜t t瑛 v噂i nh英ng t瑛 nh壱p nh茨ng v噂i
nó là các t瑛 xung quanh nó trong câu. Ví d映, khi 8ang xem xét 8吋 ch丑n l詠a gi英a
dessert và desert, n院u có các t瑛 nh逢 arid, sand, sun,… g亥n 8ó, ta s胤 ch丑n desert,
còn n院u g員p các t瑛 nh逢 chocolate, delicious,… g亥n 8ó, ta s胤 ch丑n dessert. Ph逢挨ng
pháp T瑛 ng英 c違nh 8逢嬰c Golding xây d詠ng d詠a trên nh壱n xét này. Trong giai 8q衣n
j丑c, v噂i m厩i t瑛 th逢運ng b鵜 vi院t sai chính t違, h羽 th嘘ng s胤 ghi nh噂 nh英ng t瑛 th逢運ng
xu医t hi羽n xung quanh nó trong ng英 li羽u. Khi ch衣y th詠c t院, v噂i m厩i t瑛 nghi ng運, h羽
th嘘ng s胤 xem xét các t瑛 lân c壱n v噂i nó, sau 8ó ch丑n ra t瑛 thích h嬰p nh医t 8吋 làm t瑛
thay th院.
1.1.1.2. Ph逢挨ng pháp A員c tr逢ng lân c壱n
2
Ph逢挨ng pháp T瑛 ng英 c違nh r医t t嘘t trong vi羽c phát hi羽n các nguyên t逸c chung
nh医t ph映 thu瓜c vào nh英ng t瑛 lân c壱n, nh逢ng không quan tâm 8院n tr壱t t詠 c栄a
chúng. Trong tr逢運ng h嬰p 8ó, các ph逢挨ng pháp A員c tr逢ng lân c壱n t臼 ra r医t thích
j嬰p 8吋 rút ra các quy lu壱t v隠 tr壱t t詠.
1
Context words
2
Collocations
Cách ti院p c壱n d詠a trên ng英 li羽u cho ki吋m l厩i chính t違 ti院ng Vi羽t
- 5 -
O瓜t 8員c tr逢ng lân c壱n là m瓜t m磯u các y院u t嘘 v隠 cú pháp xung quanh t瑛
8ang xét. Có hai 8員c tr逢ng th逢運ng 8逢嬰c s穎 d映ng trong ph逢挨ng pháp này, 8ó là
nhãn t瑛 lo衣i và t瑛 lân c壱n.
Ph逢挨ng pháp A員c tr逢ng lân c壱n 8逢嬰c th詠c hi羽n theo cách th泳c t逢挨ng t詠 v噂i
ph逢挨ng pháp T瑛 ng英 c違nh. Ý t逢荏ng chính 荏"8ây là phân bi羽t nh英ng t瑛 d宇 b鵜 dùng
nh亥m l磯n v噂i nhau d詠a vào các 8員c tr逢ng lân c壱n c栄a chúng. M厩i 8員c tr逢ng lân
e壱n cung c医p vài d医u hi羽u v噂i kh違 n<ng quy院t 8鵜nh
3
nh医t, hi羽u su医t c栄a nó ph亥n l噂n tùy thu瓜c vào cách xác 8鵜nh kh違 n<ng quy院t 8鵜nh
cho nh英ng 8員c tr逢ng. Aây chính là nh逢嬰c 8k吋m c栄a ph逢挨ng pháp này, b荏i vì vi羽c
tìm ra m瓜t công th泳c 8ánh giá t鰻ng quát là r医t khó.
Do 8ó, Danh sách quy院t 8鵜nh có th吋"8逢嬰c c違i ti院n b茨ng cách dùng nhi隠u 8員c
tr逢ng h挨n. Theo 8ó, 8吋 l詠a ch丑n các t瑛 t嘘t nh医t, h羽 th嘘ng s胤 duy羽t qua toàn b瓜
danh sách 8員c tr逢ng, so sánh t瑛ng 8員c tr逢ng v噂i ng英 c違nh, r欝i k院t h嬰p chúng 8吋
8逢a ra l運i gi違i sau cùng. Vi羽c k院t h嬰p các 8員c tr逢ng có th吋"8逢嬰c th詠c hi羽n nh運 vào
o瓜t b瓜 phân lo衣i, ví d映 nh逢 nh逢 Bayes.
1.1.2. Ki吋m l厩i chính t違 cho các ngôn ng英 châu Á
I亥n 8ây, ki吋m l厩i chính t違 cho các ngôn ng英 châu Á 8ã 8逢嬰c quan tâm và
8衣t 8逢嬰c m瓜t s嘘 thành t詠u. Không nh逢 các ngôn ng英 châu Âu, vi羽c ki吋m l厩i chính
v違 cho các ngôn ng英"8挨n l壱p c栄a châu Á g員p nhi隠u khó kh<n. Nguyên nhân ch栄
{院u là do các ngôn ng英 c栄a châu Á nh逢 ti院ng Hoa, ti院ng Nh壱t, ti院ng Hàn,… không
có ranh gi噂i t瑛 rõ ràng. A吋 áp d映ng nh英ng mô hình ki吋m l厩i chính t違 c違m ng英
e違nh c栄a các ngôn ng英 châu Âu, v<n b違n ti院ng châu Á c亥n 8逢嬰c xác 8鵜nh ranh gi噂i
v瑛. Vi羽c xác 8鵜nh ranh gi噂i t瑛 ngay khi v<n b違n 8亥u vào là 8úng chính t違"8ã là
không 8挨n gi違n. V噂i v<n b違n 8亥u vào sai chính t違, bài toán tách t瑛 càng khó kh<n
j挨n.
Do 8ó, các nhà ngôn ng英 h丑c – tin h丑c c栄a châu Á 8ã 8隠 ra m瓜t s嘘 mô hình
o噂i cho ki吋m l厩i chính t違. Ph亥n này s胤"8k吋m qua m瓜t vài mô hình trong s嘘"8ó.
1.1.2.1. Mô hình CInsunSpell cho ti院ng Hoa
Mô hình ki吋m l厩i này có tên là CInsunSpell [JX00] 8逢嬰c 8隠 xu医t b荏i Li
Jianhua và Wang Xiaolong, là s詠 k院t h嬰p gi英a Trigram tixng, ph逢挨ng pháp 逢噂c
n逢嬰ng Bayes và Phân ph嘘i tr丑ng s嘘 t詠"8瓜ng
5
, 8逢嬰c dùng cho s穎a l厩i chính t違 ti院ng
Hoa.
5
Automatic Weight Distribution
8k吋n. Trong giai 8q衣n th泳 hai, b茨ng các ph逢挨ng pháp th嘘ng kê, n chu厩i t瑛 t嘘t nh医t
6
Minimun edit distance
Cách ti院p c壱n d詠a trên ng英 li羽u cho ki吋m l厩i chính t違 ti院ng Vi羽t
- 8 -
*8逢嬰c t衣o thành t瑛 nh英ng “t瑛” 8ã có 荏 giai 8q衣n tr逢噂c) 8逢嬰c ch丑n làm 泳ng viên
u穎a l厩i. D逢噂i 8ây là ví d映 minh h丑a cho cách ti院p c壱n này:
Câu 8亥u vào:
Tôi lam vi羽c 荏 h嬰p tát x違 mua bán
Ma tr壱n ti院ng nh亥m l磯n:
lám h丑p tác s違 báng
làm t衣t xã
lãm
l衣m
Hình 1: Dò tìm l厩i b茨ng ma tr壱n ti院ng nh亥m l磯n
A吋 có th吋 chia chu厩i 8亥u vào thành các chu厩i con m瓜t cách h嬰p lý, h羽
th嘘ng dùng hai ph逢挨ng pháp, 8ó là Mô hình ngôn ng英 th嘘ng kê và Thu壱t toán
Forward-DB Backward A* 8吋 tách t瑛.
Ngôn ng英 th嘘ng kê 8逢嬰c dùng 8吋 tính xác su医t k院t h嬰p c栄a chu厩i con và
chu厩i nhãn t瑛 lo衣i. Xác su医t k院t h嬰p này th詠c ra là tích xác su医t xu医t hi羽n c栄a
chu厩i con v噂i xác su医t xu医t hi羽n chu厩i nhãn trong ng英 li羽u hu医n luy羽n. Sau cùng
Thu壱t toán Forward-DB Backward A* [Na94] 8逢嬰c dùng 8吋"8ánh giá các xác su医t
j瓜p
Tôi lam vi羽c 荏 j嬰p tát z違 mua bán
làm vi羽c
j嬰p tác xã
u違
xã
mua báng
nh逢 trong quá trình x穎 lý. 姶u 8k吋m th泳 hai, cng là 8員c 8k吋m quan tr丑ng nh医t,
CInsunSpell không 8òi h臼i kho ng英 li羽u hu医n luy羽n 8ã 8逢嬰c tách t瑛 hay gán nhãn
v瑛 lo衣i mà ch雨 c亥n m瓜t kho ng英 li羽u 8úng chính t違. V噂i nh英ng 8員c 8k吋m 8ó, vi羽c
áp d映ng CInsunSpell cho ti院ng Vi羽t có nhi隠u kh違 n<ng s胤 thành công trong th詠c t院.
Mô hình s穎a l厩i chính t違 c栄a Masaaki cho ti院ng Nh壱t, v隠 m員t lý thuy院t cng
có th吋 áp d映ng ngay cho ti院ng Vi羽t mà không c亥n s穎a 8鰻i nhi隠u vì Nh壱t-Vi羽t 8隠u
là các ngôn ng英" 8挨n l壱p. Tuy nhiên, cng nh逢 m瓜t s嘘 mô hình dùng cho ti院ng
Cách ti院p c壱n d詠a trên ng英 li羽u cho ki吋m l厩i chính t違 ti院ng Vi羽t
- 10 -
Anh, mô hình này c亥n có kho ng英 li羽u 8ã 8逢嬰c tách t瑛 và gán nhãn t瑛 lo衣i, 8ó là
8k隠u ch逢a th吋"8áp 泳ng 8逢嬰c. Bên c衣nh 8ó, vi羽c dò tìm ph逢挨ng án s穎a l厩i b茨ng ma
tr壱n ti院ng nh亥m l磯n, khi áp d映ng vào ti院ng Vi羽t, s胤 ph違i 8逢挨ng 8亥u v噂i m瓜t th穎
thách m噂i: bùng n鰻 t鰻 h嬰p, nh医t là trong th詠c t院, các l厩i sai khi nh壱p li羽u r医t 8a
f衣ng nên t壱p nh亥m l磯n khá l噂n. Do 8ó, vi羽c áp d映ng mô hình c栄a Maasaki cho
ti院ng Vi羽t ngay lúc này là r医t khó kh<n.
1.2. Kiげm lてi chính tl tiぎng Viざt
Ki吋m l厩i chính t違 là m瓜t bài toán khó, nh医t là ki吋m l厩i chính t違 cho các
ngôn ng英"8挨n l壱p nh逢 ti院ng Vi羽t, ti院ng Hoa.
Tr逢噂c khi tôi th詠c hi羽n 8隠 tài này, nh英ng ng逢運i 8i tr逢噂c 8ã công b嘘 m瓜t s嘘
công trình nghiên c泳u v隠 ki吋m l厩i chính t違 ti院ng Vi羽t v噂i các h逢噂ng ti院p c壱n khác
nhau. M厩i cách ti院p c壱n có các 逢u-khuy院t 8k吋m khác nhau. Tuy nhiên, ngoài
VietSpell, h亥u h院t chúng 8隠u ch逢a 8逢嬰c áp d映ng thành công trong th詠c t院. Ph亥n
này s胤"8k吋m qua các công trình 8ó, cùng v噂i m瓜t vài nh壱n xét v隠 chúng. Ngoài ra,
trong n<m nay cng có m瓜t s詠 ki羽n 8áng chú ý: Microsoft phát hành trình x穎 lý
x<n b違n MS Word 2003 giao di羽n ti院ng Vi羽t có kèm ch泳c n<ng ki吋m l厩i chính t違
ti院ng Vi羽t.
1.2.1. Ch逢挨ng trình VietSpell
VietSpell c栄a L逢u Hà Xuyên là ch逢挨ng trình ki吋m l厩i chính t違"8ã th逢挨ng
o衣i hoá và 8逢嬰c s穎 d映ng r瓜ng rãi hi羽n nay. Ch逢挨ng trình này có nhi隠u 逢u 8k吋m
hai, là các lu壱t ng英 pháp c栄a ngôn ng英 t詠 nhiên r医t ph泳c t衣p, ti院ng Vi羽t có kho違ng
3000 lu壱t, trong khi ch逢挨ng trình ch雨 t壱p h嬰p 8逢嬰c kho違ng 700 lu壱t. Ak吋m khó
kh<n ti院p theo, ti院ng Vi羽t là ngôn ng英"8挨n l壱p, s嘘 ti院ng l衣i ít, nên vi羽c ph嘘i h嬰p
các ti院ng 8吋 t衣o thành câu “nghe có v飲 h嬰p lý” cng nhi隠u, do 8ó có r医t nhi隠u
tr逢運ng h嬰p câu sai chính t違 nh逢ng v磯n phân tích cú pháp 8逢嬰c. Aây là h衣n ch院
chính c栄a ph逢挨ng pháp này.
Eng v噂i cách ti院p c壱n trên, [TPLT98] 8ã xây d詠ng ch逢挨ng trình ki吋m l厩i
chính t違 VPCTTV. Ch逢挨ng trình này có ph亥n hoàn ch雨nh h挨n [HN99] do có 8院n
140 t瑛 lo衣i, 2000 lu壱n và 8衣t 8瓜 chính xác 95%.
Cách ti院p c壱n d詠a trên ng英 li羽u cho ki吋m l厩i chính t違 ti院ng Vi羽t
- 12 -
Nhìn chung, ki吋m l厩i chính t違 b茨ng phân tích cú pháp r医t có nhi隠u tri吋n
x丑ng. N院u 8逢嬰c nghiên c泳u và phát tri吋n hoàn ch雨nh, kh違 n<ng 泳ng d映ng vào th詠c
v院 s胤 r医t cao.
1.2.3. Ki吋m l厩i chính t違 b茨ng mô hình l逢噂i t瑛
P<m 2004, trong lu壱n v<n t嘘t nghi羽p c栄a mình, Nguy宇n Thái Ng丑c Duy
[Duy04] 8ã trình bày mô hình l逢噂i t瑛 cho ki吋m l厩i chính t違 ti院ng Vi羽t. Mô hình
này ho衣t 8瓜ng d詠a vào vi羽c tách t瑛 m運, sau 8ó 8ánh giá các cách tách t瑛 khác
nhau 8吋 tìm ra cách tách t瑛 có v飲 h嬰p lý nh医t làm câu s穎a l厩i. Trong 8ó, l逢噂i t瑛
th詠c ch医t là m瓜t c医u trúc d英 li羽u 8員c bi羽t, gi嘘ng nh逢 m瓜t 8欝 th鵜 th逢a có h逢噂ng
không chu trình. C医u trúc d英 li羽u này giúp cho vi羽c tách t瑛 m運 và 8ánh giá các
cách tách t瑛"8逢嬰c d宇 dàng và nhanh chóng, b荏i vì có th吋 áp d映ng các thu壱t toán
tìm 8逢運ng 8i trên 8欝 th鵜 v噂i nó.
N逢噂i t瑛 là m瓜t mô hình m衣nh và ch員t ch胤. V隠 lý thuy院t, n院u 8逢嬰c cài 8員t và
hu医n luy羽n hoàn ch雨nh, thì hi羽u su医t c栄a nó s胤 r医t kh違 quan.
Tuy nhiên, mô hình này có m瓜t nh逢嬰c 8k吋m r医t khó kh逸c ph映c, 8ó là v医n 8隠
bùng n鰻 t鰻 h嬰p. B荏i vì, ngay v噂i m瓜t câu 8úng chính t違, vi羽c tách t瑛 cng không
8挨n gi違n, và th逢運ng tìm 8逢嬰c nhi隠u cách tách t瑛 khác nhau. V噂i câu 8亥u vào là sai
chính t違, vi羽c tách t瑛 m運 càng tr荏 nên khó kh<n do v噂i m厩i ti院ng, h羽 th嘘ng ph違i
- 14 -
Ch[〔ng 2. E〔 s≡ lý thuy■t
Tr逢噂c khi b逸t tay vào l詠a ch丑n mô hình và cài 8員t các thu壱t toán, hi吋u rõ
nh英ng v医n 8隠 lý thuy院t 8逢嬰c dùng trong 8隠 tài là 8k隠u r医t c亥n thi院t. Ch逢挨ng này
xin 8逢嬰c trình bày các v医n 8隠 lý thuy院t 8ó, g欝m hai ph亥n chính:
E挨 s荏 lý thuy院t ngôn ng英 h丑c: các khái ni羽m v隠 ti院ng, t瑛, hình v鵜,… c栄a
ti院ng Vi羽t, các quy t逸c chính t違 c挨 b違n, và k院t qu違" 8k隠u tra v隠 các l厩i chính t違
th逢運ng g員p 荏 TP HCM.
E挨 s荏 lý thuy院t tin h丑c: trình bày v隠 h羽 ki吋m l厩i chính t違 t鰻ng quát, mô
hình lý thuy院t 8逢嬰c áp d映ng trong lu壱n v<n: n-gram, cùng v噂i ph逢挨ng pháp 逢噂c
n逢嬰ng Bayes 8吋 tính toán các xác su医t n-gram, và các mô hình tách t瑛.
Cách ti院p c壱n d詠a trên ng英 li羽u cho ki吋m l厩i chính t違 ti院ng Vi羽t
- 15 -
2.1. Churn chính tl
Theo [LTT97] thì chu育n chính t違 bao g欝m chu育n vi院t các âm (ph映 âm,
nguyên âm, bán âm ), và các thanh, chu育n vi院t tên riêng (vi院t hoa ), chu育n vi院t
phiên âm t瑛 và thu壱t ng英 vay m逢嬰n.
Hi羽n nay, chu育n vi院t các âm và các thanh ti院ng Vi羽t 8ã 8逢嬰c xác 8鵜nh theo
j羽 th嘘ng ng英 âm cu違 ch英 vi院t. Chu育n vi院t hoa tuy ch逢a th壱t th嘘ng nh医t, nh逢ng xu
j逢噂ng 8ang 8逢嬰c ch医p nh壱n là vi院t hoa con ch英"8亥u cu違 m厩i âm ti院t thu瓜c t瑛 tên
riêng (Vi羽t Nam, H欝 Xuân H逢挨ng …); n院u tên riêng là c映m t瑛 th吋 hi羽n m瓜t hay
j挨n m瓜t danh t瑛 chung và m瓜t danh t瑛 riêng thì vi院t hoa con ch英"8亥u thu瓜c âm ti院t
8亥u cu違 các danh t瑛 chung, còn danh t瑛 riêng vi院t hoa theo quy 8鵜nh. Chu育n vi院t
phiên âm t瑛 vay m逢嬰n (ti院ng n逢噂c ngoài ) ph泳c t衣p h挨n: 8ang t欝n t衣i 2 cách vi院t
phiên âm, 8ó là phiên âm âm ti院t hoá (có g衣ch n嘘i gi英a các âm ti院t cu違 t瑛 nh逢 Lê-
nin, Pa-ri …) và phiên âm t瑛 hoá (vi院t li隠n âm ti院t, tôn tr丑ng âm và ch英 theo h羽
Latinh nh逢 Paris, Canada, …).
2.2. Mとt sだ kiぎn thへc c∝ bln vぐ chính tl tiぎng Viざt
Ch英 vi院t là h羽 th嘘ng kí hi羽u b茨ng 8逢運ng nét 8員t ra 8吋 ghi ti院ng nói và có
ch英 cái i và y (ví d映: l挨i, lây); bán âm cu嘘i th泳 hai 8逢嬰c ghi b茨ng hai ch英 cái o và
u (ví d映: ao, âu).
Âm 8うm
Ti院ng Vi羽t có m瓜t âm 8羽m [u], 8逢嬰c th吋 hi羽n b茨ng hai ch英 cái o và u (ví
f映: hoa hu羽). Âm 8羽m có tác d映ng làm cho v亥n tr荏 nên tròn môi (so sánh: an, ên
x噂i oan, uên).