ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
LUẬN VĂN THẠC SĨ
Tên đề tài: Nghiên cứu thuật toán tách từ tiếng Lào và xây
dụng ứng dụng hỗ trợ tra cứu từ mới tiếng Lào – Việt
Giáo viên hướng dẫn
: TS. NÔNG THỊ HOA
Học viên thực hiện
: VONGPHASITH END
Lớp:
: Cao học K16A
Thái Nguyên, tháng 5 năm 2019
DANH SÁCH CÁC BẢNG
Bảng 2.1: Một số công cụ dùng cho tác từ hiện có
Bảng 3.1: Một số cặp từ Việt-Lào đã thu thập
DANH SÁCH CÁC HÌNH VẼ
Hình 3.1: Danh sách một số file âm thanh đọc tiếng Lào.
CHƯƠNG I: NGỮ PHÁP TIẾNG LÀO ...............................................................................6
1.1 Giới thiệu chung...........................................................................................................6
1.2 Thanh điệu và bảng chữ cái .........................................................................................6
1.2.1 Thanh điệu tiếng Lào.............................................................................................6
1.2.2 Bảng chữ cái tiếng Lào ..........................................................................................7
1.3 Ngữ pháp tiếng Lào......................................................................................................8
1.3.1 Biến cách đặc biệt về Ngữ pháp ...........................................................................9
1.3.2 Quan hệ Danh từ...................................................................................................9
1.3.3 Danh xưng ...........................................................................................................12
1.3.4 Quan hệ giữa Danh từ và Tính từ .......................................................................16
1.3.5 Động từ và các Thời của Hành động ..................................................................16
1.4 Các Thể Ngữ pháp trong các Ngôn ngữ Lào - Thái – Khmer...................................22
1.4.1 Thể Nghi vấn trong Ngôn ngữ Lào - Thái - Khmer ............................................22
CHƯƠNG II: CÁC KỸ THUẬT TÁCH TỪ TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN
.............................................................................................................................................24
2.1 Giới thiệu chung…………………………..…………………………………………………….……………………..24
2.1.1 Xử lý ngôn ngữ tự nhiên......................................................................................24
2.1.2 Tách từ trong Xử lý ngôn ngữ tự nhiên ...............................................................27
2.2 Các kỹ thuật tách từ hiện có .....................................................................................29
2.2.1 Mô hình ngôn ngữ ...............................................................................................29
2.2.2 Một số cách tiếp cận bài toán tách từ ..................................................................30
2.2.3 Thuật toán tách từ phổ biến .................................................................................32
2.2.4 Một số vấn đề mở rộng........................................................................................33
2.3 Dùng kỹ thuật Pointwise cho tách từ .........................................................................33
2.3.1 Ý tưởng cơ bản ....................................................................................................33
2.3.2 Những đặc trưng được sử dụng ...........................................................................35
2.3.3 Đặc điểm về dữ liệu huấn luyện ..........................................................................37
2.4 Một số công cụ (Tools) dùng cho tách từ ..................................................................37
CHƯƠNG III: XÂY DỰNG ỨNG DỤNG TRA CỨU TỪ ĐIỂN VIỆT-LÀO..................38
3.1 Giới thiệu bài toán......................................................................................................38
tiếng Lào không được công nhận là ngôn ngữ thiểu số, tuy nhiên tiếng Lào được nói
tại một số vùng núi gần biên giới Việt-Lào và người dân ở đó xem tiếng Lào là ngôn
ngữ thương mại ở khu vực này.
1.2 Thanh điệu và bảng chữ cái
1.2.1 Thanh điệu tiếng Lào
Tiếng Lào cũng có 5 thanh điệu [3] tương đương với 5 thanh điệu của tiếng
Việt, tuy nhiên có một thanh điệu được gọi là luyến lên – luyến xuống lại được biến
đổi tùy từng trường hợp sử dụng.
Ngữ điệu tiếng Lào được quy định bởi năm thanh điệu:
Thanh cao (thanh sắc) được tạo bởi mái tri và được viết là ” ໊ “
Thanh thấp (thanh huyền) được tạo bởi mái ệc và được viết là ‘ ่ ’
tức là một dấu nháy như thanh sắc ở phía trên.
Thanh bằng (thanh không hay thanh bằng) nghĩa là không có dấu
gì ở trên hoặc dưới.
Thanh luyến lên (thanh hỏi) được tạo bởi mái chặt-ta-wa và được
viết là ” ่ ” tức là một dấu cộng ở phía trên đầu.
Thanh luyến xuống (thanh nặng) được gọi là mái thô và được viết là
” ໊ ” giống như dấu ngả của tiếng Việt ở phía trên nhưng nó phát âm
gần giống thanh nặng trong tiếng Việt.
Riêng “thanh luyến xuống” (hay còn gọi là “thanh lên – xuống khoóng ại)
hoặc “độc” = “đôộc”, “đọc” = “đoọc”… Bộ âm tiếng cũng không phát âm được các
đồng âm “â” mà chỉ phát âm được “ơ”.
Đặc biệt là tiếng Lào không có chữ cái nào tương đương với “r” nên các từ
của Việt Nam có chữ cái “r” đứng đầu khi phiên âm qua tiếng Lào sẽ bị đổi sang
“s”. Hoặc là “L” hoặc “gi” (chữ ລ) nhưng rất ít khi được dùng vì chữ cái Lào tương
đương với âm “gi” (tức là ລ) thường vẫn hay bị đọc thành “nh”.
Để nghe và đọc được đúng thanh điệu tiếng Lào, vui lòng nghe các bài hát đã
ກ
ກ
ກ
ກ
đo
to
thỏ
tho
no
bo
po
p’ho
ກ
ກ
ກ
nỏ
mỏ
ກ
ກ
ກ
so nho
ກກ ກກ
lỏ
ກ
ກ
vỏ
o
ກ ngỏ
ho
Nguyên âm
Khi ghép vần với phụ âm ở trên được sắp xếp theo thứ tự:
u
ກxກ
ກx
ọ
o
ກ x ກກ
+ິ
ກ+ກ ກ+ກ
ợ
ກ+
ạy
ơ
ກ+ກກ ກ+ກ ກ+ກກ
ịa
ກ+
ay
au
ia
໑
nừng
Số 2
໒
soỏng
Số 3
໓
sảm
Số 4
໔
sì
Số 5
໕
hạ
Số 6
Lan thì Ngữ pháp có rất nhiều điểm tương đồng... [4]. Tương đồng nhất về Ngữ
pháp giữa các Ngôn ngữ này là 'nói xuôi' tức là nếu ghép tất cả các Từ vựng lại với
nhau theo kiểu Từ - liền - Từ (word - to - word) thì Từ nào có ý nghĩa càng quan
trọng sẽ càng được xếp ở đầu câu, Từ nào càng ít quan trọng thì càng bị xếp về cuối
câu. Trong lúc các phần lớn các Ngôn ngữ như tiếng Anh, tiếng Hoa, tiếng Đức...
thì ngược lại là Từ nào càng quan trọng thì càng được xếp về cuối câu và từ nào
càng ít quan trọng thì được xếp về đầu câu.... Vì thế khi muốn diễn nghĩa một câu
tiếng Lào, tiếng Thái hoặc tiếng Campuchia sang tiếng Việt thì có thể dịch nghĩa
từng từ và xếp theo đúng thứ tự tương ứng thì sẽ thành nghĩa một câu tiếng Việt khá
hoàn chỉnh, loại trừ một số trường hợp đặc biệt trong Ngữ pháp của các nước.
Trong tiếng LÀO có chữ ໆ dùng để viết khi có những từ phải viết 2 lần, có
nghĩa là khi đọc đến từ nào mà đứng sau nó có chữ ໆ thì phải đọc lặp 2 lần. Thí dụ
từ ຊາໆ đọc là xạ xạ (từ từ). Trong tiếng Lào không có chữ "J" mà chỉ có chữ này
"ຢ" (đọc là do). Chữ này có thể dùng thay thế cho các chữ d, gi trong tiếng Việt (đôi
khi thay cho cả chữ r). Còn chữ ຽ của tiếng Lào thì thay thế cho chữ iê của tiếng
Việt. Chữ này đứng một mình thì không đọc được. Thí dụ từ ຮຽນ nghĩa là học được
ghép như sau:
ກ (ho) + ກ (iê) + ກ (no) = hiên
1.3.1 Biến cách đặc biệt về Ngữ pháp
Trong tiếng Lào, tiếng Thái và tiếng Khmer có một biến cách Ngữ pháp rất
đặc biệt giống nhau đó là liên quan đến số đếm nếu số lượng người hay vật hay sự
kiện nhiều hơn 1 thì trật tự của cụm từ vẫn giống như trong tiếng Việt hoặc nhiều
Ngôn ngữ khác là: Số lượng (số đếm) + Danh từ (người, vật, sự vật)
Nhưng nếu chỉ là một duy nhất thì cấu trúc cụm từ lại thay đổi ngược lại là:
Danh từ (người, vật, sự vật) + 1 (chỉ số lượng)
Ví dụ cụ thể như dưới đây:
Ngôn ngữ
Trong các Ngôn ngữ Lào, Thái và Khmer cũng như tiếng Việt luôn có những
mối quan hệ giữa Danh từ với các Thành phần Ngữ pháp trong câu rất phức tạp:
Mặc dù trong các Ngôn ngữ này không có khái niệm về Mạo từ Xác định hay Mạo
từ Bất
xác định như các Ngôn ngữ Châu Âu nhưng thay vào đó là những khái niệm phức
tạp
hơn như dưới đây:
Danh từ trong các Ngôn ngữ Lào - Thái - Khmer
Các mối Quan hệ Danh từ chính là một bộ phận Ngữ pháp rất quan trọng
không chỉ đối với các Ngôn ngữ Lào - Thái - Khmer nói riêng mà còn là đối với bất
kỳ Ngôn ngữ nào nói chung nhưng do Cấu trúc Ngữ pháp mỗi Ngôn ngữ mỗi khác
mà nó sẽ tạo ra những mối quan hệ khác biệt giữa Danh từ và các Thành phần Ngữ
pháp khác trong câu...
Chỉ định Danh từ
Đối với bất kỳ Ngôn ngữ Châu Âu nào (trừ tiếng Nga), nếu một Danh từ nào
trong câu không kèm theo Số lượng cụ thể thì người ta thường dùng các Mạo từ
không xác
định
hoặc
Mạo
từ
xác
trong Danh từ. Trong lúc phần lớn các Ngôn ngữ Châu Âu có sự phân biệt rất rạch
ròi về điều này như các ví dụ dưới đây:
Số ít
Số nhiều
Tiếng Anh: I am a student
we are the students
Tiếng Việt: Tôi là sinh viên
chúng tôi là sinh viên
Ở Ví dụ nói trên trong tiếng Anh nếu Đại từ Chủ ngữ là số ít thì Danh từ đi
theo nó cũng sẽ là số ít. Ngược lại nếu Đại từ Chủ ngữ là số nhiều thì Danh từ đi
theo nó cũng phải là số nhiều cũng như Đại từ Chủ ngữ thuộc giống nào thì Mạo
từ và Danh từ đi theo nó cũng phải được biến đổi theo giống và số ít/số nhiều của
Đại từ Chủ ngữ.
Trong lúc các Ngôn ngữ Châu Á không cần phân biệt Giống và Số của Danh
từ đi kèm theo Đại từ Chủ ngữ bất chấp Đại từ Chủ ngữ là số ít hay số nhiều cũng
như giống cái hay giống đực....
Danh từ có Lượng từ kèm theo
Như đã nêu ở Mục chính của Ngữ pháp về Biến cách Ngữ pháp, nếu có Số
lượng đi kèm Danh từ thì nó sẽ thiết lập cụm Danh từ với Số lượng như dưới đây:
Ngôn ngữ
Số lượng nhiều hơn 1
Số lượng chỉ bằng 1
cụ thể chẳng hạn như người hay vật hay sự kiện.
Ví dụ: Tôi có 2 cái bàn, anh có 2 quyển vở, nó có 4 quả lựu đạn, cô ấy
có giọng hát rất hay...
Ví dụ trên cho thấy rằng đứng trước các Danh từ luôn có một Từ loại đặc
trưng để phân loại Danh từ thuộc loại nào. Vì vậy, dưới đây giới thiệu một số Từ
loại thường dùng trong các Ngôn ngữ Lào, Thái và Khmer:
1.3.3 Danh xưng
Trong các Ngôn ngữ Lào, Thái và Khmer cũng như tiếng Việt không giống
như các Ngôn ngữ Châu Âu thường được thống nhất các Danh xưng trong giao tiếp
một cách rất đơn giản bằng các Đại từ Nhân xưng rất cụ thể hoặc vài Chức danh đặc
biệt nào đó.
Trong lúc tiếng Thái, tiếng Lào, tiếng Khmer và tiếng Việt luôn phải loay
hoay để diễn giải các quan hệ trong xưng hô với nhau thành các Ngôn ngữ nước
ngoài như thế nào cho thật sát nghĩa và thật đúng phép xã giao mặc dù tự bản thân
người Việt cũng như người Lào hay người Thái hoặc người Khmer vẫn có thể xưng
hô được với nhau rất dễ dàng bởi sự Xưng hô của các Ngôn ngữ Lào, Thái, Khmer
cũng như tiếng Việt đều giống nhau nhưng lại không giống như các Ngôn ngữ Châu
Âu...
Vì thế, nội dung dưới đây diễn giải các cách Xưng hô (còn gọi là Hô cách)
trong các Ngôn ngữ Lào, Thái và Khmer.
Danh xưng và Hô cách là các kiểu Xưng hô trong tiếng Lào, tiếng Thái, tiếng
Khmer cũng như tiếng Hàn và tiếng Nhật tỏ ra rất phức tạp...
Sự xưng hô xã giao trong các Ngôn ngữ Châu Âu tỏ ra rất đơn giản mà cũng
rất đủ phép lịch sự trong giao tiếp kể cả bằng đối thoại trực tiếp lẫn trên Văn bản
nhưng đối với các Ngôn ngữ Lào, Thái, Khmer và tiếng Việt cũng như tiếng Hàn và
tiếng Hoa cùng với tiếng Nhật lại trở nên rất phức tạp bởi vì cách xưng hô xã giao
trong các Ngôn ngữ này không chỉ bị phân chia theo Ngôi thứ và giống - số tương tự
như Hệ thống Đại từ Nhân xưng trong các Ngôn ngữ Châu Âu mà còn được quy
rằng người C cũng sẽ tự xưng là anh. Cuối cùng là người E gọi người G là chị và
người G gọi người E là em và tự xưng là chị thì người E cũng sẽ phải tự xưng là
mình là em...
Như vậy, dễ dàng hình dung việc sử dụng các Danh xưng trong tiếng Lào
cũng như tiếng Thái và tiếng Khmer là hoàn toàn tương tự như trên và dưới đây lần
lượt giới thệu các cách tự xưng và gọi người khác:
Cách tự xưng phổ biến chung cho mọi đối tượng
Trên đây là cách tự xưng của bản thân mình với các đối tượng khác, được sử
dụng với mọi lứa tuổi và mọi giới tính. Đặc biệt trong tiếng Thái chỉ riêng từ 'phổm'
là được sử dụng cho việc tự xưng trực tiếp là 'tôi' như bất kỳ ngôn ngữ nào nhưng từ
'xắn' lại được dùng chung cho mọi ngôi thứ tức là không chỉ được dùng để tự xưng
'tôi' mà còn để gọi người đối diện hoặc người thứ ba cho nên từ 'xắn' được coi là
Ngôi Vô nhân xưng chỉ được đưa vào trong câu để có Đại từ Chủ ngữ mà thôi, cũng
giống như Đại từ Vô nhân xưng trong tiếng Pháp là 'on'...
Các cách xưng hô theo tuổi tác và giới tính
Với những người hơn kém nhau vài tuổi, tiếng Lào và tiếng Thái cũng như tiếng
Khmer thường xưng hô thân thiện như dưới đây:
Theo trên cho thấy rằng chỉ có trong tiếng Lào là có sự phân biệt cách xưng
hô giữa nam và nữ đối với người lớn tuổi hơn với nam được xưng và hô là 'ại' tức là
'anh' và đối với nữ là 'ượi' tức là 'chị'. Còn trong tiếng Thái và tiếng Khmer thì người
lớn tuổi hơn cả nam lẫn nữ đều được dùng chung một cách xưng hô như nhau là
'boong' trong tiếng Khmer và 'Phì' trong tiếng Thái...
Chú ý: Trong tiếng Thái và tiếng Khmer, để phân được rõ ràng hơn người
đang xưng hô là nam hay nữ thì người ta thường gọi thêm một từ gọi về giới tính
theo sau các Đại từ nói trên ví dụ tiếng Thái gọi 'Pee-sai' (phì-xai) là 'anh' để phân
biệt đó là người đàn ông hoặc 'Pee-sao' (phì-xao) để gọi đó là 'chị' (tức là nữ).
Còn tiếng
hoàn toàn sai về Ngôi thứ...
Tương tự, tiếng Hoa cũng dùng từ gọi là 'shushu' (có nghĩa là 'chú') để gọi
'chú ơi' và sau đó lại sử dụng Đại từ Nhân xưng là 'wo' và 'ni' để đối thoại với nhau.
Trong lúc, trong tiếng Việt thì Đại từ để gọi và Đại từ xưng hô lại phải đồng nhất:
Nếu gọi 'chú ơi' thì trong xưng hô cũng sử dụng 'chú' để đối thoại với người được
gọi.
Sự giải thích trên để diễn giải rằng trong tiếng Thái, tiếng Lào và tiếng
Khmer cũng tuân theo quy tắc gọi và xưng hô hoàn toàn sử dụng các Đại từ xưng hô
và gọi như trong tiếng Việt...
1.3.4 Quan hệ giữa Danh từ và Tính từ
Khác với phần lớn các Ngôn ngữ trên Thế giới thông thường Tính từ luôn đặt
trước Danh từ, Ví dụ như trong tiếng Hoa 'mei' (nghĩa là 'đẹp') là Tính từ đứng
trước Danh từ 'rén' (nghĩa là 'người') t tạo thành 'mei rén' (có nghĩa là 'mỹ nhân'
tức là
'người đẹp') hoặc trong tiếng Anh thì 'beautiful' (nghĩa là 'đẹp') là Tính từ cũng
được đặt trước Danh từ là 'girl' (nghĩa là 'cô gái') và trở thành 'beautiful girl' cũng có
nghĩa là 'cô gái đẹp'.
Trong lúc tiếng Việt cũng như tiếng Thái, tiếng Lào và tiếng Khmer Campuchia thì hoàn toàn ngược lại là Tính từ đặt sau Danh từ ngoại trừ một số tình
huống đặc biệt ví dụ như trong tiếng Lào và tiếng Thái nói về 'người đẹp' là 'ngarm
sao' hay 'ngarm sai' tức là 'xinh gái' và 'đẹp trai' (nhưng mà cũng đúng nghĩa hoàn
toàn với tiếng Việt vì 'ngarm' có nghĩa là 'đẹp' hoặc 'xinh' thì trong trường hợp này
tiếng Việt cũng đặt Tính từ lên trước) nhưg trong lúc đó thì tiếng Khmer vẫn đặt sau
Danh từ như 'srey sa art' có nghĩa là 'cô gái đẹp' với Tính từ là 'sa art' (có nghĩa là
'xinh đẹp') vẫn đứng đằng sau Danh từ 'Srey' (có nghĩa là 'cô gái').
1.3.5 Động từ và các Thời của Hành động
Trong các Ngôn ngữ Lào, Thái và Khmer cũng như tiếng Việt không có khái
niệm chia động từ theo các Thì Quá khứ, Hiện tại hay Tương lai mà các Động từ
luôn bất biến trong mọi tình huống Ngữ pháp...
Tiếng Khmer
Tiếng Việt
Phiên âm
Koiy pay herd
viek
Khọi pay hết việc
Chan pai tum
ngarn
Xắn pai thăm ngan
Nhom tov tver
ka
Nhom tơu thuơ ca
Tôi đi làm việc
Các Thì của Hành động
Trong tiếng Lào, tiếng Thái và tiếng Khmer cũng như tiếng Việt không có
khái niệm chia Động từ theo các Thì của Hành động mà chỉ có các Trợ từ kèm theo
trong câu ở những vị trí xác định thích ứng để chỉ rõ thời điểm đã và đang hoặc sẽ
hành động như dưới đây:
Thì hiện tại tiếp diễn
Đối với thì hiện tại thông thường, sẽ không có gì khác biệt trong cấu trúc câu
của các Ngôn ngữ nói trên ngoài việc thiết lập một câu có cấu trúc 'Đại từ Chủ ngữ'
+ Động từ + Bổ ngữ... mà trong đó nếu là Đại từ Nhân xưng làm Chủ ngữ của câu thì
quen đi đến Lào rồi)
Có nghĩa rằng Trợ từ trên đây khẳng định Hành động từng xảy ra và cũng
có thể tiếp diễn nhiều lần.
Chú ý: Trong tiếng Lào và tiếng Thái, kết thúc của bất kỳ câu nào nói về
Hành động từng xảy ra hoặc đã hoàn thành thì đều có Trợtừ ่่่/ແລວ'leaw' (lẹo) để
khẳng định và ở đây sự sắp xếp vị trí giữa Động từ chính và Động từ phụ trong
câu hơi khác trong tiếng Việt (vì theo trật tự của câu trên khi diễn nghĩa sang tiếng
Việt theo sát nghĩa sẽ là 'tôi đi Lào đến rồi').
Cận Quá khứ
Trong nhiều Ngôn ngữ thường nói về một Hành động vừa mới xảy ra trong
một Quá khứ rất gần và được gọi là Cận Quá khứ.
Ví dụ như trong câu tiếng Anh: I just sent you my email
tiếng Việt: Tôi vừa mới gửi email cho bạn
Các câu nói trên để diễn đạt một hành động vừa mới xảy ra tức thì và cũng đã
được kết thúc trọn vẹn. Trong tiếng Thái, tiếng Lào và tiếng Khmer cũng có những
câu tương tự như dưới đây:
Ngôn ngữ
Nguyên văn phiên âm Quốc tế Phiên âm Việt
Tiế ng
Lào:
ລລລລລລລລລລລລລລລລລລລລລລລລລລລລລລ koiy ha- gor
sorng email haiy jao leaw khọi hả-cò xoong email hạy chạu lẹo
Tiế ng Thái: ่่่่่่่่่่่่่่่่่่ pom peng sorng email
hai koon leaw
Tiế ng Việ t: Tôi muốn (sẽ) đi
Có nghĩa rằng, mặc dù tiếng Việt quan niệm rằng bất kỳ mong muốn nào
cũng đều chỉ là sẽ xảy ra trong tương lai nhưng cách nói của tiếng Việt không bao
giờ nói là 'tôi sẽ muốn...' hoặc 'tôi muốn sẽ...' mà chỉ nói đơn thuần là 'tôi muốn...'
cho nên tiếng Thái và tiếng Lào luôn chặt chẽ để biểu thị rõ ràng Hành động sắp xảy
ra trong tương lai vì Động từ 'muốn' là Động từ biểu thị ở một trạng thái tiềm năng
mà thực tế chưa xảy ra...
Điều đó để nói lên sự chặt chẽ trong tiếng Lào và tiếng Thái hơn tiếng Việt ở
chỗ là Trợ từ 'ja' (sẽ) luôn được đặt sau các Động từ nào biểu thị tiềm năng trong
tương lai tương tự như là ่่่่่/ຢາກ 'yark' (muốn), ่่่่่่่ 'torng-garn' (cần,
phải làm), tung-jai (cố gắng)...
Cận tương lai
Đây là mẫu câu nói về một Hành động sắp xảy ra ngay tức thì như mẫu câu
dưới đây:
Ngôn ngữ
Nguyên văn
Phiên âm Quốc tế
Tiế ng Lào:
ລລລລລລກກກລລລລລລກກກກ
Phiên âm Việt
koiy si gup diew- ni leri
Nghi vấn Trực chỉ Hành động bằng cách đảo ngược Động từ chính chỉ hành động
trực tiếp lên trước Đại từ Chủ ngữ hoặc sử dụng Trợ động từ được đặt trước Đại từ
chủ ngữ như dưới đây:
Tiế ng Anh: Are you a student? hoặc: Do you want money?
Tiế ng Việ t: Bạn là sinh viên phải không? hoặc: Bạn cần tiền không?
Tiế ng Lào: 'jao mern nuk-seuk-sa bor'?
hoặc: 'jao yark ngern bor?'
Tiế ng Thái: 'koon pen nuk-seuk-sa mai?' hoặc: 'koon yark ngern mai?'
Tiếng Khmer: 'neak kir chea Sers reu te?' hoặc: 'neak jong luy te?'
Trong lúc tiếng Việt, tiếng Lào, tiếng Thái và tiếng Khmer thì thường sử
dụng một Trợ từ Phủ định đặt ở cuối câu vì thế dạng Câu hỏi Trực chỉ Hành động
trong các Ngôn ngữ Lào, Thái, Khmer và Việt Nam có thể được gọi chung là Thể
Nghi vấn Phủ
để
định
tức
là
kiểu
câu
hỏi
văn phạm....
CHƯƠNG II: CÁC KỸ THUẬT TÁCH TỪ TRONG
XỬ LÝ NGÔN NGỮ TỰ NHIÊN
2.1 Một số khái niệm
2.1.1 Xử lý ngôn ngữ tự nhiên
Khái niệm
Xử lý ngôn ngữ tự nhiên [5] là một lĩnh vực đặc biệt, là sự kết hợp giữa
các ngành khoa học máy tính, trí tuệ nhân tạo và ngôn ngữ học.
Mục tiêu của việc xử lý ngôn ngữ tự nhiên là để cho máy tính xử lý và hiểu
được ngôn ngữ tự nhiên của con người, giúp máy tính có thể thực hiện được một
số nhiệm vụ hữu ích thay cho con người như đặt lịch hẹn, mua bán hàng hóa, dịch
từ ngôn ngữ này sang ngôn ngữ khác, các hệ tư vấn, hệ hỏi đáp(Ví dụ: Siri, Google
Assistant, Facebook M, Cortana,...).
Để máy tính có thể hiểu được đầy đủ và thể hiện được đúng ý nghĩa của
ngôn ngữ là một nhiệm vụ cực kì khó.
Các bước xử lý
่
Phân tích hình thái - Trong bước này từng từ sẽ được phân tích và các ký tự
không phải chữ (như các dấu câu) sẽ được tách ra khỏi các từ. Trong tiếng Anh
và nhiều ngôn ngữ khác, các từ được phân tách với nhau bằng dấu cách. Tuy
nhiên trong tiếng Việt, dấu cách được dùng để phân tách các tiếng (âm tiết) chứ
không phải từ. Cùng với các ngôn ngữ như tiếng Trung, tiếng Hàn,tiếng Nhật,
phân tách từ trong tiếng Việt là một công việc không hề đơn giản.
่
Phân tích cú pháp - Dãy các từ sẽ được biến đổi thành các cấu trúc thể hiện sự