ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
LUẬN VĂN THẠC SĨ
Tên đề tài: Nghiên cứu thuật toán tách từ tiếng Lào và xây
dụng ứng dụng hỗ trợ tra cứu từ mới tiếng Lào – Việt
Giáo viên hướng dẫn
: TS. NÔNG THỊ HOA
Học viên thực hiện
: VONGPHASITH END
Lớp:
: Cao học K16A
Thái Nguyên, tháng 5 năm 2019
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN
1
http://lrc.tnu.edu.vn
DANH SÁCH CÁC BẢNG
Bảng 2.1: Một số công cụ dùng cho tác từ hiện có
Hình 3.22: Kết quả tra từ “nam”.
Hình 3.23: Kết quả tra từ “ngay”.
Hình 3.24: Kết quả tra từ “ngày”.
Hình 3.25: Kết quả tra từ “nghi”.
Hình 3.26: Kết quả tra từ “phân”.
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN
3
http://lrc.tnu.edu.vn
MỤC LỤC
DANH SÁCH CÁC BẢNG ................................................................................................... 2
DANH SÁCH CÁC HÌNH VẼ .............................................................................................. 3
CHƯƠNG I: NGỮ PHÁP TIẾNG LÀO ............................................................................... 6
1.1 Giới thiệu chung ........................................................................................................... 6
1.2 Thanh điệu và bảng chữ cái ......................................................................................... 6
1.2.1 Thanh điệu tiếng Lào ............................................................................................. 6
1.2.2 Bảng chữ cái tiếng Lào .......................................................................................... 7
1.3 Ngữ pháp tiếng Lào ...................................................................................................... 8
1.3.1 Biến cách đặc biệt về Ngữ pháp ........................................................................... 9
1.3.2 Quan hệ Danh từ ................................................................................................... 9
1.3.3 Danh xưng ........................................................................................................... 12
1.3.4 Quan hệ giữa Danh từ và Tính từ ....................................................................... 16
1.3.5 Động từ và các Thời của Hành động .................................................................. 16
1.4 Các Thể Ngữ pháp trong các Ngôn ngữ Lào - Thái – Khmer ................................... 22
1.4.1 Thể Nghi vấn trong Ngôn ngữ Lào - Thái - Khmer ............................................ 22
CHƯƠNG II: CÁC KỸ THUẬT TÁCH TỪ TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN
............................................................................................................................................. 24
3.5.2 Các giao diện chương trình.................................................................................. 53
3.5.3 Một số đoạn code quan trọng .............................................................................. 60
KẾT LUẬN.......................................................................................................................... 62
HƯỚNG PHÁT TRIỂN....................................................................................................... 62
TÀI LIỆU THAM KHẢO ................................................................................................... 63
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN
5
http://lrc.tnu.edu.vn
CHƯƠNG I: NGỮ PHÁP TIẾNG LÀO
1.1 Giới thiệu chung
Tiếng Lào [2] là một ngôn ngữ thuộc Ngữ chi Thái trong hệ ngôn ngữ TaiKadai. Tiếng Lào chịu những ảnh hưởng của tiếng Phạn. Tiếng Lào cũng là ngôn ngữ
truyền thống của hoàng gia Lào, truyền đạt tư tưởng Ấn Độ giáo và Phật giáo. Bảng
chữ cái Lào là bản chính thức cho ngôn ngữ chính thức, và cũng được sử dụng để ghi
lại ngôn ngữ dân tộc thiểu số trong cả nước, trong khi những dân tộc có chữ riêng
như Hmông vẫn có thể sử dụng chữ của mình.
Tiếng Lào có ảnh hưởng ít nhiều đến những ngôn ngữ khác trong vùng đối với
các lân bang như tiếng Thái, tiếng Khmer, tiếng Việt. Lào ngữ được coi là một ngôn
ngữ hỗn hợp ở bán đảo Đông Nam Á. Tiếng Lào có những thanh điệu và phát âm
giống tiếng Thái, phần tương đồng lên đến hơn 80%. Vì vậy trong đối thoại
giữa người Lào và người Thái Lan có thể hiểu nhau được. Ở Việt Nam, tiếng Lào
không được công nhận là ngôn ngữ thiểu số, tuy nhiên tiếng Lào được nói tại một số
vùng núi gần biên giới Việt-Lào và người dân ở đó xem tiếng Lào là ngôn ngữ thương
mại ở khu vực này.
1.2 Thanh điệu và bảng chữ cái
được phiên âm tiếng Lào qua phát âm Việt và bài hát Việt phát âm bằng tiếng Lào.
1.2.2 Bảng chữ cái tiếng Lào
Phần dưới đây liệt kê các phụ âm và nguyên âm trong tiếng Lào [1].
Phụ âm
ກ
ກ
ກ
co
khỏ
kho
ngo
cho
ກ
ກ
ກ
ກ
ກ
ກ
ກ
ngỏ
nhỏ
nỏ
so
ກ
nho
ກ
bo
ກ
ກກ
ກ
ກ
no
ກ
ກກ
o
ho
Nguyên âm
Khi ghép vần với phụ âm ở trên được sắp xếp theo thứ tự:
+ກ +ກ
+ິ +ິ +ິ +ິ +ິ +ິ
ạ
ị
a
ກxກ ກx
ệ
ê
ự
i
ẹ
ư
ກxກ
ກ+ກ
ກ+ກກ
ກ+ກ
ກ+ກກ
ກ+ກກ
+ກກກ
+ກ
ກ
ợ
ơ
ịa
ກ+
ກ+
ກ+ກກ
ạy
ay
nừng
Số 2
໒
soỏng
Số 3
໓
sảm
Số 4
໔
sì
Số 5
໕
hạ
Số 6
໖
pháp giữa các Ngôn ngữ này là 'nói xuôi' tức là nếu ghép tất cả các Từ vựng lại với
nhau theo kiểu Từ - liền - Từ (word - to - word) thì Từ nào có ý nghĩa càng quan
trọng sẽ càng được xếp ở đầu câu, Từ nào càng ít quan trọng thì càng bị xếp về cuối
câu. Trong lúc các phần lớn các Ngôn ngữ như tiếng Anh, tiếng Hoa, tiếng Đức...
thì ngược lại là Từ nào càng quan trọng thì càng được xếp về cuối câu và từ nào
càng ít quan trọng thì được xếp về đầu câu.... Vì thế khi muốn diễn nghĩa một câu
tiếng Lào, tiếng Thái hoặc tiếng Campuchia sang tiếng Việt thì có thể dịch nghĩa
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN
8
http://lrc.tnu.edu.vn
từng từ và xếp theo đúng thứ tự tương ứng thì sẽ thành nghĩa một câu tiếng Việt khá
hoàn chỉnh, loại trừ một số trường hợp đặc biệt trong Ngữ pháp của các nước.
Trong tiếng LÀO có chữ ໆ dùng để viết khi có những từ phải viết 2 lần, có
nghĩa là khi đọc đến từ nào mà đứng sau nó có chữ ໆ thì phải đọc lặp 2 lần. Thí dụ từ
ຊ້ າໆ đọc là xạ xạ (từ từ). Trong tiếng Lào không có chữ "J" mà chỉ có chữ này "ຢ"
(đọc là do). Chữ này có thể dùng thay thế cho các chữ d, gi trong tiếng Việt (đôi khi
thay cho cả chữ r). Còn chữ ຽ của tiếng Lào thì thay thế cho chữ iê của tiếng Việt.
Chữ này đứng một mình thì không đọc được. Thí dụ từ ຮຽນ nghĩa là học được ghép
như sau:
ກ (ho) + ກ (iê) + ກ (no) = hiên
1.3.1 Biến cách đặc biệt về Ngữ pháp
Trong tiếng Lào, tiếng Thái và tiếng Khmer có một biến cách Ngữ pháp rất
đặc biệt giống nhau đó là liên quan đến số đếm nếu số lượng người hay vật hay sự
kiện nhiều hơn 1 thì trật tự của cụm từ vẫn giống như trong tiếng Việt hoặc nhiều
Ngôn ngữ khác là: Số lượng (số đếm) + Danh từ (người, vật, sự vật)
Nhưng nếu chỉ là một duy nhất thì cấu trúc cụm từ lại thay đổi ngược lại là:
Một người (người một)
1.3.2 Quan hệ Danh từ
Xác định Danh từ
Trong các Ngôn ngữ Lào, Thái và Khmer cũng như tiếng Việt luôn có những
mối quan hệ giữa Danh từ với các Thành phần Ngữ pháp trong câu rất phức tạp: Mặc
dù trong các Ngôn ngữ này không có khái niệm về Mạo từ Xác định hay Mạo từ Bất
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN
9
http://lrc.tnu.edu.vn
xác định như các Ngôn ngữ Châu Âu nhưng thay vào đó là những khái niệm phức tạp
hơn như dưới đây:
Danh từ trong các Ngôn ngữ Lào - Thái - Khmer
Các mối Quan hệ Danh từ chính là một bộ phận Ngữ pháp rất quan trọng không
chỉ đối với các Ngôn ngữ Lào - Thái - Khmer nói riêng mà còn là đối với bất kỳ Ngôn
ngữ nào nói chung nhưng do Cấu trúc Ngữ pháp mỗi Ngôn ngữ mỗi khác mà nó sẽ
tạo ra những mối quan hệ khác biệt giữa Danh từ và các Thành phần Ngữ pháp khác
trong câu...
Chỉ định Danh từ
Đối với bất kỳ Ngôn ngữ Châu Âu nào (trừ tiếng Nga), nếu một Danh từ nào
trong câu không kèm theo Số lượng cụ thể thì người ta thường dùng các Mạo từ không
xác
định
hoặc
Tiếng Việt: Tôi là Sinh viên
Như vậy, với các Ngôn ngữ Lào, Thái và Khmer cũng như tiếng Việt có thể
giới thiệu trực tiếp Danh từ mà không cần phải có Mạo từ nào kèm theo như trong
các Ngôn ngữ Châu Âu nếu không đi kèm số lượng cụ thể là bao nhiêu.
Một điểu rất quan trọng trong phần lớn các Ngôn ngữ Châu Á có khác biệt so với
phần lớn các Ngôn ngữ Châu Âu là ở chỗ các Ngôn ngữ Châu Á không quan niệm số
nhiều hay số ít trong Danh từ cũng như không phân biệt giống đực hay giống cái
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN
10
http://lrc.tnu.edu.vn
trong Danh từ. Trong lúc phần lớn các Ngôn ngữ Châu Âu có sự phân biệt rất rạch
ròi về điều này như các ví dụ dưới đây:
Số ít
Số nhiều
Tiếng Anh: I am a student
we are the students
Tiếng Việt: Tôi là sinh viên
chúng tôi là sinh viên
Ở Ví dụ nói trên trong tiếng Anh nếu Đại từ Chủ ngữ là số ít thì Danh từ đi
theo nó cũng sẽ là số ít. Ngược lại nếu Đại từ Chủ ngữ là số nhiều thì Danh từ đi
Mnus mouy (ma-nut muôi)
Tiếng Việt
Hai người
Một người (người một)
Từ loại (phân loại Danh từ)
Đặc biệt, trong các Ngôn ngữ Lào, Thái, Khmer, tiếng Hàn hoặc tiếng Nhật
cũng như tiếng Việt là khi có Lượng từ kèm theo Danh từ thì vấn đề không chỉ dừng
lại ở chỗ là đưa cụm từ nói trên vào trong câu mà nhiều trường hợp sẽ trở nên phức
tạp hơn là phải kèm theo các Từ loại đặc trưng để chỉ rõ Danh từ là loại nào cụ thể
chẳng hạn như người hay vật hay sự kiện.
Ví dụ: Tôi có 2 cái bàn, anh có 2 quyển vở, nó có 4 quả lựu đạn, cô ấy
có giọng hát rất hay...
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN
11
http://lrc.tnu.edu.vn
Ví dụ trên cho thấy rằng đứng trước các Danh từ luôn có một Từ loại đặc
trưng để phân loại Danh từ thuộc loại nào. Vì vậy, dưới đây giới thiệu một số Từ
loại thường dùng trong các Ngôn ngữ Lào, Thái và Khmer:
1.3.3 Danh xưng
Trong các Ngôn ngữ Lào, Thái và Khmer cũng như tiếng Việt không giống
như các Ngôn ngữ Châu Âu thường được thống nhất các Danh xưng trong giao tiếp
kèm theo tên họ (đối với đàn ông)hoặc là Ms với tên họ (đối với các cô gái trẻ) hoặc
Mrs với tên họ (nếu là phụ nữ đã có chồng hoặc rất lớn tuổi) của người đó.
Nếu diễn giải các cách xưng hô trong các Ngôn ngữ Lào, Thái và Khmer bằng
các Ngôn ngữ Châu Âu thì sẽ là một điều vô cùng khó khăn nhưng để diễn giải bằng
tiếng Việt thì lại rất dễ dàng bởi vì rất may mắn rằng cách xưng hô trong tiếng Việt
cũng hoàn toàn giống với các các xưng hô trong tiếng Lào, tiếng Thái cũng như tiếng
Khmer...
Có thể sơ lược diễn giải cách xưng hô thông qua vài câu đối thoại trong tiếng
Việt như dưới đây:
- Người A: Cháu đi đâu đấy?
Người B: Cháu đang đi học bác ạ
- Người C: Em đang làm gì đấy? Người D: Em đang đánh máy anh ạ
- Người E: Chị đang ăn cơm à? Người G: ừ, chị đang ăn cơm em ạ
Cách xưng hô giữa các cuộc đối thoại ngắn nói trên dược diễn giải như dưới
đây:
Người A gọi người B là cháu và người B tự xưng mình là cháu và gọi người A là bác
thì cũng có nghĩa rằng người A sẽ tự xưng mình là bác. Tương tự, người C gọi người
D là em và người B tự xưng mình là em và gọi người C bằng anh thì có nghĩa rằng
người C cũng sẽ tự xưng là anh. Cuối cùng là người E gọi người G là chị và người G
gọi người E là em và tự xưng là chị thì người E cũng sẽ phải tự xưng là mình là em...
Như vậy, dễ dàng hình dung việc sử dụng các Danh xưng trong tiếng Lào cũng
như tiếng Thái và tiếng Khmer là hoàn toàn tương tự như trên và dưới đây lần lượt
giới thệu các cách tự xưng và gọi người khác:
Cách tự xưng phổ biến chung cho mọi đối tượng
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN
Khmer gọi 'bong bros' (boong bơ-ró) là 'anh' (tức là nam giới) còn nữ giới thì được
gọi là 'boong srey' (boong xơ-rây) tức là 'chị'...Có nghĩa rằng trong tiếng Thái 'sai'
được gọi kèm theo sau các Đại từ nói trên là để nhấn mạnh rằng đó là đàn ông, 'sao'
là để nhấn mạnh rằng đó là phụ nữ. Còn trong tiếng Khmer thì 'bros' được kèm theo
sau Đại từ nói trên là để nhấn mạnh đó là đàn ông và 'srey' là để nhấn mạnh rằng đó
là phụ nữ....
Với những người chênh lệch nhau rất nhiều mà trong tiếng Việt thường phải
xưng và hô với nhau là 'cháu' và 'cô', 'chú' hoặc 'bác' thậm chí là 'ông' và bà' thì trong
tiếng Thái và tiếng Lào cũng như tiếng Khmer - campuchia cũng hoàn toàn tương tự
như dưới đây:
Chú ý: Cách sử dụng kiểu xưng hô này trong tiếng Việt như thế nào thì trong
các Ngôn ngữ Lào, Thái và Khmer đều được áp dụng hoàn toàn tương tự...
Một điều rất quan trọng nữa là cách gọi và cách xưng hô trong tiếng Thái, tiếng Lào
và tiếng Khmer cũng như trong tiếng Việt là đồng nhất (tức là cùng một Hệ thống
Đại từ) trong lúc các Ngôn ngữ Châu Âu và tiếng Hoa thì cách gọi (Đại từ để gọi) và
cách xưng hô (Đại từ xưng hô) là hai hệ thống Đại từ khác nhau như các dẫn chứng
cụ thể dưới đây:
Tiếng Anh: Mr Trần, I want to meet you
Tiếng Hoa: 叔叔 Shūshu (su-su), 我想见见你 wǒ xiǎngjiàn jiàn nǐ.
Tiếng Việt: Chú ơi, cháu muốn gặp chú
Theo ví dụ dẫn giải trên để tạo sự chú ý của một người mà mình cần phải nói
điều gì đó thì cần phải gọi người đó và sử dụng Đại từ để gọi: Tiếng Anh thì sử dụng
Đại từ Mr + họ của người được gọi nếu là đàn ông lớn tuổi hoặc cần được tôn trọng
hoặc là Ms/Mrs + họ của người được gọi đối với phụ nữ nhưng khi đối thoại trực tiếp
thì người ta lại dùng I và You là hai Đại từ xưng hô (Đại từ Nhân xưng) để chứng tỏ
tỏ rằng cách gọi và cách xưng hô khác nhau. Có nghĩa rằng người ta không thể dùng
luôn Đại từ để gọi cho câu đối thoại trực tiếp mà theo cách người Việt sử dụng thì
phải là: Mr Trần, I want to meet Mr Trần... cách nói này trong tiếng Anh là hoàn toàn
Trong các Ngôn ngữ Lào, Thái và Khmer cũng như tiếng Việt không có khái
niệm chia động từ theo các Thì Quá khứ, Hiện tại hay Tương lai mà các Động từ luôn
bất biến trong mọi tình huống Ngữ pháp...
Thay vì phải biến đổi Động từ theo các Thì của Hành động như trong nhiều
Ngôn ngữ Châu Âu thì trong các Ngôn ngữ Lào, Thái và Khmer cũng như trong tiếng
Việt chỉ cần đưa thêm vào các Trợ từ để chỉ thời của các Hành động xảy ra như dưới
đây:
Động từ trong câu
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN
16
http://lrc.tnu.edu.vn
Tất cả các Động từ trong tiếng Thái, tiếng Lào hay tiếng Khmer được sử dụng
trong câu luôn luôn được giữ nguyên thể không bị biến đổi theo Đại từ Chủ ngữ hay
theo các Thì (hiện tại, quá khứ, tương lai) tương tự như trong tiếng Việt.
Trong một câu có nhiều Động từ cũng được gắn bó theo cấu trúc như trong tiếng
Viêt...
Ví dụ câu có hai Động từ thì Động từ chính sẽ được đặt ngay sau Đại từ Chủ
ngữ hoặc gần Đại từ Chủ ngữ nhất, kế đó là Động từ phụ hoặc cũng có thể sẽ được
đặt cuối câu mà phần lớn theo đúng trật tự câu của tiếng Việt như dưới đây (chỉ trừ
một số trường hợp đặc biệt sẽ hơi ngược với trật tự về Động từ giữa tiếng Việt và
tiếng Lào hoặc tiếng Thái):
Ngôn ngữ
Nguyên văn
Các Thì của Hành động
Trong tiếng Lào, tiếng Thái và tiếng Khmer cũng như tiếng Việt không có khái
niệm chia Động từ theo các Thì của Hành động mà chỉ có các Trợ từ kèm theo trong
câu ở những vị trí xác định thích ứng để chỉ rõ thời điểm đã và đang hoặc sẽ hành
động như dưới đây:
Thì hiện tại tiếp diễn
Đối với thì hiện tại thông thường, sẽ không có gì khác biệt trong cấu trúc câu
của các Ngôn ngữ nói trên ngoài việc thiết lập một câu có cấu trúc 'Đại từ Chủ ngữ'
+ Động từ + Bổ ngữ... mà trong đó nếu là Đại từ Nhân xưng làm Chủ ngữ của câu thì
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN
17
http://lrc.tnu.edu.vn
thường có thể được loại bỏ không cần sử dụng trong các câu tiếng Lào, tiếng Thái
hoặc tiếng Khmer....
Đối với những Hành động đang diễn ra và có thể sẽ kết thúc vào một thời điểm
nào đó có hạn định hoặc không hạn định thì người ta dùng một Trợ từ biểu thị cho
Thì hiện tại tiếp diễn như dưới đây:
Thì quá khứ
Trong tiếng Lào, tiếng Thái và tiếng Khmer nói chung chỉ có khái niệm Quá
khứ Đơn giản mà không có khái niệm Quá khứ Tiếp diễn... vì vậy. Có hai dạng Quá
khứ Đơn giản trong các Ngôn ngữ này là Quá khứ đã từng xảy ra ít nhất một lần rồi
và Quá khứ Hoàn thành
Quá khứ Hoàn thành
Đối với trường hợp này, tiếng Lào và tiếng Thái cùng đưa vào một Trợ từ kết
thúc câu là 'lèo' để khẳng định Hành động đã xảy ra và đã kết thúc. Tiếng Khmer
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN
19
http://lrc.tnu.edu.vn
Ví dụ như trong câu tiếng Anh: I just sent you my email
tiếng Việt: Tôi vừa mới gửi email cho bạn
Các câu nói trên để diễn đạt một hành động vừa mới xảy ra tức thì và cũng đã
được kết thúc trọn vẹn. Trong tiếng Thái, tiếng Lào và tiếng Khmer cũng có những
câu tương tự như dưới đây:
Ngôn ngữ
Nguyên văn
phiên âm Quốc tế
Phiên âm Việt
Tiếng
Lào:
ລລລລລລລລລລລລລລລລລລລລລລລລລລລລລລ koiy ha-
gor sorng email haiy jao leaw khọi hả-cò xoong email hạy chạu lẹo
Tiếng Thái: ผมเพิง่ สงอีเมลให ้คุณแล ้ว pom peng sorng email hai
koon leaw
Phổm phờng xoòng email hai khùn lẹo
ລລລລລລລລລລລລ 'koiy yark ja leum' (khọi dạc chã lưm)
Tiếng Thái: ผมอยำกจะลืม 'pom yark ja leum' (phổm dạc chã lưm)
Tiếng Việt:
Tôi muốn (sẽ) quên
Hoặc một ví dụ khác tương tự:
Tiếng Lào:
ລລລລລລລລລລລ 'koiy yark ja paiy' (khọi dạc chã pay)
Tiếng Thái: ฉั นอยำกจะไป 'chan yark ja pai' (xắn dạc chã pai)
Tiếng Việt: Tôi muốn (sẽ) đi
Có nghĩa rằng, mặc dù tiếng Việt quan niệm rằng bất kỳ mong muốn nào cũng
đều chỉ là sẽ xảy ra trong tương lai nhưng cách nói của tiếng Việt không bao giờ nói
là 'tôi sẽ muốn...' hoặc 'tôi muốn sẽ...' mà chỉ nói đơn thuần là 'tôi muốn...' cho nên
tiếng Thái và tiếng Lào luôn chặt chẽ để biểu thị rõ ràng Hành động sắp xảy ra trong
tương lai vì Động từ 'muốn' là Động từ biểu thị ở một trạng thái tiềm năng mà thực
tế chưa xảy ra...
Điều đó để nói lên sự chặt chẽ trong tiếng Lào và tiếng Thái hơn tiếng Việt ở
chỗ là Trợ từ 'ja' (sẽ) luôn được đặt sau các Động từ nào biểu thị tiềm năng trong
tương lai tương tự như là อยำก/ຢາກ 'yark' (muốn), ต ้องกำร 'torng-garn' (cần, phải
làm), tung-jai (cố gắng)...
Cận tương lai
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN
21
Tiếng Anh: I come back now
Chú ý: Trong tiếng Thái và tiếng Lào đều có thể dùng Trợ từ จะ 'ja' hoặc cũng
có thể dùng từ ໃກ້ 'gaiy' (trong tiếng Lào, phát âm là 'cạy', có nghĩa là
'gần') hoặc ใกล ้น 'clai' (trong tiếng Thái được phát âm là 'cơ-lại' nghĩa là 'gần') để
biểu thị nghĩa 'sắp' trong Cận tương lai (Tương lai rất gần) cho các câu trên.
1.4 Các Thể Ngữ pháp trong các Ngôn ngữ Lào - Thái – Khmer
1.4.1 Thể Nghi vấn trong Ngôn ngữ Lào - Thái - Khmer
Thể Nghi vấn trong bất kỳ Ngôn ngữ nào trên Thế giới cũng đều có ít nhất hai
thể loại gồm một loại được gọi là Thể Nghi vấn Trực chỉ Hành động và một loại được
gọi là Thể Nghi vấn có Đại từ nghi vấn Đặc trưng.
Việc sử dụng các Đại từ Nghi vấn như đã từng được để cập đến ở phần nói
về Đại từ Nghi vấn tiếng Lào, Đại từ Nghi vấn tiếng Tháivà Đại từ Nghi vấn tiếng
Khmer. Nội dung này sẽ đề cập chủ yếu vào Thể Nghi vấn Trực chỉ Hành động tức
là các câu hỏi dựa vào những hành động cụ thể như dưới đây:
Thể Nghi vấn kiểu Phủ định
Trong khi phần lớn các Ngôn ngữ Châu Âu người ta thường tạo ra các câu
Nghi vấn Trực chỉ Hành động bằng cách đảo ngược Động từ chính chỉ hành động
trực tiếp lên trước Đại từ Chủ ngữ hoặc sử dụng Trợ động từ được đặt trước Đại từ
chủ ngữ như dưới đây:
Tiếng Anh: Are you a student? hoặc: Do you want money?
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN
22
http://lrc.tnu.edu.vn
Tiếng Việt: Bạn là sinh viên phải không? hoặc: Bạn cần tiền không?
Tiếng Lào: 'jao mern nuk-seuk-sa bor'?
để
hỏi.
Một điều đặc biệt là trong hầu hết các Ngôn ngữ Châu Á không bao giờ thấy kiểu câu
hỏi được đặt ra bằng cách đưa Động từ hay Trợ Động từ lên trước Đại từ Chủ
ngữ trong bất kỳ tình huống nào tức là Văn phạm trong Thể Nghi vấn của các Ngôn
ngữ Châu Á không giống như Văn phạm trong Thể Nghi vấn của các Ngôn ngữ Châu
Âu.
Thể nghi vấn kiểu có (từng xảy ra) hay chưa
Trong các Ngôn ngữ Châu Á mà đặc biệt là các Ngôn ngữ Lào, Thái, Khmer
và tiếng Việt rất đa dạng về các Thể loại câu Nghi vấn. Người ta có thể đặt ra một
câu hỏi về một Hành động từng xảy ra hay chưa hoặc một điều gì đó đã từng có hoặc
chưa có như dưới đây:
Thể Phủ định trong Ngôn ngữ Lào - Thái - Khmer
Thể Phủ định thường rất hay gặp trong giao tiếp hàng ngày hoặc trong Văn
bản...Tuy rằng Thể Phủ định chỉ để đơn giản xác nhận có hay không một sự việc đã
đang hoặc sẽ xảy ra nhưng không phải bất kỳ Ngôn ngữ nào cũng dễ diễn đạt bằng
lời nói cũng như bằng Văn bản...
Thể khẳng định trong tiếng Lào - Thái - Khmer
Thể khẳng định thường được sự dụng để tra lời cho các câu Nghi vấn hoặc
cũng để xác nhận những sự việc đã và đang xảy ra trong những tình huống giao tiếp
thường ngày....
Trong các Ngôn ngữ Lào, Thái và Khmer luôn có nhiều sự tương đồng về mặt
văn phạm....
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN
23
http://lrc.tnu.edu.vn
Phân tích ngữ nghĩa - Thêm ngữ nghĩa vào các cấu trúc được tạo ra bởi bộ phân
tích cú pháp.
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN
24
http://lrc.tnu.edu.vn
Tích hợp văn bản - Ngữ nghĩa của một câu riêng biệt có thể phụ thuộc vào những
câu đứng trước, đồng thời nó cũng có thể ảnh hưởng đến các câu phía sau.
Phân tích thực nghĩa - Cấu trúc thể hiện điều được phát ngôn sẽ được thông dịch
lại để xác định nó thật sự có nghĩa là gì.
Tuy nhiên, ranh giới giữa 5 bước xử lý này cũng rất mong manh. Chúng có thể được
tiến hành từng bước một, hoặc tiến hành cùng lúc - tùy thuộc vào giải thuật và ngữ
cảnh cụ thể.
Các bài toán và ứng dụng
Nhận dạng chữ viết: Có hai kiểu nhận dạng, thứ nhất là nhận dạng chữ in, ví dụ
nhận dạng chữ trên sách giáo khoa rồi chuyển nó thành dạng văn bản điện tử như