BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
VILAVONG SOUKSAN
NGHIÊN CỨU CÁC PHƯƠNG PHÁP TÁCH TỪ
PHỤC VỤ PHÂN LOẠI VĂN BẢN TIẾNG LÀO
LUẬN ÁN TIẾN SĨ KỸ THUẬT
ĐÀ NẴNG, NĂM 2017
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
VILAVONG SOUKSAN
NGHIÊN CỨU CÁC PHƯƠNG PHÁP TÁCH TỪ
PHỤC VỤ PHÂN LOẠI VĂN BẢN TIẾNG LÀO
Chuyên ngành : KHOA HỌC MÁY TÍNH
Mã số : 62.48.01.01
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Người hướng dẫn khoa học : PGS. TS. PHAN HUY KHÁNH
ĐÀ NẴNG, NĂM 2017
1.1.1. Giới thiệu tiếng Lào ........................................................................................ 6
1.1.2. Nguồn gốc của tiếng Lào ................................................................................ 7
1.1.3. Những yếu tố ngữ pháp tiếng Lào .................................................................. 7
1.2.SO SÁNH TIẾNG LÀO VỚI NGÔN NGỮ LÁNG GIỀNG ...............12
1.2.1. So sánh bảng chữ cái .................................................................................... 13
1.2.2. So sánh cấu trúc âm tiết ................................................................................ 14
1.2.3. So sánh cấu trúc từ vựng .............................................................................. 14
1.2.4. So sánh cấu trúc câu ..................................................................................... 15
1.3.TIẾNG LÀO TRONG BỐI CẢNH XL NNTN .....................................16
1.3.1. Giới thiệu một số kết quả xử lý tiếng Lào .................................................... 16
1.3.2. Thực trạng và thách thức trong xử lý tiếng Lào ........................................... 19
1.3.3. Đặt bài toán phân loại văn bản tiếng Lào ..................................................... 19
1.4.KẾT LUẬN CHƯƠNG 1 ........................................................................20
CHƯƠNG 2.PHÂN LOẠI VĂN BẢN VÀ BÀI TOÁN TÁCH TỪ ..........21
2.1.MỞ ĐẦU VỀ VĂN BẢN VÀ SOẠN THẢO VĂN BẢN ......................21
2.1.1. Khái niệm văn bản .......................................................................................... 21
iv
2.1.2. Khái niệm soạn thảo văn bản (STVB)............................................................ 23
2.1.3. Xu thế soạn thảo văn bản hiện nay ................................................................. 24
2.2.BÀI TOÁN PHÂN LOẠI VĂN BẢN .....................................................24
2.2.1. Tìm hiểu bài toán phân loại văn bản .............................................................. 24
2.2.2. Quy trình giải quyết bài toán PLVB ............................................................... 25
2.2.3. Các phương pháp giải quyết bài toán PLVB .................................................. 27
3.4.KẾT LUẬN CHƯƠNG 3 ........................................................................62
CHƯƠNG 4.THỰC NGHIỆM PLVB VÀ ĐÁNH GIÁ KẾT QUẢ ..........63
4.1.CHUẨN BỊ DỮ LIỆU ..............................................................................63
4.1.1. Phân tích hiện trạng trường ĐH Champasak ................................................ 63
4.1.2. Thu thập dữ liệu HCVP tại trường ĐH Champasak ..................................... 64
4.1.3. Xây dựng kho văn bản HCVP của trường ĐH Champasak .......................... 65
4.2.TRIỂN KHAI CHUẨN BỊ THỬ NGHIỆM ..........................................68
4.2.1. Xây dụng mô hình thử nghiệm........................................................................ 68
4.2.2. Chuẩn bị cơ sở thử nghiệm............................................................................. 68
4.2.3. Đề xuất PLVB sử dụng hai phương pháp SVM và RBF ................................ 71
4.3.CHẠY THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ ............................72
4.3.2. Thử nghiệm hai phương pháp tách từ CRF và MM ..................................... 73
4.3.3. Thử nghiệm tách từ sử dụng cơ sở luật để xử lý nhập nhằng ....................... 75
4.3.4. Thử nghiệm phân loại văn bản ..................................................................... 76
4.4.KẾT LUẬN CHƯƠNG 4 ........................................................................80
KẾT LUẬN .....................................................................................................81
TÀI LIỆU THAM KHẢO .............................................................................84
vi
DANH MỤC CHỮ VIẾT TẮT
1. Tiếng Anh
STT
Chữ
Natural Language Processing
Xử lý ngôn ngữ tự nhiên
7
RBF
Radial BasisFunctions network
Mạng hàm bán kính xuyên tâm cơ sở
8
SVM
Support Vector Machine
Máy vec tơ hỗ trợ
Nghĩa tiếng Anh
Nghĩa tiếng Việt
2. Tiếng Việt
Chữ viết tắt
STT
Nghĩa
6
MSD
Máy suy diễn
7
NCKH
Nghiên cứu Khoa học
8
NNTN
Ngôn ngữ tự nhiên
9
NSD
Người sử dụng
10
PLVB
Phân loại văn bản
13
1.2.
So sánh cấu truc am tiết.
14
1.3.
So sánh cấu trúc từ đơn.
14
1.4.
So sánh cấu trúc câu.
16
4.1.
Ví dụ một số từ hư trong tiếng lào.
67
4.2.
Thử nghiệm phương pháp nhận diện từ đơn dùng cơ sở luật.
77
4.8.
PLVB RBF tiếng Lào kết hợp với tách từ sử dụng CRF.
77
4.9.
PLVB tiếng Lào kết hợp RBF với tách từ sử dụng cơ sở luật.
78
4.10.
Kết quả thực nghiệm PLVB tiếng Lào kết hợp tách từ.
78
viii
DANH MỤC CÁC HÌNH
Số hiệu
hình
Tên hình
34
2.4.
Mô hình triển khai giải pháp tách từ phục vụ PLVB tiếng Lào.
39
3.1.
Cấu trúc từ đơn trong tiếng Lào.
42
3.2.
Cấu trúc XML cho CSDL chữ cái tiếng Lào.
48
3.3.
Mô hình nhận diện từ đơn tiếng Lào.
49
3.4.
Cơ chế hoạt động của máy suy diễn nhận diện từ đơn.
75
4.3.
Lược đồ so sánh kết quả thực nghiệm giữa mạn RBF và SVM
79
ix
MỞ ĐẦU
Xử lý Ngôn ngữ tự nhiên (XL NNTN, tiếng Anh NLP - Natural Language
Processing), hay Ngôn ngữ học Tính toán (CL - Computational Linguistics) thuộc lĩnh
vực trí tuệ nhân tạo, tập trung nghiên cứu xây dựng các ứng dụng Tin học trên NNTN,
ngôn ngữ của con người. XL NNTN là miền đất cực kỳ khó khăn cho những ai mong
muốn thâm nhập và khai thác. Không những XL NNTN đòi hỏi người nghiên cứu phải
am hiểu tường minh về ngôn ngữ học, hiểu thói quen giao tiếp và ứng xử của con
người, mà còn phải có kiến thức chuyên sâu về nhiều lĩnh vực khác nhau của Tin học,
của Khoa học Máy tính.
Trong hệ thống các ngôn ngữ trên thế giới hiện nay, tiếng Lào là một trong
những ngôn ngữ có sự phong phú, đa dạng và mang đậm những nét đặc trưng của các
ngôn ngữ đơn tiết Vùng Nam-Á, ngôn ngữ nơi cửa Phật. Đây chính là nguyên nhân
dẫn đến những khó khăn vượt bậc cho cả người nghiên cứu và người sử dụng (NSD)
theo cách thông thường và cả khi xử lý trên máy tính trong lĩnh vực xử lý tiếng Lào.
Những năm gần đây, sự phát triển vượt bậc của công nghệ thông tin (CNTT)
nói chung, internet nói riêng, đã làm gia tăng số lượng giao dịch thông tin trên mạng,
hay trực tuyến, một cách đáng kể. Ngày mỗi ngày chứng kiến sự bùng nổ chóng mặt
của các tin tức điện tử, thư viện điện tử (chẳng hạn sự phát triển của mục lục trực
tuyến OPAC-Online Public Access Catalog), các trang mạng xã hội, các giao dịch đủ
áp dụng thực tiễn. Luận án không tìm cách phân tích nguyên nhân của những hạn chế
này. Tuy nhiên, có thể nêu ra một số nguyên nhân chính mà chúng tôi phải tìm cách khắc
phục. Trước hết là thực trạng hoạt động khoa học công nghệ tại nước CHDCND Lào
chưa thực sự phát triển, nếu so sánh với các nước trong khối ASEAN, hay so sánh với
nước láng giềng Việt Nam. Điều này dẫn đến có rất ít chuyên gia về lĩnh vực XL
NNTN, đặc biệt là XL tiếng Lào. Mặc dù đã có nhiều hoạt động Tin học hóa, sử dụng
internet và các phương tiện truyền thông hiện đại trong mọi khía cạnh của cuộc sống,
nhưng chưa thật đều khắp nước Lào và vắng thiếu sự trao đổi chuyên môn, hợp tác
nghiên cứu khoa học. Một nguyên nhân nữa là những đặc điểm chính tả của tiếng Lào
trong vấn đề xử lý văn bản.
Nếu trong hệ thống chữ viết tiếng Việt, có thể xem mỗi từ có thể có ba tầng,
trong đó tầng giữa là các phụ âm và/hoặc nguyên âm, tầng trên và tầng dưới là các dấu
thanh, thì chính tả của tiếng Lào, kể cả tiếng Thái và tiếng Khmer, cũng sử dụng ba tầng
(chân, thân và tóc) nhưng phức tạp hơn nhiều (xem hình 1 minh họa dưới đây). Chữ viết
Lào khác về kiểu chữ nhưng có cấu trúc tương tự chữ viết Thái và Khmer. Cả ba ngôn
2
ngữ này đều không sử dụng dấu khoảng cách (Space) giữa các từ trong câu. Chính sự
vắng mặt của các dấu khoảng trống để phân cách các từ, hay âm tiết, đã dẫn đến hiện
tượng nhập nhằng, đa nghĩa… gây khó khăn không nhỏ trong lĩnh vực XL NNTN nói
chung, xử lý tiếng Lào trên máy tính nói riêng [38][45][47][49].
Cho đến thời điểm hoàn thành luận án này, vẫn chưa có những kết quả nào mới
liên quan đến nội dung thực hiện của đề tài là tách từ và phân loại văn bản tiếng Lào.
Tra trên google với từ khóa tiếng Anh “ Lao document Segmentation” hay “ Lao
document Classification” hoặc tiếng Lào “
”, “
ຈແ
2. Nhiệm vụ nghiên cứu và kết quả đạt được
Để đạt được mục đích đã đề ra trên đây, luận án hướng đến ba nhiệm vụ chính
như sau :
1. Nghiên cứu chuyên sâu về XL NNTN, các đặc trưng ngôn ngữ và chính tả
tiếng Lào. Phân tích, đánh giá những kết quả xử lý tiếng Lào đã được công
bố cho đến nay và phân tích hiện trạng các hoạt động HCVP mang tính thực
tiễn tại trưởng Đại học Champasak.
2. Đề xuất giải pháp phân tách từ hiệu quả trong một văn bản tiếng Lào trên cơ
sở xây dựng kho ngữ liệu từ đơn và cụm từ tiếng Lào, xây dựng cơ sở luật
và máy suy diễn dựa trên các đặc trưng ngữ pháp của hệ viết Lào.
3. Tìm chọn các phương pháp PLVB hiệu quả cho tiếng Lào, đề xuất mô hình
thử nghiệm PLVB kết hợp tách từ tiếng Lào sử dụng các giải pháp đề xuất
và các kho ngữ vựng đã xây dựng.
3. Cấu trúc của luận án
Sau phần mở đầu, nội dung của luận án gồm bốn chương như sau :
Chương 1 giới thiệu nguồn gốc và một số đặc trưng cơ bản của tiếng Lào, so
sánh đặc điểm ngôn ngữ với một số ngôn ngữ láng giềng Việt Nam, Thái và Khmer,
phân tích bối cảnh XL NNTN và xử lý tiếng Lào và đặt bài toán PLVB kết hợp giải
quyết bài toán tách từ tiếng Lào.
Chương 2 trình bày tổng quan về lý thuyết phân tách từ, PLVB, trong đó,
luận án tập trung giới thiệu các thuật toán phân tách từ, PLVB và các hướng nghiên
cứu liên quan, từ đó đề xuất giải pháp và các bước triển khai thử nghiệm PLVB tiếng
Lào áp dụng thử nghiệm phục vụ các hoạt động HCVP tại trường Đại học Champasak,
nước CHDCND Lào.
Chương 3 tập trung đề xuất giải pháp xây dựng mô hình nhận diện từ giải quyết
bài toán tách từ trong văn bản tiếng Lào dựa trên cơ sở luật về đặc trưng ngữ pháp và
tính chất của nguyên âm, phụ âm, xây dựng cơ sở dữ liệu (CSDL) chữ cái, các kho
ngữ vựng từ đơn và cụm từ, xây dựng máy suy diễn (MSD) phục vụ giải quyết bài toán
tách từ kết hợp xử lý nhập nhằng.
VẤN ĐỀ XỬ LÝ TIẾNG LÀO
1.1. TÌM HIỂU TIẾNG LÀO
1.1.1. Giới thiệu tiếng Lào
Nước CHDCND Lào có bốn dòng ngôn ngữ chính là Lào-Tai, Mon-Khơme,
Chin-Tybệt và H'Mông-Miền thuộc 49 dân tộc khác nhau[46].
Dòng ngôn ngữ Lào-Tai (hay hệ ngôn ngữ Lào-Thái) có 8 dân tộc là Lào, Xaek,
Nhouan, Tai, Thai-Neua, Phouthai, Yang và Lue, chiếm 55% dân số cả nước. Tám dân
tộc này sinh sống ở các vùng đồng bằng dọc sông Mê Kông, các nhánh sông đổ về Mê
Kông, có nghề nghiệp chủ yếu là trồng lúa nước và đánh bắt cá.
Dòng ngôn ngữ Mon-Khơme có 32 dân tộc : Khmou, Katang, Katu, Kriang,
Kree/Kri, Khmer, Ngouan, Cheng, Samtao, Sadang, Xuay, Xingmoun, Nhaheun, TaOy, Triang, Tri, Toum, Thaen, Bid/Bit, Brao, Pakoh/Pacoh, Pray, Phong, Makong,
Moy, Yrou, Yae/Ye, Lamed/Lamet, Lavi/Lavy, Oy, Oedou và Harak, chiếm 27% của
dân số cả nước. Những dân tộc này thường sống ở vùng đồng bằng và trung du, có
nghề nghiệp chủ yếu là trồng lúa và làm nương.
Dòng ngôn ngữ Chin-Tybệt có 7 dân tộc : Singsily, Sila, Lahu, LoLo, Hor,
Akha, Hanyi, chiếm 11% của dân số cả nước. Những dân tộc này thường sống ở phía
Bắc giáp với Trung quốc, có nghề nghiệp chủ yếu là làm nương rẫy.
Dòng ngôn ngữ H'Mông-Miền chỉ có hai dân tộc là Hmong và Iewmien, chỉ
chiếm 7% của dân số cả nước. Hai dân tộc này sinh sống ở vùng núi cao miền Bắc, có
nghề nghiệp chủ yếu là làm nương rẫy và chăn nuôi gia súc.
Tiếng Lào-Tai là Quốc ngữ, được dùng trong giao tiếp chính thống và trong các
VBHC của nhà nước.
Luận án tập trung xử lý tiếng Lào-Tai, ngôn ngữ chính thức được dùng trong
nước Lào, gọi là tiếng Lào, tương tự tiếng Việt Kinh ở Việt Nam.
6
1.1.2. Nguồn gốc của tiếng Lào
Tiếng Lào (ພາສາລາວ, phát âm [pʰaːsaː laːw]) thuộc họ ngôn ngữ Tai-Kadai,
ກ, ຂ, ຄ, ງ, ຈ, ສ, ຊ, ຍ, ດ, ຕ, ຖ, ທ, ນ, ບ, ປ, ຜ, ຝ, ພ, ຟ, ມ, ຢ, ລ, ວ,
ຫ, ອ, ຮ, ຣ, ໝ, ໜ, ຫວ, ຫ, ຫງ, ຫຍ.
Được chia 3 nhóm thấp, trung và cao. Các phụ âm cao và trung có sự phát âm
gần giống như nhau.
Nhóm thấp gồm :
ຂ, ສ, ຖ, ຜ, ຝ, ຫ.
Nhóm trung gồm :
ກ, ຈ, ດ, ຕ, ບ, ປ, ຢ, ອ.
Nhóm cao gồm :
ງ, ຄ, ຊ, ຍ, ທ, ນ, ພ, ຟ, ມ, ລ, ວ, ຮ, ຣ.
2. Nguyên âm :
Có 28 nguyên âm được chia ra hai loại : nguyên âm dài và nguyên âm ngắn.
Các nguyên âm dài gồm :
າ, ີ, ີ, ີ, ເ, ໂ, ີ, ໄ, ເີາ, ີາ, ໃ, ແ, ີວ, ເີ, ເ ອ, ເ-ຍ, ເີຍ.
Các nguyên âm ngắn gồm :
ະ, ີ, ີ, ີ, ເ-ະ, ແ-ະ, ໂ-ະ, ເ-າະ, ວະ, ເີ, ເີອ.
3. Dấu thanh :
Tiếng Lào có 4 dấu thanh : ີ, ີ, ີ, ີ và 3 dấu cuối : ຯ, ໆ, ີ. Ví dụ mái
ệc ໄມເອກ, mái thô ໄມໂທ, mái tri ໄມຕ, mái chặt -ta -wa ໄມຈດຕະວາ.
Khi viết, vị trí thanh điệu được đặt ở phụ âm hoặc ở nguyên âm tùy vào vị trí
của nguyên âm trong âm tiết (khác với tiếng Việt chỉ đặt ở nguyên âm). Ngoài ra, âm
sắc thanh điệu tiếng Lào không hoàn toàn trùng khớp với thanh điệu tiếng Việt.
4. Chữ số :
Có 10 chữ số tương ứng với các số từ 0 đến 9 :
໐, ໑, ໒, ໓, ໔, ໕, ໖, ໗, ໘, ໙.
.
Tầng 2 gồm có các phụ âm trung tâm và phụ âm ghép ກ, ຂ, ຄ, ງ, ຈ, ສ, ຊ,
ຍ, ດ, ຕ, ຖ, ທ, ນ, ບ, ປ, ຜ, ຝ, ພ, ຟ, ມ, ຢ, ລ, ວ, ຫ, ອ, ຮ, ຣ, ຫນ, ຫມ, ຫວ,
ຫງ, ຫຍ, ຫລ.
9
. Hình dưới đây
Tầng 3 là một nguyên âm dưới trong số nguyên âm
minh hoạ cấu trúc ba tầng của một từ (hay âm tiết) tiếng Lào.
Tóc (tầng 1)
Dấu thanh
Nguyên âm trên
Thân (tầng 2)
Thân chữ
ກ, ຂ, ຄ,…
Chân (tầng 3)
Nguyên âm dưới
ຈ, ສ,
ຈຈ” /ຈ//ຈ /chùu chìi/ (quấy rầy)
Ví dụ láy hoàn toàn :
ໄວໄວ /ໄວ/ໄວ /wai wai/ (nhanh nhanh)
ຊາຊາ /ຊາ/ຊ/າ /xàa xàa/ (chậm chậm),...
Ngoài ra còn có từ vay mượn của ngôn ngữ khác
Ví dụ từ vay mượn :
ເຝ /fờơ/ (Phở)
ໂອໂຕມາຕກ”/ໂອ/ໂຕ/ມາ/ຕກ/ /ô-tô-ma-tic/ (tự động)
3. Cấu trúc câu trong tiếng Lào
Tiếng Lào có hai loại câu : câu đơn và câu ghép.
1. Câu đơn
Tương tự quan điểm ngữ pháp tiếng Việt, trong ngữ pháp tiếng Lào, câu đơn
đơn gồm ba phần : chủ ngữ (danh từ hay đại từ), vị ngữ (động từ) và bổ ngữ. Ví dụ câu
đơn :
ກ ນລງທ ບຽນຮຽນພາສາວຽດນາມທມ ຫ ວທ ຍ ລຈ ປ ສກ
(Sinh viên đăng ký học tiếng Việt tại trường Đại học Champasack).
Được phân tách tương ứng như sau :
| ກ ນ|ລງທ ບຽນ|ຮຽນ|ພາສາວຽດນາມ|ທ|ມ ຫ ວທ ຍ ລ|ຈ ປ ສກ |
(| Sinh viên | đăng ký | học | tiếng Việt | tại | trường Đại học Champasack |).
2. Câu ghép :
Câu ghép có nhiều vế câu ghép lại với nhau để mở rộng ý nghĩa của câu. Vế
câu trong câu ghép thường có cấu tạo giống câu đơn. Giữa các vế câu ghép có những
mối quan hệ nhất định để nối với nhau. Tương tự tiếng Việt, có ba cách nối : nối bằng
từ ngữ có tác dụng nối, nối trực tiếp, không dùng từ ngữ có tác dụng nối, mà dùng dấu
phẩy, dấu chấm phẩy hoặc dấu hai chấm và nối bằng quan hệ từ. Có hai cách nối bằng
quan hệ từ :
-
Dùng các từ : và, rồi, thì, nhưng, hay, hoặc. Ví dụ :
Nam Trung Quốc ngày nay, có mối liên hệ với các hệ ngôn ngữ Nam Á, Nam Đảo,
hoặc Hán-Tạng. Tiếng Thái chịu những ảnh hưởng của tiếng Phạn, các từ trong câu
không có dấu cách. Tiếng Lào có những thanh điệu và phát âm giống tiếng Thái đến
hơn 80%. Vì vậy, người Thái Lan và người Lào có thể đối thoại hiểu nhau được. Dân
địa phương ở Đông bắc Thái Lan có thể nói chuyện dễ dàng với người Lào.
Tuy có nguồn gốc như nhau, nhưng hai ngôn ngữ này lại có nhiều điểm khác
nhau. Hình loại chữ tiếng Thái khác hình loại chữ tiếng Lào. Bảng chữ cái tiếng Thái
có nhiều ký tự hơn bảng chữ cái tiếng Lào. Cách sử dụng ngôn ngữ và chính tả của hai
ngôn ngữ cũng rất khác nhau, mặc dù cả hai hệ thống viết đều không sử dụng dấu
phân cách từ, mà viết liền mạch, tương tự trong tiếng Khmer.
Tiếng Khmer (Khơ Me, hay Campuchia)
hơn
[pʰiːəsaː kʰmaːe], hay trang trọng
[kʰeɛmaʔraʔ pʰiːəsaː]), là ngôn ngữ của người Khmer, là ngôn ngữ chính
thức của Vương quốc Campuchia. Ở vùng đồng bằng sông Cửu Long Việt Nam cũng
có một bộ phận dân tộc Khmer sinh sống. Tiếng Khmer thuộc hệ ngôn ngữ Nam Á
(sau tiếng Việt), chịu ảnh hưởng đáng kể bởi tiếng Phạn và Pali qua Ấn Độ giáo và
Phật giáo, cho đến nay đã vay mượn rất nhiều từ tiếng Thái, tiếng Lào, tiếng Việt, và
tiếng Chăm, tất cả, do sự gần gũi địa lý và ảnh hưởng văn hóa lâu dài, đã tạo nên một
12
vùng ngôn ngữ Đông Nam Á.
Trong bốn ngôn ngữ Lào, Thái, Khmer và Việt Nam, tiếng Lào và tiếng Thái là
có sự tương đồng đáng kể. Chữ viết Khmer tuy có vẻ giống chữ Lào nhưng chữ
Khmer khác hoàn toàn với chữ Lào. Trong khi đó, tiếng Việt và tiếng Khmer đều
thuộc hệ ngôn ngữ Nam Á. Chữ viết Khmer chịu ảnh hưởng tiếng Phạn và Pali, họ
ghép
32
(có 9 nguyên âm
ngắn, 9 nguyên
âm dài, 3 hợp âm)
33
(15 phụ âm giọng
O [ᴐ] và 18 phụ âm
giọng Ô [o])
38
(24 nguyên âm
thường / không
độc lập và 14
13 nguyên âm ba)
4
5
4
Không có
Không có
Không có
(có 16 phụ âm
Tiếng Khmer
âm đặc biệt)
Thuộc hệ TaiĐặc điểm
44
12
(có 12 nguyên âm (là 12 nguyên âm
Số nguyên âm ngắn, 12 nguyên đơn bổ sung 32
Số dấu thanh
Tiếng Thái
10 chữ số Lào
Thuộc họ Nam Á
Chữ cái La Tinh,
phân biệt chữ hoa
và chữ thường
0..9
13
10 chữ số Thái
Nguyên âm trên
Phụ âm trung
Phụ âm và
Phụ âm trung
tâm, phụ âm
nguyên âm
tâm, phụ âm
ghép, nguyên âm
(không dấu)
ghép, nguyên âm
Tầng 2 (thân)
Tầng 3 (chân)
Tiếng Thái
Nguyên âm dưới Dấu thanh (nặng) Nguyên âm dưới
Nguyên âm
Phụ âm và
là một từ đơn
là một từ đơn
(tiếng)
(tiếng)
(tiếng)
(tiếng)
2
1
2
1
Số chữ cái tối đa
12
7
27
21
1. Vì/Do/Bởi/Tại/Nhờ (nguyên nhân) … nên/cho nên/mà … (kết quả).
2. Nếu/Hễ (giả thiết) … thì … (kết quả).
3. Tuy/Mặc dù … nhưng … (quan hệ tương phản).
4. Để … thì … (quan hệ mục đích).
Từ phức tiếng Việt gồm 8 loại :
1. Từ ghép là từ có hai tiếng trở lên ghép lại có nghĩa)
2. Từ láy phối hợp các tiếng có âm đầu hoặc vần (hoặc cả âm và vần) giống
nhau, hoặc láy âm đầu (rì rào), hoặc láy vần (lao xao), hoặc láy cả âm và
vần (loang loáng, xinh xinh). Có 3 loại từ láy : láy đôi (ngoan ngoãn), láy ba
(sạch sành sanh), láy bốn (rì rà rì rầm). Láy vần có thể chuyển thành từ láy
tư (róc rách thành róc ra róc rách).
3. Từ tượng thanh mô phỏng, gợi tả âm thanh của người, hay động vật.
4. Từ tượng hình gợi tả hình ảnh, màu sắc, mùi vị... của người, động vật.
5. Từ nhiều nghĩa có hai nghĩa trở lên (nghĩa gốc và nghĩa chuyển đổi).
6. Từ đồng nghĩa có nghĩa giống nhau (hoàn toàn hoặc không hoàn toàn).
7. Từ trái (dị) nghĩa có nghĩa trái ngược nhau.
8. Từ đồng âm là những từ giống nhau về âm nhưng khác nhau (không có liên
hệ gì về nghĩa).
15
Bảng dưới đây so sánh sự khác nhau giữa bốn ngôn ngữ.
Bảng 1.4. So sánh cấu trúc câu.
Tiếng Lào
Dấu trong câu
Dấu hết câu
Tiếng Việt
Không
Có
Không
Không
Khoảng trống
phân tách từ
trong câu
Sau đây là một ví dụ một câu tiếng Việt được phân tách từ trong ba ngôn ngữ
Lào Thái và Khmer để cho thấy sự khó khăn trong bài toán tách từ :
Câu tiếng Việt :
Sinh viên đăng ký học tiếng Việt tại trường Đại học Champasack.
Câu tiếng Lào :
ກ ນລງທ ບຽນຮຽນພາສາວຽດນາມທມ ຫ ວທ ຍ ລຈ ປ ສກ
được phân tách như sau :
| ກ ນ|ລງທ ບຽນ|ຮຽນ|ພາສາວຽດນາມ|ທ|ມ ຫ ວທ ຍ ລ|ຈ ປ ສກ |
Trong tiếng Việt được phân tách như sau :
| Sinh viên | đăng ký | học | tiếng Việt | tại | trường Đại học Champasack |
Trong tiếng Thái được phân tách như sau :
| การ|ลงทะเบียน|ภาษาเวียดนาม|ที่|มหาวิทยาลัย|จาปาสัก|
Trong tiếng Khmer được phân tách như sau :
|
|
|