Nghiên cứu một số kỹ thuật xử lý ngôn ngữ tiếng Việt và ứng dụng - Pdf 32

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC HUẾ
TRƯỜNG ĐẠI HỌC KHOA HỌC

NGUYỄN THỊ CẨM QUỲNH

Nghiªn cøu mét sè kü thuËt xö lý
ng«n ng÷ tiÕng ViÖt vµ øng dông

CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ: 60.48.01.01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Huế, 2015

MỤC LỤC
Lời cam đoan
Lời cảm ơn
Mục lục
Danh mục các chữ viết tắt
Danh mục các bảng
Danh mục các hình vẽ, đồ thị
MỞ ĐẦU .......................................................................................................... 1
Chương 1. TỔNG QUAN VỀ XỬ LÝ NGÔN NGỮ TIẾNG VIỆT ........... 4
1.1. Xử lý ngôn ngữ tự nhiên ............................................................................ 4
1.1.1. Khái niệm ................................................................................................ 4
1.1.2. Các bước xử lý ........................................................................................ 7
1.1.3. Các bài toán và ứng dụng ...................................................................... 12
1.2. Tìm hiểu về tiếng Việt và xử lý ngôn ngữ tiếng Việt .............................. 14

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ................................................... 59
1. Kết luận ....................................................................................................... 59
2. Hướng phát triển đề tài ................................................................................ 59
TÀI LIỆU THAM KHẢO ............................................................................ 60

DANH MỤC CÁC CHỮ VIẾT TẮT

CSDL

Cơ sở dữ liệu

CNTT

Công nghệ thông tin

HĐND

Hội đồng nhân dân

UBND

Ủy ban nhân dân

VB

Văn bản

AI

Bảng 3.1.

Loại văn bản

51

Bảng 3.2.

Nơi ban hành

51

Bảng 3.3.

Lĩnh vực

51

Bảng 3.4.

Từ khóa lĩnh vực

52

Bảng 3.5.

Từ điển từ khóa lĩnh vực

52

7

Hình 1.3.

Cây cú pháp của câu “Nam là sinh viên giỏi”

10

Hình 1.4.

Cách hoạt động của TBL

25

Hình 2.1.

Mô hình Markov ẩn

33

Hình 2.2.

Đồ thị vô hướng HMM

33

Hình 2.3.

Sơ đồ mô hình WFST

53

Hình 3.6.

Giao diện chính trang quản trị

54

Hình 3.7.

Nhập các thông tin cần thiết cho việc phân loại và
lưu trữ văn bản

55

Hình 3.8.

Sau khi nhấn nút xử lý

56

Hình 3.9.

Sau khi nhấn nút xử lý (chọn lĩnh vực cho văn bản)

56

Hình 3.10. Lưu văn bản thành công

tin. Vấn đề là ở chỗ là làm sao giúp máy tính hiểu được ngôn ngữ của con
người, qua đó hướng dẫn máy tính thực hiện và giúp đỡ con người trong những
công việc có liên quan đến ngôn ngữ như: Dịch thuật, phân tích dữ liệu văn bản,
nhận dạng tiếng nói, tìm kiếm thông tin, ... Kỹ thuật xử lý ngôn ngữ tiếng Việt
có nhiều hướng tiếp cận khác nhau và đã có nhiều công trình nghiên cứu đạt
những kết quả khả quan trong thời gian vừa qua, nó đóng vai trò quan trọng lĩnh
vực xử lý dữ liệu văn bản.

2
Tách từ là một quá trình xử lý nhằm mục đích xác định ranh giới của các
từ trong câu văn, cũng có thể hiểu đơn giản rằng tách từ là quá trình xác định
các từ đơn, từ ghép… có trong câu. Đối với xử lý ngôn ngữ, để có thể xác định
cấu trúc ngữ pháp của câu, xác định từ loại của một từ trong câu, yêu cầu nhất
thiết đặt ra là phải xác định được đâu là từ trong câu. Vấn đề này tưởng chừng
đơn giản với con người nhưng đối với máy tính, đây là bài toán rất khó giải
quyết.
Chính vì lý do đó tách từ được xem là bước xử lý quan trọng đối với các
hệ thống xử lý ngôn ngữ tự nhiên, đặc biệt là đối với các ngôn ngữ thuộc vùng
Đông Á theo loại hình ngôn ngữ đơn lập, ví dụ: Tiếng Trung Quốc, tiếng Nhật,
tiếng Thái, và tiếng Việt. Với các ngôn ngữ thuộc loại hình này, ranh giới từ
không chỉ đơn giản là những khoảng trắng như trong các ngôn ngữ thuộc loại
hình hòa kết như tiếng Anh…, mà có sự liên hệ chặt chẽ giữa các tiếng với nhau,
một từ có thể cấu tạo bởi một hoặc nhiều tiếng. Vì vậy đối với các ngôn ngữ
thuộc vùng Đông Á, vấn đề của bài toán tách từ là khử được sự nhập nhằng
trong ranh giới từ.
Do yêu cầu công việc cơ quan Hội đồng nhân dân (HĐND) tỉnh ngày
càng cao nên số lượng văn bản tăng nhanh cả về số lượng và chủ đề. Tuy với
khối lượng thông tin đồ sộ như vậy, nhưng nhu cầu đối với những đối tượng cụ
thể khác nhau, tốc độ khác nhau. Để tìm được những thông tin cần thiết cho mục

Chương 1
TỔNG QUAN VỀ XỬ LÝ NGÔN NGỮ TIẾNG VIỆT
Xử lý ngôn ngữ tự nhiên (Natural language processing) là bài toán lý thú
nhất và cũng là khó khăn nhất của ngành máy tính từ hơn 50 năm qua. Ước mơ
dùng máy tính để xử lý ngôn ngữ đã gặp phải trở ngại lớn nhất từ phía ngôn
ngữ, đó là tính nhập nhằng vốn có của ngôn ngữ tự nhiên. Tuy nhiên, từ thập
niên 50 đến nay, các nhà ngôn ngữ học và các nhà tin học đã từng bước khắc
phục được đáng kể các trở ngại này và đã đạt nhiều kết quả khả quan.
Ngày nay, công nghệ thông tin (CNTT) đã và đang được triển khai, ứng
dụng rộng rãi vào hoạt động của các sở, ngành, Ủy ban nhân dân (UBND) các
địa phương trên địa bàn tỉnh trong mọi lĩnh vực, tạo được chuyển biến trong
công tác lãnh đạo, chỉ đạo của cơ quan nhà nước, nhằm nâng cao năng suất, hiệu
quả trong hoạt động nội bộ của cơ quan nhà nước và giữa các cơ quan nhà nước,
trong giao dịch của cơ quan nhà nước với tổ chức và cá nhân ngày càng tốt hơn,
góp phần hỗ trợ đẩy mạnh cải cách hành chính và bảo đảm công khai, minh
bạch. Vừa qua, Chính phủ đã ban hành quyết định số 1605/QĐ-TTg, phê duyệt
Chương trình quốc gia về ứng dụng CNTT trong hoạt động của cơ quan nhà
nước giai đoạn 2011 – 2015.
Theo đó, chương này sẽ giới thiệu tổng quan về ngôn ngữ tự nhiên, tìm
hiểu các đặc điểm của ngôn ngữ tiếng Việt và xử lý ngôn ngữ tiếng Việt, các đặc
trưng cơ bản của tiếng Việt và một số kỹ thuật xử lý ngôn ngữ tiếng Việt.
1.1. Xử lý ngôn ngữ tự nhiên
1.1.1. Khái niệm
Xử lý ngôn ngữ tự nhiên (Natural language processing - NLP) là một
nhánh của trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con
người. Trong trí tuệ nhân tạo thì xử lý ngôn ngữ tự nhiên là một trong những

5
phần khó nhất vì nó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ, công cụ

processing.”
“Aujourd'hui nous nous réunissons ici pour discuter le traitement de
langueet de parole vietnamienne.”
“Mы встрачаемся здесь сегодня, чтобы говорить о вьетнамском
языке и обработке речи.”
Nếu có ai đó dịch, hoặc có một chương trình máy tính dịch chúng ra tiếng
Việt, ta sẽ hiểu nghĩa các câu trên đều là: “Hôm nay chúng ta gặp nhau ở đây để
bàn về xử lý ngôn ngữ và tiếng nói tiếng Việt”. Nếu các câu này được lưu trữ
như các tệp tiếng Anh, Pháp, Nga và Việt như ta nhìn thấy ở trên, ta có các dữ
liệu “văn bản”. Nếu ai đó đọc các câu này, ghi âm lại, ta có thể chuyển chúng
vào máy tính dưới dạng các tệp các tín hiệu “tiếng nói”. Tín hiệu sóng âm của
hai âm tiết tiếng Việt có thể nhìn thấy như sau:

Hình 1.1. Tín hiệu sóng âm của hai âm tiết tiếng Việt
Tuy nhiên, một văn bản thật sự (một bài báo khoa học chẳng hạn) có thể
có đến hàng nghìn câu và ta không phải có một mà hàng triệu văn bản. Web là
một nguồn dữ liệu văn bản khổng lồ và cùng với các thư viện điện tử trong một
tương lai gần các sách báo xưa nay và các nguồn âm thanh được chuyển hết vào
máy tính (chẳng hạn bằng các chương trình nhận dạng chữ, thu nhập âm thanh
hoặc gõ thẳng vào máy) sẽ sớm chứa hầu như toàn bộ kiến thức của nhân loại.
Vấn đề là làm sao “xử lý” được khối dữ liệu văn bản và tiếng nói khổng lồ này
qua dạng khác để mỗi người có được thông tin và tri thức cần thiết từ chúng.

7
1.1.2. Các bước xử lý
Quá trình xử lý văn bản hay quá trình phân tích và kiểm tra tính chính xác
của văn bản là một vấn đề khá phức tạp, trải qua nhiều bước khác nhau. Ở mỗi
bước xử lý đòi hỏi người nghiên cứu phải có một kiến vững vàng về ngôn ngữ
cũng như nhiều kiến thức bổ trợ khác mới có thể xử lý tốt được. Quá trình này

Trong mỗi văn bản, bước tiền xử lý sẽ nhận diện các tiêu đề, các chú
thích, các số thứ tự và gạch đầu dòng, các đoạn văn trong văn bản.
Trong mỗi đoạn văn, bước tiền xử lý sẽ phân rã nó ra thành các câu là đơn
vị cơ sở của một văn bản. Đây là giai đoạn khó nhất và sẽ là trọng tâm của bước
tiền xử lý, như dấu “.” trong trường hợp sau (không biết đâu là dấu chấm câu).
Ví dụ: Với khoản tiền 100.000 triệu đồng bạn có thể học chuyển tiếp 2
năm thạc sỹ tại Việt Nam.

8
Xa hơn nữa, bước tiền xử lý có thể phân tích câu thành những ngữ để
giảm bớt gánh nặng đồng thời tăng chất lượng cũng như tốc độ xử lý của hệ
thống.
1.1.2.2. Phân tích hình thái

Trong bước này từng từ sẽ được phân tích và các ký tự không phải chữ
(như các dấu câu) sẽ được tách ra khỏi các từ. Trong tiếng Anh và nhiều ngôn
ngữ khác các từ được phân tách với nhau bằng dấu cách. Tuy nhiên trong tiếng
Việt, dấu cách được dùng để phân tách các tiếng (âm tiết) chứ không phải từ.
Cùng với các ngôn ngữ như tiếng Trung, tiếng Hàn, tiếng Nhật, phân tách
từ trong tiếng Việt là một công việc không hề đơn giản.
Bước này có nhiệm vụ phân tích câu thành một bảng các từ (hay cụm từ)
riêng biệt, đồng thời kèm theo tất cả các thông tin về từ đó, như là: Từ loại,
phạm trù ngữ pháp, các biến cách của từ, tiền tố, hậu tố của từ (nếu có). Trong
trường hợp gặp từ mới, hệ thống sẽ để nguyên và đánh dấu một từ loại đặc biệt
để chuyển sang phần xử lý tên riêng hay từ mới. Bước phân tích hình thái gồm
các phần:
Phân tích phụ tố: Bao gồm tiền tố và hậu tố, ta thường gặp các loại phụ tố
này trong tiếng Anh. Xử lý từ ghép, ngữ cố định: Nhận diện được từ ghép hay
ngữ cố định từ các thành tố của chúng, như ngôi nhà, sách gối đầu giường…

của động từ chính, bổ nghĩa,.. Để phân tích cú pháp, chúng ta cần có bộ luật văn
phạm và giải thuật phân tích cú pháp. Hiện nay, người ta đã đưa nhiều lý thuyết
văn phạm (như: CFG, UG, LG, TAG,…), và các giải thuật phân tích cú pháp
hiệu quả (Earley, Tomita, TBL,…).
Ví dụ: Nhập câu “Nam là sinh viên giỏi”, sẽ phân tích như sau: [Nam] DT
[là Đt [sinh viên DT giỏi TT]NP]VP và cây cú pháp tương ứng:

10
Trong đó :

S
Cn

Vn

DT

VP

Nam

Đt
là

Cn,Vn : chủ ngữ, vị ngữ
Dt :Danh từ
VP : động ngữ
NP

11
Mức độ nhập nhằng cấu trúc
Ví dụ: “Một người đàn ông và một người đàn bà già”, ta có 2 cách phân
tích.
Cách 1: “Người đàn ông| và |người đàn bà già”;
Cách 2: “Người đàn ông và người đàn bà| già”;
Máy tính sẽ chọn cách phân tích thứ hai, do tính cân bằng vốn có trong
cấu trúc song song của liên từ “và”.
Tuy nhiên, nếu xét “Một đứa trẻ và một người đàn ông già”, ta cũng sẽ có
2 cách phân tích:
“Đứa trẻ| và |người đàn ông già”
“Đứa trẻ và người đàn ông| già”
Máy tính sẽ chọn cách phân tích thứ nhất, vì máy thấy cấu trúc thứ hai là
vô lý, do có sự đối lập về ngữ nghĩa giữa thuộc tính “trẻ” trong “đứa trẻ” và
thuộc tính “già” trong “người đàn ông”.
Mức độ nhập nhằng liên câu
Ví dụ xét câu “Con khỉ ăn quả chuối vì nó đói”, máy tính hiện nay, trong
một số trường hợp, có thể xác định được đại từ “nó” thay thế cho từ nào: “con
khỉ” hay “quả chuối”. Để giải quyết được nhập nhằng này, máy tính phải xem
lại mệnh đề trước và vận dụng tri thức về thế giới thực (có trong WordNet) để
biết rằng “chỉ có khỉ mới có khả năng đói” nên sẽ chọn “nó thay thế cho con
khỉ”. Còn trong câu: “Con khỉ ăn quả chuối vì nó chín”, thì máy tính sẽ biết rằng
“chỉ có chuối mới có khả năng chín” nên sẽ chọn “nó” thay thế cho “quả
chuối”.
1.1.2.5. Tích hợp văn bản
Ngữ nghĩa của một câu riêng biệt có thể phụ thuộc vào những câu đứng
trước, đồng thời nó cũng có thể ảnh hưởng đến các câu phía sau.

13
chương trình nhận dạng chữ viết in có thể chuyển hàng ngàn đầu sách trong thư
viện thành văn bản điện tử trong thời gian ngắn. Nhận dạng chữ viết của con
người có ứng dụng trong khoa học hình sự và bảo mật thông tin (nhận dạng chữ
ký điện tử).
Nhận dạng tiếng nói: Từ sóng tiếng nói nhận biết rồi chuyển chúng thành
dữ liệu văn bản tương ứng. Giúp thao tác của con người trên các thiết bị nhanh
hơn và đơn giản hơn, chẳng hạn thay vì gõ một tài liệu nào đó bạn đọc nó lên và
trình soạn thảo sẽ tự ghi nó ra. Đây cũng là bước đầu tiên cần phải thực hiện
trong ước mơ thực hiện giao tiếp giữa con người với robot. Nhận dạng tiếng nói
có khả năng trợ giúp người khiếm thị rất nhiều.
Tổng hợp tiếng nói: Từ dữ liệu văn bản, phân tích và chuyển thành thành
tiếng nói. Thay vì phải tự đọc một cuốn sách hay nội dung một trang web, nó tự
động đọc cho chúng ta. Giống như nhận dạng tiếng nói, tổng hợp tiếng nói là sự
trợ giúp tốt cho người khiếm thị, nhưng ngược lại nó là bước cuối cùng trong
giao tiếp giữa robot với người.
Dịch tự động: Như tên gọi đây là chương trình dịch tự động từ ngôn ngữ
này sang ngôn ngữ khác. Một phần mềm điển hình về tiếng Việt của chương
trình này là Evtrans của Softex, dịch tự động từ tiếng Anh sang tiếng Việt và
ngược lại, phần mềm từng được trang web vdict.com mua bản quyền, đây cũng
là trang đầu tiên đưa ứng dụng này lên mạng.
Tìm kiếm thông tin: Từ một nguồn rất nhiều tệp văn bản và tiếng nói, tìm
ra những tệp có liên quan đến một vấn đề. Các máy tìm kiếm dựa trên giao diện
web như Google hay Yahoo hiện nay chỉ phân tích nội dung rất đơn giản dựa
trên tần suất của từ khoá và thứ hạng của trang và một số tiêu chí đánh giá khác
để đưa ra kết luận, kết quả là rất nhiều tìm kiếm không nhận được câu trả lời phù
hợp, thậm chí bị dẫn tới một liên kết không liên quan gì do thủ thuật đánh lừa
của các trang web nhằm giới thiệu sản phẩm.

15
Vào những thiên niên kỉ tiếp theo, các tiếng Nam Á chung dần dần tách ra
thành các nhóm riêng biệt: Nhóm Munđa ở Đông bắc Ấn Độ và nhóm Mèo Dao
ở phía Nam Trung Quốc ngày nay tách ra trước tiên, sau đó có các đợt di dân
của những bộ tộc nói tiếng Tạng Miến xuống địa bàn Mianma ngày nay thúc đẩy
sự tách riêng một số ngôn ngữ như tiếng Khasi chẳng hạn.
Vào khoảng trên 4000 năm trước, tiếng Nam Á chung do sự tiếp xúc với
tiếng Hán Tạng và các ngôn ngữ thuộc ngữ hệ châu Đại Dương (tiếng Papua),
đã tách ra thành ba dòng chính: Dòng Đồng-Thái, gồm các ngôn ngữ phân bố ở
phần phía nam sông Trường Giang; Dòng Mã Lai-Nam Đảo, gồm các ngôn ngữ
phân bố ở phần cực nam Đông Nam Á tiền sử; Dòng Môn-Khơme, bao gồm các
ngôn ngữ phân bố ở vùng cao nguyên trung phần Đông Nam Á tiền sử (cao
nguyên Cồ rạt ở Thái Lan, cao nguyên Bôlôven ở Lào và cao nguyên khu Bốn
cũ Thanh Hóa, Nghệ An của Việt Nam). Tiếng Việt được tách ra từ dòng ngôn
ngữ này. Do đó, tổ tiên xa xưa của tiếng Việt là tiếng Môn-Khơme, bao gồm
hàng trăm ngôn ngữ phân bố thành 3 vùng lớn: Bắc Mon-Khmer, Nam MonKhmer và Đông Mon-Khmer.
Từ tiếng Đông Mon-Khmer tách ra một ngôn ngữ gọi là proto Việt-Katu.
Sau một thời gian, ngôn ngữ này lại tách ra làm hai là Katu và proto Việt Chứt.
Tổ tiên trực tiếp của người nói tiếng Việt ngày nay là các bộ tộc người nói tiếng
proto Việt Chứt này. Các cư dân nói tiếng proto Việt Chứt lúc đầu hơn 4000
năm trước sống ở vùng trung du và sơn cước vùng Thượng Lào và bắc khu Bốn
cũ, về sau di chuyển xuống vùng đồng bằng Bắc Bộ ngày nay. Do sự tiếp xúc
với các ngôn ngữ Tày-Thái, tiếng proto Việt Chứt thay đổi để trở thành tiếng
Tiền Việt Chứt với cơ tầng Mon-Khmer và có sự mô phỏng cơ chế vận hành
Tày-Thái. Quá trình này diễn ra ở thời đại mà sử Việt Nam vẫn gọi là thời đại
các vua Hùng. Dần dần về sau, tiếng Tiền Việt Chứt đi sâu vào quá trình đơn tiết
hóa, thanh điệu hóa và rụng dần các phụ tố để trở thành tiếng Việt Mường chung
khoảng 2700- 2800 năm trước.

17
Cách mạng tháng Tám năm 1945 thành công đã đưa lại “địa vị ngôn ngữ
chính thức của quốc gia” cho tiếng Việt. Từ đó, tiếng Việt đã phát triển nhanh
chóng, toàn diện, có ảnh hưởng sâu rộng đến tất cả các ngôn ngữ thiểu số ở Việt
Nam.
1.2.2. Một số khái niệm cơ bản về xử lý ngôn ngữ tiếng Việt
1.2.2.1. Xử lý ngôn ngữ
Là xử lý thông tin khi đầu vào là “dữ liệu ngôn ngữ” (dữ liệu cần biến
đổi), tức dữ liệu “văn bản” hay “tiếng nói”. Các dữ liệu liên quan đến ngôn ngữ
viết (văn bản) và nói (tiếng nói) đang dần trở nên kiểu dữ liệu chính con người
có và lưu trữ dưới dạng điện tử. Đặc điểm chính của các kiểu dữ liệu này là
không có cấu trúc hoặc nửa cấu trúc và chúng không thể lưu trữ trong các khuôn
dạng cố định như các bảng biểu.
1.2.2.2. Ngôn ngữ
Ngôn ngữ là hệ thống để giao thiệp hay suy luận dùng một cách biểu diễn
phép ẩn dụ và một loại ngữ pháp theo logic, mỗi cái đó bao hàm một tiêu chuẩn
hay sự thật thuộc lịch sử và siêu việt. Nhiều ngôn ngữ sử dụng điệu bộ, âm
thanh, ký hiệu, hay chữ viết và cố gắng truyền khái niệm, ý nghĩa, ý nghĩ nhưng
mà nhiều khi những khía cạnh này nằm sát quá, cho nên khó phân biệt nó.
1.2.2.3. Ngữ liệu
Ngữ liệu (Corpus) thường là tập hợp các câu dưới dạng tiếng nói hay văn
bản, trong đó có chứa các thông tin cần thiết cho từng bài toán cụ thể trong xử lý
ngôn ngữ tự nhiên.
1.2.2.4. Các cấp độ trong ngôn ngữ
Âm tiết hay tiếng: Là do một hay nhiều âm phát ra cùng một lúc tạo thành.
Tiếng là đơn vị cơ bản trong tiếng Việt và có âm đầu, vần và thanh.
Hình vị: Hình vị được xem là đơn vị tế bào gốc, đơn vị tế bào của ngôn
ngữ và còn được gọi là “từ tố”. Hình vị tiếng Việt có khi gồm có một tiếng

Ví dụ: Trong một câu cần dịch có xuất hiện từ “đường” như trong câu “ra
chợ mua cho mẹ ít đường” vấn đề nảy sinh là cần dịch từ này là “road” hay

19
“sugar”, con người xác định chúng khá dễ dàng căn cứ vào văn cảnh và các dấu
hiệu nhận biết khác nhưng với máy thì không.
Khái niệm nhập nhằng cũng có thể hiểu theo một cách khác như sau:
Trong mỗi lĩnh vực, các vấn đề thường đề cập, trình bày hoặc được hiểu theo
một chuẩn nhất định, chuẩn này có thể được quy ước bằng văn bản hoặc quy
ước ngầm định. Khi đó tất cả những cách hiểu, cách đề cập hoặc trình bày vấn
đề nằm ngoài phạm vi chuẩn đó được xem là nhập nhằng.
1.2.3. Đặc điểm của ngôn ngữ tiếng Việt
Tiếng Việt là một ngôn ngữ đơn lập, đặc điểm này bao quát toàn bộ tiếng
Việt về mặt ngữ âm, ngữ nghĩa và ngữ pháp. Do đó chúng ta phải tiến hành tìm
hiểu đặc điểm này của tiếng Việt để có thể có được những hướng nghiên cứu cụ
thể về văn bản tiếng Việt [3].
1.2.3.1. Tiếng và đặc điểm của tiếng
Trong tiếng Việt, cũng như trong các văn bản tiếng Việt, ta có thể thấy
tiếng là một thành phần khá quan trọng. Trong kí pháp, mỗi tiếng đứng độc lập
và ta có thể phát hiện được ngay các tiếng trong cả tiếng nói cũng như văn bản.
Tiếng và giá trị ngữ âm
Ngữ âm chính là mặt âm của ngôn ngữ. Tại sao ta lại phải nghiên cứu
khía cạnh này của ngôn ngữ tiếng Việt? Đó là vì trên thực tế, các ứng dụng liên
quan đến tiếng Việt như dịch thuật, lưu trữ người ta vẫn ghi lại âm thành dạng
văn bản, sau đó mới tiến hành các thao tác xử lý. Mỗi tiếng chính là một âm tiết
và được ghi lại thành một cụm trong văn bản.
Tiếng và giá trị ngữ nghĩa
Nếu xét về mặt ngữ nghĩa thì tiếng là đơn vị nhỏ nhất có thể có nghĩa.
Thực ra ta có thể thấy rằng đơn vị ngữ âm thấp nhất là âm vị thì hoàn toàn

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Nghiên cứu một số kỹ thuật xử lý ngôn ngữ tiếng Việt và ứng dụng - Pdf 32

Tài liệu, ebook tham khảo khác

Học thêm