Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
MỤC LỤC
PHẦN 1: TỔNG QUAN VỀ TIẾP NHẬN VÀ 3
BIỄU DIỄN TRI THỨC 3
1. Khảo sát bài toán xây dựng và phát triển các mô hình biểu diễn tri thức cho các hệ giải toán tự động 3
1.1 Giới thiệu 3
1.2. Vấn đề biểu diễn tri thức 4
1.3. Mô hình tri thức các đối tượng tính toán 5
1.4.2 Tổ chức cơ sở tri thức COKB 10
1.5. Bài toán giải toán một C-Object 11
1.6. Bài toán hình học phẳng 12
1.7. Ví dụ 12
2. Vấn đề còn tồn tại trong bài toán 13
3. Vấn đề cần tập trung nghiên cứu và giải quyết 13
PHẦN 2: CƠ SỞ LÝ THUYẾT 14
1. Tìm hiểu về ngôn ngữ tự nhiên 14
1.1. Định nghĩa 14
1.2. Bản chất của ngôn ngữ 15
1.3. Tính hệ thống của ngôn ngữ 15
1.4. Đặc điểm của ngôn ngữ tự nhiên tiếng Việt và Tiếng Anh 17
2. Các phương pháp xử lý ngôn ngữ tự nhiên ứng dụng trong dịch tự động 18
2.1. giới thiệu các ứng dụng của xử lý ngôn ngữ tự nhiên 18
2.2. Một số hệ dịch máy 19
2.3. Các bài toán trong dịch máy 19
PHẦN 3: NGHIÊN CỨU THỰC NGHIỆM 27
1. Mô tả bài toán cần xử lý 27
2. Giải quyết bài toán dịch ngôn ngữ tự nhiên sang ngôn ngữ đặc tả 28
2.1. Quy ước chung cho bài toán 29
2.2. Mô hình đặc tả tổng quát 31
3.2.3. Giải quyết vấn đề chuyển mẫu câu thành dạng tiền đặc tả 34
các hệ thống ngày càng thông minh hơn và qua đó hỗ trợ tốt hơn cho việc xử lý thông tin
và xử lý tri thức, tính toán điều khiển. Hai vấn đề lớn cần quan tâm trong việc phân tích và
phát triển hệ thống thông minh, đặc biệt là hệ giải toán tự động là:
- Biểu diễn tri thức
- Phương pháp và kỹ thuật tìm kiếm hay suy diễn
Bài toán xây dựng và phát triển các mô hình biểu diễn tri thức cho các hệ giải toán tự
động giữ một vị trí rất quan trọng trong khoa học máy tính cũng như trong lĩnh vực trí tuệ
nhân tạo. Mục tiêu của bài toán này là nhằm xây dựng và phát triển một số mô hình biểu
diễn tri thức và các thuật giải tự động cho các dạng bài toán khác nhau dựa trên tri thức.
Trong bài toán này ta chỉ quan tâm khảo sát đến việc xây dựng và phát triển một số
mô hình biểu diễn tri thức cho hệ giải toán tự động. Các mô hình này được xây dựng và
phát triển dựa trên các phương pháp biểu diễn tri thức đã có với những phát triển nhất định
để tạo ra một số mô hình biểu diễn tri thức mới thể hiện được nhiều dạng kiến thức đa dạng
hơn.
Theo PGS.TS. Đỗ Văn Nhơn đã đưa ra một số mô hình biểu diễn tri thức như: mô
hình mạng suy diễn và tính toán, mô hình một đối tượng tính toán (C-Object), mô hình tri
thức về các C-Object, và mô hình mạng các C-Object. Các mô hình này được sử dụng
trong thiết kế và cài đặt một số chương trình giải tự động, một số lớp bài toán về các tam
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
3
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
giác, các tứ giác, các bài toán hình học phẳng, các bài toán hình học giải tích và một số bài
toán trên các phản ứng hóa học.
Trước hết ta cần phải biết cấu trúc của một hệ giải toán thông minh như thế nào và
mô hình biểu diễn tri thức đóng vai trò ra sao. Cấu trúc cơ bản của một hệ giải toán tự động
dựa trên tri thức bao gồm các thành phần được chỉ ra trên hình 1.1 bên dưới.
Hình 1.1 cấu trúc của một hệ giải toán thông
minh
Có thể thấy rằng cơ sở tri thức giữ vai trò như bộ não của hệ thống trong đó chứa các
Object và các ứng dụng của chúng vào các bài toán giải toán một C-Object, các bài toán
hình học phẳng, giải các bài toán hình học giải tích ba chiều, và giải một số các bài toán về
phản ứng hóa học.
Ta sẽ đi vào nghiên cứu cách biểu diễn tri thức của các hệ giải toán này.
1.3. Mô hình tri thức các đối tượng tính toán
Để giúp hệ giải toán tự động tối ưu có thể ứng dụng rộng rãi cho nhiều bài toán phức
tạp, PGS.TS Đỗ Văn Nhơn và GS.TSKH.Hoàng Kiếm đã nêu ra mô hình tri thức gọi là mô
hình tri thức các đối tượng tính toán.
Trước hết ta cần tìm hiểu thế nào là một đối tượng tính toán (C-Object): là một đối
tượng O có cấu trúc bao gồm:
– Một danh sách các thuộc tính Attr(O) ={x1, x2, , xn} và giữa các thuộc tính có liên
hệ qua các sự kiện, các luật suy diễn hay công thức tính toán.
– Các hành vi liên quan đến sự suy diễn và tính toán trên các thuộc tính của đối tượng
như:
o Xác định bao đóng của một tập thuộc tính A.
o Xét tính giải được của một bài toán suy diễn tính toán có dạng A → B, với A và
B là con của Attr(O).
o Thực hiện các tính toán.
o Thực hiện gợi ý bổ sung giả thiết cho bài toán
o Xem xét tính xác định của đối tượng
Một C-Object có thể được mô hình hóa bởi một bộ:
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
5
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
(Attrs, F, Facts, Rules)
Trong đó: Attrs là tập thuộc tính của đối tượng, F là các quan hệ suy diễn tính toán,
Facts là tập hợp các tính chất vốn có của đối tượng, và Rules là tập hợp các luật suy diễn
trên các sự kiện.
Mô hình tri thức các đối tượng tính toán có thể dùng biểu diễn cho một dạng cơ sở tri
, sk
2
, , sk
n
} → {sk
1
, sk
2
, , sk
m
}
Một số loại sự kiện:
o Sự kiện thông tin về loại của một đối tượng.
o Sự kiện về tính xác định của một đối tượng (các thuộc tính coi như đã biết) hay
của một thuộc tính.
o Sự kiện về xác định của một thuộc tính hay một đối tượng thông qua một biểu
thức hằng.
o Sự kiện về phụ thuộc của một đối tượng hay của một thuộc tính theo những đối
tượng hay các thuộc tính khác thông qua một công thức tính toán
o Sự kiện về một quan hệ trên các đối tượng hay trên các thuộc tính của đối tượng.
1.4 Mô hình cơ sở tri thức COKB
1.4.1 Mô hình
Ta gọi một mô hình tri thức về các đối tượng tính toán, viết tắt là một mô hình COKB
(Computational Objects Knowledge Base), là một hệ thống (C, H, R, Ops, Funcs, Rules)
gồm:
° Một tập hợp C các khái niệm về các đối tượng tính toán:
– Mỗi khái niệm là một loại đối tượng tính toán có cấu trúc và được phân mức theo sự
thiết lập của cấu trúc đối tượng, gồm: biến thực, đối tượng cơ bản, đối tượng mức 1
và đối tượng mức 2.
– Các đối tượng cơ bản có cấu trúc rỗng hoặc có cấu trúc gồm một số thuộc tính thuộc
điểm hoặc một dòng lên máy bay, yếu tố quyết định của ma trận vuông cũng là một
chức năng trên ma trận vuông trong đại số tuyến tính.
° Một tập hơp Rules gồm các luật
– Các luật thể hiện các tri thức mang tính phổ quát trên các khái niệm và các loại sự
kiện khác nhau. Mỗi luật cho ta một qui tắc suy luận để đi đến các sự kiện mới từ
các sự kiện nào đó, và về mặt cấu trúc nó gồm 2 thành phần chính là: phần giả thiết
của luật và phần kết luận của luật. Phần giả thiết và phần kết luận đều là các tập hợp
sự kiện trên các đối tượng nhất định.
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
8
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
Ví dụ:
Phần kiến thức về các tam giác và các tứ giác trong hình học phẳng có thể được biểu
diễn theo mô hình tri thức về các đối tượng tính toán như dưới đây.
° Các khái niệm về các đối tượng gồm :
– Điểm.
– Đoạn thẳng.
– Góc.
– Các loại tam giác và các loại tứ giác.
° Các quan hệ phân cấp giữa các loại đối tượng :
Giữa các khái niệm về các loại tam giác và các loại tứ giác có các quan hệ phân cấp
theo sự đặc biệt hóa của các khái niệm, được thể hiện bởi các biểu đồ sau đây:
° Các khái niệm về các loại quan hệ giữa các loại đối tượng :
Các quan hệ giữa các khái niệm bao gồm các loại quan hệ như:
– Quan hệ thuộc về của 1 điểm đối với một đoạn thẳng.
– Quan hệ trung điểm của một điểm đối với một đoạn thẳng.
– Quan hệ song song giữa 2 đoạn thẳng.
– Quan hệ vuông góc giữa 2 đoạn thẳng.
– Quan hệ bằng nhau giữa 2 tam giác.
hệ
Các loại đối tượng
Các luật
Các toán tử
.
.
.
Cấu trúc đối tượng
10
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
Hình 1.2 : biểu đồ liên hệ giữa các thành
phần trong mô hình COKB
Do cách tổ chức tri thức trong mô hình COKB rõ ràng và rành mạch với đầy đủ các
thông tin cùng với các liên hệ khác nhau rất đa dạng. Và cũng chính vì thế ta phải phân tích
đầu vào rành mạch giống như các thành phần trong mô hình cơ sở tri thức quy định. Do đó
đề bài toán sẽ được quy định với cấu trúc đặc biệt được gọi là ngôn ngữ đặc tả bài toán. Ta
đi vào xem xét ngôn ngữ đặc tả đề bài toán của hai hệ giải toán tự động: giải toán một C-
Object và giải bài toán hình học phẳng.
1.5. Bài toán giải toán một C-Object
Hoạt động của chương trình giải toán C-Object dựa trên cơ sở tri thức các C-Object
được tổ chức theo mô hình COKB
Hình 1.3 sơ đồ hoạt động giải một đề bài toán
Để đưa đầu vào cho chương trình giải toán C-Object dựa trên cơ sở tri thức các C-
Object được tổ chức theo mô hình COKB thì cấu trúc của một đề bài toán có dạng như sau:
begin_hypothesis
parameters: <các tham biến>
objects:
<các sự kiện>
end_hypothesis
begin_goal
<mục tiêu của bài toán>
end_goal
Công việc đưa ra ngôn ngữ đặc tả cho đề bài toán cũng phải được người sử dụng tự
đưa ra theo mẫu quy định mà chưa có hệ thống nào làm tự động thay cho việc này.
1.7. Ví dụ
Đề bài toán theo ngôn ngữ tự nhiên: Cho tam giác ABC, cân tại A, và cho biết trước
góc đỉnh A bằng α, cạnh đáy a bằng m. Bên ngoài tam giác có hai hình vuông ABDE và
ACFG. Tính độ dài EG.
Đặc tả bài toán:
begin_hypothesis
parameters: A, B, C, D, E, F, G: DIEM;
objects:
O1 : TAM_GIAC[A, B, C];
O2 : TAM_GIAC[A, G, E];
O3 : HINH_VUONG[A, E, D, B];
O4 : HINH_VUONG[A, C, F, G];
facts:
O1.GOC[C, A, B];
O1.DOAN[B, C];
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
12
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
O1.A = Pi – O2.A
end_hypothesis
begin_goal
tiếng Việt, tiến Anh, tiếng Pháp, tiếng Nga…với ngôn ngữ nhân tạo (Artificial Language),
như: ngôn ngữ máy tính (C, Pascal, C# ).
Có khoảng 5600 ngôn ngữ trên thế giới, được phân bố không đồng đều , có ngôn ngữ
được hàng trăm triệu người sử dụng như : Quan Thoại, Anh, Tây Ban Nha, Nga, Pháp…
tiếng Việt đứng hàng thứ 20, nhưng chỉ có ngôn ngữ có vài chục người sử dụng (chủ yếu là
ngôn ngữ của các bộ tộc ít người và hiện nay các loại ngôn ngữ này đang dần bị mất đi).
Trong số 5600 ngôn ngữ đó, chỉ có một số ít các ngôn ngữ là có chữ viết.
1.1. Định nghĩa
Cũng như các phạm trù khác, ngôn ngữ cũng vậy có rất nhiều khái niệm, sau đây
chúng ta sẽ tìm hiểu một số khái niệm về ngôn ngữ:
– Ngôn ngữ: là một hệ thống những đơn vị vật chất và những quy tắc hoạt động của
chúng, dùng làm công cụ giao tiếp của con người, được phản ánh trong ý thức cộng
đồng trừu tượng khỏi bất kỳ một tư tưởng, cảm xúc và ước muốn cụ thể nào.
– Ngôn ngữ: là hệ thống tín hiệu quan trọng và độc đáo nhất trong giao tiếp của loài
người; là phương tiện để biểu hiện và phát triển tư duy, bảo lưu và chuyển giao có hiệu
lực nhất các truyền thống lịch sử - văn hoá của một dân tộc.
– Ngôn ngữ là một loại hệ thống tín hiệu bao gồm mặt hình thức và mặt nội dung.
– Ngôn ngữ là âm thanh có ý nghĩa và hệ thống mà loài người dùng để liên lạc, cảm
thông và diễn đạt tư tưởng với nhau.
– Ngôn ngữ tự nhiên là ngôn ngữ sử dụng hằng ngày trong giao tiếp, có thể là tiếng
Anh, Pháp, Nhật, Việt,…Nó có thể lưu trữ lại trên máy tính dưới dạng văn bản, email,
…hoặc thu âm lại giọng nói.
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
14
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
Tóm lại, ngôn ngữ có thể được hiểu là hệ thống những âm, những từ và những quy
tắc kết hợp chúng mà những người trong cùng một cộng đồng dùng làm phương tiện để
giao tiếp với nhau.
1.2. Bản chất của ngôn ngữ
và ngữ dụng.
Các quan hệ trong ngôn ngữ
Mỗi loại đơn vị kể trên làm thành một tiểu hệ thống trong một hệ thống lớn là hệ
thống ngôn ngữ. Người ta gọi mỗi tiểu hệ thống của ngôn ngữ là một cấp độ. Vì các tiểu hệ
thống có quan hệ chi phối với nhau.
Ví dụ: cấp độ câu, cấp độ từ, cấp độ hình vị, cấp độ âm vị.
Các đơn vị của ngôn ngữ quan hệ với nhau rất phức tạp và theo nhiều kiểu. Có 3 quan
hệ cốt lõi nhất là:
– Quan hệ cấp bậc : đơn vị cấp bậc cao hơn bao giờ cũng bao hàm đơn vị của cấp độ
thấp hơn và ngược lại:
– Ví dụ: Câu sẽ bao hàm từ,
– Quan hệ ngữ đoạn (syntagmatical relation): nối kết các đơn vị ngôn ngữ thành chuỗi
khi ngôn ngữ đi vào hoạt động còn gọi là tính hình tuyến của ngôn ngữ.
– Ví dụ: This book; this book is interesting
– Quan hệ liên tưởng (associative relation): là quan hệ xâu chuỗi ; một yếu tố xuất
hiện với những yếu tố khiếm diện “đứng sau lưng” nó, về nguyên tắc có thể thay thế
cho nó
VD: I read book (newspaper, magazine ) thì các từ newspaper, magazine là tương
đương với book có thể thay thế được.
Các phương diện trong ngôn ngữ
Ở mỗi cấp độ (hình vị, từ, ngữ, câu), các đơn vị ngôn ngữ thường có các phương diện
sau:
– Hình thái: mối quan hệ giữa đơn vị ngôn ngữ với hình thức cấu tạo của đơn vị đó.
– Ngữ pháp: mối quan hệ giữa đơn vị ngôn ngữ này với các đơn vị ngôn ngữ hữu
quan.
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
16
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
– Ngữ nghĩa: mối quan hệ giữa đơn vị ngôn ngữ với nội dung (về mặt ý nghĩa) của
– Về mặt ngữ âm học, các âm tiết tiếng việt đều mang một trong 6 âm điệu : ngang,
sắc, huyền, hỏi, ngã, nặng. Đây là âm vị siêu đoạn tính.
– Tiếng việt còn hiện tượng láy như: lấp lánh, lung linh…
Tóm tắt các điểm khác biệt giữa tiếng Anh và tiếng Việt.
Đặc điểm Tiếng Việt Tiếng Anh
Đơn vị cơ bản Tiếng Từ
Tiền tố/hậu tố Không có có
Từ loại Không định nghĩa rõ Được định nghĩa rõ
Ranh giới từ
Tổ hợp có nghĩa dựa vào ngữ
cảnh của các tiếng
Dựa vào khoảng trắng hoặc
dấu câu.
Bảng 3.1: sự khác nhau về đặc điểm tiếng Anh và Tiếng Việt
2. Các phương pháp xử lý ngôn ngữ tự nhiên ứng dụng trong dịch tự động
2.1. giới thiệu các ứng dụng của xử lý ngôn ngữ tự nhiên
Nghiên cứu xử lý ngôn ngữ tự nhiên là nhằm mục đích làm cho máy tính có thể tự xử
lý ngôn ngữ tự nhiên, hiểu được ngôn ngữ tự nhiên. Hiện nay kết quả của xử lý ngôn ngữ
tự nhiên được ứng dụng vào rất nhiều bài toán như: dịch tự động (MACHINE
TRANLATION), xử lý văn bản (kiểm tra lỗi chính tả, kiểm lỗi văn phạm, phân loại văn
bản, tóm tắt văn bản ), nhận dạng ký tự (ORC) và các ứng dụng khác như: kiểm tra thông
tin theo ngữ nghĩa, truy vấn cơ sở dữ liệu Trong đó vấn đề dịch máy là vấn đề khó khăn
nhất trong việc ứng dụng của trí tuệ nhân tạo vào thực tế và cũng là vấn đề được tranh
luận và bàn cải nhiều nhất từ trước đến nay. Gần đây vấn đề dịch máy đang được quan tâm
mạnh mẽ và đạt được một số kết quả đáng khích lệ. Kết quả này đạt được là do có được
các nghiên cứu mới về lý thuyết ngôn ngữ học và sự ra đời của thế hệ máy tính mới mạnh
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
18
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
– Phân tích hình thái ngôn ngữ: tách từ nhận diện tên riêng, từ viết tắt.
– Phân tích từ pháp ngôn ngữ nguồn: gán nhãn từ loại
– Phân tích cú pháp ngôn ngữ nguồn: xây dựng cây cú pháp, quan hệ ngữ pháp.
– Phân tích ngữ nghĩa ngôn ngữ nguồn: gán nhãn ngữ nghĩa cho các từ trong câu.
– Chuyển đổi cây cú pháp từ ngôn ngữ nguồn sang ngôn ngữ đích.
– Hình thành câu của ngôn ngữ đích từ cây cú pháp ngôn ngữ đích.
Tiền xử lý
Khi đầu vào của hệ thống là một đoạn văn bản ta phải tiến hành xử lý sơ bộ văn bản
đầu vào rồi phân tích chúng thành các đơn vị rõ ràng để cho hệ thống chính dễ xử lý. Bài
toán tiền xử lý sẽ bao gồm các bước sau:
– Trước hết xử lý sơ bộ văn bản đầu vào là làm sạch văn bản bằng cách xóa bỏ những
ký tự, những vùng không cần thiết cho hệ thống.
– Mỗi đoạn văn bản đầu vào sẽ được bộ phận tiền xử lý nhận diện ra các chú thích,
tiêu đề, đoạn văn trong văn bản số thứ tự và gạch đầu dòng.
– Giai đoạn quan trọng và trọng tâm nhất của tiền xử lý là phân tích đoạn văn thành
các câu. Và hơn nữa là tách các câu thành các mệnh đề để giảm tính phức tạp cho hệ
thống cũng như chất lượng và tốc độ xử lý của hệ thống.
Giai đoạn xử lý sơ bộ đoạn văn bản: đầu tiên đoạn văn bản đầu vào sẽ được
bộ phận tiền xử lý nhận diện các ký tự đặc biệt, các định dạng của văn bản sau đó xóa
bỏ chúng hoặc thay thế bằng ký tự định dạng riêng do hệ thống quy định hoặc lưu lại
thông tin của chúng. Sau đó văn bản gốc sẽ được đưa về dạng theo quy định của hệ
thống. Dựa vào các định dạng riêng của hệ thống thì việc xử lý sẽ dể dàng hơn.
Giai đoạn tách văn bản thành đoạn: Do sự đa dạng về trình bày và định
dạng văn bản của người dùng đặc biệt là trong văn bản dạng text. Do đó, đây là một vấn
đề khó khăn trong xử lý tách văn bản thành từng đoạn
Đây là một khó khăn rất lớn cho hệ tiền xử lý vì không thể lường trước được hết tất
cả khả năng định dạng của người dùng.
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
giới câu không còn đơn giản như chúng ta nghĩ.
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
21
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
VD: dấu chấm, có thể biểu thị như một dấu chấm thập phân, một cụm từ viết tắt, sự
kết thúc câu văn hoặc ngay cả từ viết tắt nằm ở cuối câu văn. Một dấu chấm hỏi hay dấu
chấm than có thể xuất hiện trong dấu ngoặc đơn, ngoặc kép hay cũng như ở cuối câu.
Để nhận diện dấu chấm câu, người ta có thể dùng các heuristics hoặc các mô hình học
phức tạp hơn: mạng neural,
Phân tích hình thái ngôn ngữ
Nhận diện tên riêng: tên riêng chắc chắn là những chuỗi ký tự mà trong đó
ký tự đầu tiên phải được viết hoa, nhưng cũng có những chuỗi ký tự được viết hoa chữ
đầu (đầu câu, viết tắt, nhấn mạnh ) nhưng chúng không phải là tên riêng.
Ví dụ ta xem xét các trường hợp sau: IBM, CNTT, I.T., Hanoi, Thanh, Lan, Reading
is, trong đó tất cả không phải là tên riêng (như CNTT, Information Technology, Reading).
Vì vậy, bài toán nhận diện tên riêng nhằm giải quyết các nhập nhằng nói trên.
Quan phân tích trên ta thấy: trong một văn bản, việc xác định đâu là tên riêng (có thể
gọi là danh từ riêng) không chỉ đơn thuần là dựa vào viết hoa hay không viết hoa, mà phải
dựa vào các thông tin ngữ cảnh chung quanh với nhiều cấp độ (hình thái, ngữ pháp và thậm
chí cả ngữ nghĩa).
Để nhận diện được tên riêng, thì ngoài việc dựa trên hình thái bên ngoài (viết hoa,
đầu dòng, tiêu đề ) ta thường xây dựng một danh sách các tên riêng có thể có (tên người,
địa danh, ) và danh sách này được gọi là gazetteer. (việc xây dựng danh sách như thế đòi
hỏi thời gian và công sức rất lớn). Đến nay, để giải quyết bài toán này, người ta sử dụng
các phương pháp sau:
– Dựa trên các heuristics: chẳng hạn đi với các danh hiệu (title), các từ thường viết
tắt, (như Dr., TS., ) là những từ riêng.
– Dựa trên danh sách các tên riêng (gazetteer): tên riêng có thể là tên của người, của
tổ chức, của địa danh, của sản phẩm, và hiện nay trên thế giới (có trên Internet) người
Có nhiều cách giải quyết vấn đề này, nhưng phương pháp WFST của Richard W.
Sproat được xem là phương pháp hiệu quả nhất và độ chính xác của nó đến 95% khi áp
dụng cho tiếng Hoa. Nhưng khi hệ đưa ra nhiều kết quả có độ chính xác xấp xỉ như nhau
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
23
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
thì việc chọn lời giải tối ưu là một vấn đề khó khăn. Các tác giả Hoàng Kiếm, Đinh Điền đã
đưa ra cách giải quyết cho vấn đề này là kết hợp mạng neural để tối ưu bài toán này.
Phân tích từ pháp ngôn ngữ nguồn: gán nhãn từ loại
Đề xác định loại từ của từ một cách tự động, chủ yếu ta phải giải quyết trường hợp
nhập nhằng từ loại vì một từ có nhiều từ loại, nhưng trong câu cụ thể nó chỉ có thể có một
từ loại đúng mà thôi. Danh sách các từ loại có thể có của một ngôn ngữ được gọi là bộ
nhãn từ loại (POS-tagset) của ngôn ngữ đó.
Để gán nhãn từ loại người ta có thể sử dụng nhiều phương pháp khác nhau như: mô
hình Markov ẩn (HMM), dựa trên bộ nhớ (memory-based), TBL, mạng Neural, cây quyết
định, trong đó phương pháp TBL tỏ ra rất hiệu quả và được sử dụng phổ biến nhất hiện
nay. Ngoài ra, phương pháp này còn có ưu thế là khả năng sửa sai trên đầu ra của hệ thống
gán nhãn từ loại cho tiếng Anh bằng giải thuật học fast-TBL tên là fTBL-toolkit được công
bố rộng rãi trên thế giới.
Phân tích cú pháp ngôn ngữ nguồn
Gán nhãn ranh giới ngữ nghĩa: gán nhãn ranh giới ngữ nghĩa là bài toán
đánh dấu đâu là bắt đầu (dấu [) đâu là kết thúc (dấu ]) của các ngữ nghĩa (phrases), như:
danh ngữ (Noun Phrase), động ngữ (Verb Phrase), dạng đánh dấu này còn gọi là dạng
ngoặc (brackets). Ví dụ: [I]
NP
[enter
V
[a
Det
chẳng hạn quan hệ S-V (Subject-Verb), V-O, như hình sau:
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
24
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
Hình 2.1 các quan hệ ngữ pháp
Gán nhãn cây cú pháp: gán nhãn cây cú pháp hay còn gọi là phân tích cú
pháp là nhằm phân tích một câu thành những thành phần văn phạm có liên quan với
nhau và được thể hiện thành cây cú pháp. Khi nhập câu, ta phải phân thành các thành
phần như: chủ ngữ, vị ngữ; gán vai trò chủ từ/đối từ của động từ chính, bổ nghĩa,
Ví dụ: nhập câu “I enter the bank”, nó sẽ phân tích thành dạng như sau: [I]
NP
[enter
V
[an
Det
old
Adj
bank
N
]
NP
]
VP
và cây cú pháp tương ứng:
Hình 2.2: cây cú pháp của cây “I enter the
bank”
Để phân tích cú pháp, ta có thể dùng cách tiếp cận dựa trên luật (rule-based) hoặc dựa
trên thống kê từ kho ngữ liệu (corpus):
Với cách tiếp cận dựa trên luật, ta cần có bộ luật văn phạm và giải thuật phân tích cú