Tài liệu Luận văn tốt nghiệp "Xử lý các văn bản tiếng Việt" - Pdf 99

Luận văn tốt nghiệp
"Xử lý các văn bản tiếng
Việt"

LỜI NÓI ĐẦU
Xử lý ngôn ngữ tự nhiên nói chung và phân tích cú pháp ngôn ngữ tự nhiên nói
riêng là những vấn đề quan trọng của trí tuệ nhân tạo, được nhiều nhà khoa học trên
thế giới quan tâm nghiên cứu trong suốt 50 năm qua. Các ứng dụng trong lĩnh vực
này rất phong phú. Ta có thể điểm qua một số ứng dụng chính như dịch máy, kiểm
tra và chữa lỗi văn bản, chuyển giao diện người – máy sang ngôn ngữ tự nhiên,
nhận dạng chữ viế
t, thiết kế người máy có khả năng hiểu và nói được tiếng của con
người…
Bài toán phân tích cú pháp ngôn ngữ tự nhiên bằng máy tính là bài toán lớn và
phức tạp. Với tiếng Việt - một ngôn ngữ rất phức tạp thì dường như bài toán này lại
càng khó khăn hơn. Chúng ta đã có một số công trình nghiên cứu về xử lý tiếng
Việt và đã đạt được một số thành công nhất định. Tuy nhiên, cho đến nay bài toán
phân tích cú pháp tiếng Việt v
ẫn chưa được giải quyết triệt để. Một trong những lý
do chính là vì chúng ta chưa nghiên cứu một cách có hệ thống ngữ pháp tiếng Việt
và cơ sở lý thuyết về xây dựng những trình phân tích cú pháp cho tiếng Việt còn
tương đối ít và chưa hoàn chỉnh.
Các mô hình văn phạm phi ngữ cảnh và mạng chuyển được sử dụng rộng rãi
trong mô tả cú pháp không chỉ của các ngôn ngữ lập trình mà cả các ngôn ngữ tự
nhiên. Trong khoá luậ
n này, em sẽ tập trung nghiên cứu việc vận dụng các mô hình
này cho bài toán cụ thể là phân tích cú pháp tiếng Việt. Ngôn ngữ Việt có nhiều
điểm khác so với các ngôn ngữ phổ biến, đã được nghiên cứu nhiều như tiếng Anh
hay tiếng Pháp. Do đó, chúng ta không thể áp dụng hoàn toàn những kết quả đã đạt
được đối với các ngôn ngữ này vào tiếng Việt.
Khoá luận trình bày các vấn đề sau:

lợi về tài liệu và phương tiện để em hoàn thành khoá luận này.
Trong quá trình thực hiện khoá luận, em còn nhận được sự ủng hộ, giúp đỡ và
động viên của các anh chị ở Phòng Nhận dạng và Công nghệ Tri thức, Viện Công
nghệ Thông tin, Trung tâm Khoa học Tự nhiên và Công nghệ Quốc gia, nơi em thực
tập trong thời gian qua. Em xin chân thành cảm ơn.
Em xin chân thành cảm ơn các thầy cô giáo trong và ngoài Khoa Toán-Cơ-Tin
học đã truyền đạt cho em những kiến thức, trang bị cho em những hành trang quý
giá trước khi em ra trường. Em xin chân thành cảm ơn các thầy cô giáo trong Bộ
môn Tin học đã tạo điều kiện cho em được thực hiện một số xêmina khoa học liên
quan đến đề tài, và đóng góp nhiều ý kiến quý báu, kịp thời. Xin cảm ơn các bạn
sinh viên đã động viên, giúp đỡ tôi thực hiện đề tài này.
Hà Nội, ngày 10 tháng 5 năm 2002
Sinh viên
Lê Hồng Phươ
ng
Khoá luận tốt nghiệp
2

Mục lục
LỜI NÓI ĐẦU 1
Danh mục hình 5
Danh mục bảng 5
Chương 1. Mở đầu 7
1.1. Tổng quan về vấn đề phân tích văn bản 7
1.2. Bài toán phân tích cú pháp 7
1.3. Nội dung khoá luận 8
Chương 2. Văn phạm phi ngữ cảnh 9
2.1. Văn phạm và ngôn ngữ sinh bởi văn phạm 9
2.2. Văn phạm phi ngữ cảnh 10
2.3. Biểu diễn cấu trúc câu 11

Tài liệu tham khảo 63

Khoá luận tốt nghiệp
4

Danh mục hình
Hình 1. Phân loại văn phạm của Chomsky 11
Hình 2. Cây biểu diễn câu John ate the cat 14
Hình 3. Biểu đồ sau khi tìm thấy một ADJ tại vị trí 2 16
Hình 4. Sau khi phân tích can là NOUN 18
Hình 5. Biểu đồ sau khi thêm hold 19
Hình 6. Biểu đồ sau khi tìm được tất cả các NP 19
Hình 7. Biểu đồ cuối cùng 20
Hình 8. Vị trí và biểu đồ ban đầu 22
Hình 9. Biểu đồ sau khi phân tích cụm NP đầu tiên 24
Hình 10. Sau khi phân tích khả năng thứ hai của NP đầu tiên 25
Hình 11. Sau khi tìm kiếm một S theo quy tắc 1 bị thất bại 25
Hình 12. Cấu trúc của câu cần phân tích 26
Hình 13. Mạng chuyển đệ quy làm ví dụ trong phân tích từ trên xuống 35
Hình 14. Giao diện chương trình phân tích cú pháp tiếng Anh 53
Hình 15. Phương pháp xây dựng ôtômát âm tiết 59
Hình 16. Phương pháp xây dựng ôtômát từ vựng 59
Hình 17. Một tình huống nhập nhằng 60
Hình 18. Các phương án phân tích cho một câu tiếng Việt nhập nhằng 62
Hình 19. Cây phân tích ứng với cách tách từ đúng 62

Danh mục bảng
Bảng 1. Phân tích từ trên xuống, ưu tiên chiều sâu cho văn phạm phi ngữ cảnh 15
Bảng 2. Một văn phạm phi ngữ cảnh đơn giản 20
Bảng 3. Quá trình phân tích từ trên xuống 35

thực hiện được bằng máy tính. Thường thì việc phân tích câu chỉ dừng ở phân
tích ngữ nghĩa, còn việc phân tích thực chứng do người dùng tự quyết định.
1.2. Bài toán phân tích cú pháp
Phân tích cú pháp đưa ra mô tả về quan hệ và vai trò ngữ pháp của các từ, các
cụm từ (hoặc ngữ) trong câu, đồng thời đưa ra hình thái của câu. Đầu vào của giai
đoạn này là câu đã được phân tách từ, trong đó mỗi từ có đặc điểm hình thái xác định.
Quá trình kiểm tra cú pháp tiến hành phân tích và tổ hợp các từ ở đầu vào, dựa trên
các luật cú pháp để loại bỏ các trường hợp bất quy tắc và từng bước dựng lên cấ
u trúc
cú pháp (cây phân tích) của câu. Kết quả cần đạt được là hình thái của câu.
Cú pháp là chủ đề nghiên cứu của hai cộng đồng gồm những người làm ngôn ngữ
và những người làm tin học. Với những người làm ngôn ngữ thì ngôn ngữ là đối
tượng nghiên cứu, cú pháp là một trong các cấp độ phải mô tả. Với những người làm
tin học thì cần làm cho máy tính phân tích được cú pháp với hai mục tiêu là xây dựng
các ứng dụng, qua đó phục vụ vi
ệc nghiên cứu ngôn ngữ; đối tượng nghiên cứu của họ
là các hệ hình thức và các thuật toán.
Chương 1. Mở đầu
Khoá luận tốt nghiệp
8
Khi xét về cấu trúc cú pháp có hai khía cạnh, một là thứ tự của các từ, trong đó có
những ràng buộc về cấu tạo câu đúng và chức năng của các thành phần trong câu (chủ
ngữ, vị ngữ ); hai là những biến tố (về hình thái, ví dụ các thì, số ít, số nhiều,
giống ) quy định ràng buộc về cấu tạo và chức năng ngữ pháp. Với tiếng Việt, không
có khía cạnh thứ hai.
Để phân tích cấu trúc của một câu ta cần đến hai thứ: Thứ nhất là ngữ pháp của
ngôn ngữ, là đặc tả hình thức cấu trúc của ngôn ngữ và thứ hai là các kỹ thuật phân
tích, là các phương thức phân tích để tìm ra cấu trúc ngữ pháp của câu, hoặc kết luận
câu sai ngữ pháp. Để đặc tả ngữ pháp, người ta đưa ra các mô hình cú pháp của ngôn
ngữ.

a
i2
a
it
, a
ij
∈ Χ, 1 ≤ j ≤ t được gọi là
một từ hay một xâu trên bảng chữ cái Χ. Ví dụ ba, ca, con, Tổng số vị trí của tất cả
các ký hiệu xuất hiện trong từ α được gọi là độ dài của α, ký hiệu là |α|. Từ có độ dài
bằng 0 được gọi là từ rỗng (trống), được ký hiệu là ε.
Gọi Σ* là tập hợp gồ
m tất cả các từ trên bảng chữ cái Σ, kể cả từ rỗng. Mỗi một
tập con của tập Σ* được gọi là một ngôn ngữ trên bảng chữ cái Σ. Tập rỗng cũng là
một ngôn ngữ trên bảng chữ cái tuỳ ý, được ký hiệu bằng φ.
Giả sử có bảng chữ cái Σ, một văn phạm là một bộ bốn G = (Σ, V,
σ, P), trong đó:
¾ Σ là bảng chữ cái chính hay bảng chữ cái từ hay tập ký hiệu kết
¾ V là bảng chữ cái phụ hay bảng chữ cái làm việc hay tập ký hiệu không kết
¾ σ ∈ V là một ký hiệu phụ, gọi là tiền đề hay ký hiệu xuất phát hay ký hiệu
khởi đầu
¾ P = {ϕ → ψ⎪ϕ∈(
Σ ∪V)*\{e}, ψ ∈(Σ ∪V)*, → ∉ (Σ ∪V)} gọi là tập quy
tắc sinh hay tập quy tắc thế của văn phạm G. r = ϕ → ψ là một quy tắc
sinh hay quy tắc thế của văn phạm G, ϕ, ψ theo thứ tự được gọi là vế trái
và vế phải của quy tắc r.
Ví dụ, G = ({a, b, c},
{S, A, B}, S, P), trong đó P là
S

ABBA

ψα
2
, ϕ → ψ ∈ P thì ta nói rằng xâu α
dẫn trực tiếp ra xâu β hoặc xâu β được dẫn trực tiếp từ xâu α.
Một dãy từ ω
0
, ω
1
, , ω
i
, ω
i+1
, , ω
m
được gọi là một dẫn xuất trong văn phạm G
nếu ∀i, ω
i
⇒ ω
i+1
.
Ta nói rằng xâu α dẫn gián tiếp ra xâu β hay xâu β được dẫn gián tiếp từ α trong
văn phạm G, và viết là α
β nếu hoặc α = β hoặc tồn tại một dẫn xuất ω mà từ đầu
tiên là α và từ cuối cùng là β.
*

Tập {x ∈ Σ* | σ
x} gồm tất cả các từ thuộc bảng chữ cái chính mà mỗi từ này
được dẫn gián tiếp từ tiền đề gọi là ngôn ngữ sinh bởi văn phạm G, ký hiệu là L(G).
*

Hình 1. Phân loại văn phạm của Chomsky
Các quy tắc sinh của văn phạm phi ngữ cảnh G có thể được chuẩn hoá theo hai
cách mà không làm thay đổi khả năng sinh của nó, gồm dạng chuẩn Chomsky và dạng
chuẩn Greibach. Trong dạng chuẩn Chomsky, các quy tắc có dạng A → BC hoặc A →
a. Với dạng chuẩn Greibach, các qui tắc có dạng A → aα.
Cây dẫn xuất của văn phạm là một cây được đánh dấu bởi các ký hiệu kết thúc
hoặc không kết thúc sao cho mỗ
i nút mẹ là vế trái của một qui tắc sinh mà vế trái của
qui tắc đó lập nên bởi dãy các kí hiệu của các nút con.
Hầu hết các ngôn ngữ lập trình đều được mô tả bằng văn phạm phi ngữ cảnh.
Chẳng hạn, câu lệnh lặp while được mô tả bởi các quy tắc phi ngữ cảnh sau:
WhileStatement → while Condition do StatementList end
StatementList → Statement
StatementList → Statement ; StatementListVăn phạm phi ngữ cảnh cũng được lựa chọn để biểu diễn cấu trúc cú pháp của các
ngôn ngữ tự nhiên bởi hai lý do:
¾ Nó đủ mạnh để mô tả hầu hết những cấu trúc của ngôn ngữ tự nhiên
¾ Nó vừa đủ hạn chế để xây dựng những trình phân tích câu hiệu quả
Sau đây ta đi vào tìm hiểu việc vận dụng các văn phạm phi ngữ c
ảnh và các thuật
toán phân tích để biểu diễn ngôn ngữ tự nhiên và xây dựng các trình phân tích cú
pháp.
2.3. Biểu diễn cấu trúc câu
Văn phạm phi ngữ cảnh khi được sử dụng để biểu diễn cấu trúc cú pháp thì các ký
hiệu kết thúc tương ứng với các từ trong ngôn ngữ, các ký hiệu không kết thúc tương
ứng với các phân loại cú pháp (hay từ loại). Tiên đề biểu diễn phân loại "câu". Các
quy tắc sinh biểu diễn các quy tắc ngữ pháp. Ta có thể chia chúng thành các qui tắc từ
Chương 2. Văn phạm phi ngữ cảnh

¾ Phân tích từ dưới lên: Xuất phát từ chính câu vào, áp dụng thu gọn các suy
dẫn phải, tiến hành từ phải qua trái để đi tới ký hiệu đầu.
Ví dụ, xét câu "John ate the cat". Phân tích từ trên xuống như sau
S

NP VP


NAME VP


John VP


John VERB NP


John ate NP


John ate ART NOUN


John ate the NOUN


John ate the cat

Phân tích từ dưới lên thì ngược lại.
Một văn phạm rộng hơn dùng cho lớp câu kể của tiếng Anh là

S Câu
NP cụm danh từ
VP cụm động từ
PP cụm giới từ
NOUN danh từ
ART mạo từ
VERB động từ
NAME tên riêng

Theo văn phạm này thì một số câu như
¾ John saw the cat by the pond
¾ The dog barked in the house
là chấp nhận được, nhưng nó cũng chấp nhận những câu không có nghĩa như
¾ The dog allows the house
¾ John barked the cat by the pond
Với câu John ate the cat, ta có cây phân tích như Hình 2.
Chương 2. Văn phạm phi ngữ cảnh
Khoá luận tốt nghiệp
14

Hình 2. Cây biểu diễn câu John ate the cat
2.4. Phân tích từ trên xuống
Bây giờ ta xây dựng trình phân tích từ trên xuống cho văn phạm phi ngữ cảnh. Để
mô tả một trạng thái của trình phân tích ta dùng hai thông tin:
¾ Vị trí hiện tại. Lưu lại phần nào của câu đã được phân tích rồi
¾ Trạng thái hiện tại. Là một xâu các ký hiệu sinh ra từ các quy tắc của văn
phạm
Ở mỗi bước, trình phân tích xét ký hiệu nằm bên trái nhất của danh sách. Nếu nó
có tên là một từ loại củ
a từ kế tiếp thì xoá ký hiệu này và cập nhật lại vị trí hiện tại

4
như trên Bảng 1.
Bước Trạng thái hiện tại Trạng thái lưu Vị trí Nhận xét
1. (S) 1 vị trí khởi tạo
2. (NP VP) 1 viết lại S theo quy tắc 1
3. (ART NOUN VP) 1 viết lại NP theo các quy tắc 2, 3
Chương 2. Văn phạm phi ngữ cảnh
Khoá luận tốt nghiệp
15
(NAME VP) 1
4. (NOUN VP) 2
so khớp ART với the
(NAME VP) 1
5. (VP) 3
so khớp NOUN với dogs
(NAME VP) 1
6. (VERB) 3 viết lại VP theo các quy tắc 5-8
(VERB NP) 3
(VERB NP PP) 3
(VERB PP) 3
(NAME VP) 1
7. quá trình phân tích thành công,
vì VERB so khớp với cried,
và lúc này, danh sách các ký
hiệu của văn phạm là rỗng, câu
cần phân tích rỗng.
Bảng 1. Phân tích từ trên xuống, ưu tiên chiều sâu cho văn phạm phi ngữ cảnh
Chú ý rằng trình phân tích đưa các trạng thái được sao lưu vào một ngăn xếp.
2.5. Phân tích từ dưới lên
Ðiểm khác nhau chủ yếu giữa phân tích từ trên xuống và phân tích từ dưới lên là


VERB NP

Nếu ta bắt đầu bằng khoá ART thì các quy tắc 2 và 3 là khớp. Ta ghi lại điều này
cho bước xử lý tiếp theo, các quy tắc 2, 3 có thể đi tiếp được ở sau điểm ART. Ta biểu
diễn điều này bằng cách viết lại các quy tắc đó cùng với dấu chấm tròn (ο) chỉ rằng ta
đã đi đến đâu:
2'. NP

ART ο ADJ NOUN
3'. NP

ART ο NOUN
Nếu khoá sau đó là ADJ thì có thể có quy tắc 4 và quy t
ắc 2' được thác triển tiếp
như sau:
2''. NP

ART ADJ ο NOUN
Các trạng thái trong phân tích từ dưới lên được lưu dưới dạng một cấu trúc gọi là
biểu đồ (chart). Biểu đồ là một bản ghi vị trí của các từ và các cấu trúc mới phát sinh
từ câu đang phân tích. Các cung trên biểu đồ lưu giữ các quy tắc đã so khớp trước đó
nhưng chưa hoàn thiện. Ví dụ, sau khi đã biết một ART và sau đó là mộ
t ADJ trong ví
dụ trên, ta sẽ có biểu đồ sau (Hình 3):

Hình 3. Biểu đồ sau khi tìm thấy một ADJ tại vị trí 2
Có hai thành phần: ART1, ADJ1 và 4 cung hoạt động; 2 NP bắt đầu bằng ART từ
1 đến 2, 1 NP bắt đầu bằng ART ADJ từ 1 đến 3, 1 NP bắt đầu bằng ADJ từ 2 đến 3.
Thuật toán phân tích cụ thể như sau: Có hai cấu trúc dữ liệu là biểu đồ và danh

2
;
3. với mỗi cung A đi từ p
0
đến p
1
(điểm bắt đầu của C), nếu C là thành phần con
kế tiếp của A thì thêm một cung từ p
0
đến p
2
biểu diễn quy tắc A đã cập nhật.
4. nếu một cung nào đó trong số các cung được thêm vào tại các bước 2, 3 là một
quy tắc đã hoàn chỉnh thì thêm vào danh sách khoá một thành phần mới có tên
là vế trái của quy tắc đó.
Ví dụ, xét thuật toán này với câu cần phân tích là
The large can can hold the water,
với từ điển sau:
the ART
large ADJ
can AUX, NOUN, VERB
hold NOUN, VERB
water NOUN, VERB

Ban đầu danh sách khoá là rỗng, do đó từ the được đọc và thành phần ART1
được đặt vào danh sách.
• Vào ART1: (the từ 1 tới 2). Thêm cung NP → ART ο ADJ NOUN từ 1 tới 2,
thêm cung NP → ART ο NOUN từ 1 tới 2;
Cả hai cung này được thêm vào tại bước 2 của thuật toán. Sau đó từ large được
đọc, tạo ra thành phần ADJ1.

Chương 2. Văn phạm phi ngữ cảnh
Khoá luận tốt nghiệp
19
• Vào VERB3: (hold từ 5 đến 6). Thêm cung VP → VERB ο NP từ 5 tới 6,
thêm cung VP → AUX VERB ο NP từ 4 tới 6. Ta được biểu đồ như Hình 5.

Hình 5. Biểu đồ sau khi thêm hold
• Vào ART2: (the từ 6 đến 7). Thêm cung NP → ART ο ADJ NOUN từ 6 tới 7,
thêm cung NP → ART ο NOUN từ 6 tới 7.
• Vào NOUN4: (water từ 7 đến 8). Không có cung nào được thêm vào trong
bước 2, một NP, NP3 từ 6 tới 8 được đẩy vào danh sách khoá do hoàn thành cung NP
→ ART ο NOUN từ 6 tới 7.
• Vào NP3: (the water từ 6 đến 8). Một VP, VP1 từ 4 tới 8 được đẩy vào danh
sách khoá do hoàn thành quy tắc VP → AUX VERB ο NP từ 4 tới 6; một VP, VP2 từ
5 tới 8 được đẩy vào danh sách khoá do hoàn thành quy tắc VP → VERB ο NP từ 5
tới 6. Ðồ thị tiếp theo của giai đoạn này như Hình 6 (chỉ vẽ những cung sử dụng trong
phân tích tiếp theo).

Hình 6. Biểu đồ sau khi tìm được tất cả các NP
• Vào VP2 (hold the water từ 5 đến 8). Không cung nào được thêm vào.
Chương 2. Văn phạm phi ngữ cảnh
Khoá luận tốt nghiệp
20
• Vào VP1 (can hold the water từ 4 đến 8). Một S, S1 từ 1 tới 8 được
thêm vào danh sách khoá bởi hoàn thiện cung S → NP ο VP từ 1 tới 4, một S, S2 từ 2
tới 8 được thêm vào danh sách khoá bởi hoàn thiện cung S → NP ο VP từ 2 tới 4.
Vì ta đã thu được S gồm toàn bộ câu cần phân tích, nên việc phân tích là thành
công. Nếu muốn tìm tất cả các cách phân tích câu có thể thì cần tiếp tục phân tích cho
tới khi danh sách khoá là rỗng. Biểu đồ cuối cùng như Hình 7.


bằng một NP, NP bắt đầu bằng ART, sau đó là ADJ hoặc NOUN. Vì can là NOUN,
nên nó tìm thấy một NP và do đó các nghĩa AUX hoặc VERB của can không bao giờ
được xét.
Nhưng phân tích từ trên xuống lại có thể tốn nhiều thời gian bởi những công việc
tương tự nhau có khi phải lặp lại nhiều lần. Giả sử ta cần phân tích câu The bird
sang cũ
ng với văn phạm trên. Ban đầu, trình phân tích sử dụng quy tắc 1 tìm ra một
NP the bird, sau đó sử dụng quy tắc 8 cho VP, nó tìm thấy VERB, nhưng sau đó
Chương 2. Văn phạm phi ngữ cảnh
Khoá luận tốt nghiệp
21
phải là NP thì không thoả mãn. Do đó nó quay lại và thử tìm một phân tích khác của
S. Trình phân tích thử dùng quy tắc 2 và NP the bird lại được phân tích lại, nhưng
lần này không tìm thấy AUX, nó quay lại lần nữa để thử với quy tắc 3. Lần này thì
thành công và như vậy việc phân tích NP the bird được thực hiện 3 lần.
Nhược điểm này được khắc phục trong phân tích từ dưới lên. Trong ví dụ trên, NP
the bird chỉ được xây dựng một lần và đố
i với câu này, chỉ quy tắc 3 là phù hợp.
Nhưng trình phân tích từ dưới lên lại phải xem xét tất cả các từ loại có thể có của một
từ và xây dựng những cấu trúc có thể không hợp lệ. Ví dụ, trong phần trước, khi phân
tích câu The large can can hold the water, ta có biểu đồ cuối cùng như
Hình 7. Ở đây, có nhiều cấu trúc không thể xảy ra, chẳng hạn, theo biểu đồ này thì từ
vị trí 2 đến vị trí 7 có thể coi là một câu, như
ng thực tế không thể có câu nào có dạng
ART S.
2.7. Phương pháp phân tích tổng hợp
Ta sẽ thiết kế một trình phân tích vừa có những ưu điểm của hai kỹ thuật phân tích
từ trên xuống và từ dưới lên lại không có những nhược điểm như trên. Phương pháp là
vừa xây dựng một trình phân tích từ trên xuống vừa bổ sung từng thành phần vào biểu
đồ. Trong quá trình phân tích, trước khi ta viết lại một ký hiệu để lấy ra những thành


Sử dụng các quy tắc 4, 5 và 6 để viết lại NP của trạng thái hiện tại sinh ra
Trạng thái hiện tại Trạng thái lưu Vị trí
(ART NOUN VP) 1
(ART ADJ NOUN VP) 1
(ADJ NOUN VP) 1
(NP AUX VERB) 1
(NP VERB) 1

Câu cần phân tích được kiểm tra xem có bắt đầu bằng một ART và sau đó là một
NOUN hay không, việc này thành công, trình phân tích xây dựng được một NP trên
biểu đồ. Nhưng ở đây chưa có thông tin nào ghi lại rằng dãy ART NOUN đã sinh ra
một NP cả.
Ðể ghi lại NP, ngay khi một ký hiệu được viết lại, trình phân tích đánh dấu ký
hiệu đó và đưa nó vào một danh sách, đồng thời ghi lại vị trí bắt đầu của cụm từ. Ví
dụ, n
ếu cụm NP được viết lại ở vị trí 1, trình phân tích sẽ đặt một cấu trúc mới [NP1],
gọi là cờ dựng vào trong danh sách. Sau đó, trong quá trình phân tích, nếu phải quay
lại [NP1] thì nó nhận thấy rằng cấu trúc NP bắt đầu từ vị trí 1 đã được thực hiện.
Thuật toán trên được viết lại cụ thể để xử lý một vị trí nào đó như sau:
1. Nếu ký hiệu bên trái nhất củ
a trạng thái hiện tại là tên của một điểm vào trong
biểu đồ, thì sinh ra một (hay nhiều) trạng thái mới bằng cách xoá ký hiệu đó đi
và cập nhật lại vị trí hiện tại trong câu thành (các) vị trí sau (các) điểm vào của
biểu đồ. Ví dụ, cho vị trí và biểu đồ sau đây.
Trạng thái hiện tại Trạng thái lưu Vị trí
(NP VP) nil 1

Hình 8. Vị trí và biểu đồ ban đầu
Chương 2. Văn phạm phi ngữ cảnh

Trạng thái hiện tại Trạng thái lưu Vị trí
(ART NOUN [NP1] VP [S1]) 1
(ART ADJ NOUN [NP1] VP [S1]) 1
(ADJ NOUN [NP1] VP [S1]) 1
(NP AUX VERB [S1]) 1
(NP VERB [S1]) 1

Chương 2. Văn phạm phi ngữ cảnh
Khoá luận tốt nghiệp
24
Ta kiểm tra thấy câu vào có một ART và một NOUN là đúng đắn. Sau thao tác
này trạng thái hiện tại là ([NP1] VP [S1]) tại vị trí 3. Theo bước 2 của thuật toán, cờ
dựng [NP1] được xử lý, bằng việc thêm một cấu trúc NP là [NP1] vào biểu đồ từ vị trí
1 tới vị trí 3. Khi đó, ta thu được trạng thái của quá trình phân tích và biểu đồ như sau:
Trạng thái hiện tại Trạng thái lưu Vị trí
(VP [S1]) 3
(ART ADJ NOUN [NP1] VP [S1]) 1
(ADJ NOUN [NP1] VP [S1]) 1
(NP AUX VERB [S1]) 1
(NP VERB [S1]) 1 Hình 9. Biểu đồ sau khi phân tích cụm NP đầu tiên
Viết lại VP sẽ có trạng thái sau
Trạng thái hiện tại Trạng thái lưu Vị trí
(AUX VERB NP [VP4] [S1]) 3
(VERB NP [VP4] [S1]) 3
(ART ADJ NOUN [NP1] VP [S1]) 1
(ADJ NOUN [NP1] VP [S1]) 1
(NP AUX VERB [S1]) 1


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status