Tìm hiểu một vài phương pháp tách từ trong văn bản tiếng việt - Pdf 26

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
Trường Đại Học Công Nghệ Thông Tin
BÀI THU HOẠCH
Môn: Khai phá dữ liệu và kho dữ liệu
Tìm hiểu một vài phương pháp tách từ trong văn bản tiếng việt
Giảng viên: PGS.TS. Đỗ Phúc
Sinh viên thực hiện: Nguyễn Xuân Nghĩa – CH1101108
HCM Tháng 11 năm 2012
Trang 1
Mục lục
Mục lục 2
Trang 2
I. Tổng quan
1. Đặt vấn đề
Xử lý ngôn ngữ tự nhiên (natural language processing - NLP) là một nhánh của trí
tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con người. Trong trí tuệ
nhân tạo thì xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất vì nó liên
quan đến việc phải hiểu ý nghĩa ngôn ngữ-công cụ hoàn hảo nhất của tư duy và giao
tiếp
Thực chất của xử lý ngôn ngữ tự nhiên là chuyển đổi âm thanh thành ngữ nghĩa. Với
mục đích là hiểu được ngôn ngữ, ý nghĩa.
Các bước phân tích của xử lý ngôn ngữ tự nhiên:
• Phân tích hình thái học (Morphology): cách từ được xây dụng, các tiền tố hậu tố
• Phân tích cú pháp (Syntax): mối liên hệ về cấu trúc ngữ pháp giữa các từ và
ngữ.
• Phân tích ngữ nghĩa (Semantics ): nghĩa của từ, cụm từ và cách diễn đạt
• Diễn ngôn (Discourse): quan hệ giữa các ý hoặc các câu.
• Thực chứng: mục đích phát ngôn, cách sử dụng ngôn ngữ trong giao tiếp.
• Tri thức thế giới: Các tri thức về thế giới vá các tri thức ngầm
Trong phân tích hình thái học từng từ sẽ được phân tích và các ký tự không phải chữ
(như các dấu câu) sẽ được tách ra khỏi các từ. Trong tiếng Anh và nhiều ngôn ngữ

nhiên bằng khoảng trắng.
- Tồn tại loại từ đặc biệt “từ chỉ loại”
hay còn gọi là phó danh từ chỉ loại kèm
theo với danh từ.
- Có hiện tượng láy và nói lái trong tiếng
việt
 - Là ngôn ngữ không đơn lập- loại hình
biến cách hay còn gọi là loại hình chiết
khuất.
 - Từ có biến đổi hình thái, ý nghĩa ngữ
pháp nằm ở trong từ.
 - Phương thức ngữ pháp chủ yếu là phụ
tố.
 - Kết hợp giữa các hình vị là chặt chẽ,
khó xác định, được nhận diện bằng
khoảng trắng hoặc dấu câu.
- Hiện tượng cấu tạo bằng từ ghép thêm
phụ tố (affix) vào từ gốc là rất phổ biến.


b. Nhận xét
• Tiếng Việt là loại hình phi hình thái nên việc phân loại từ (danh từ, động từ, tính
từ…. ) và ý nghĩa từ là rất khó khăn, cho dù có sử dụng từ điển.
• Việc tiền xử lý văn bản (tách từ, tách đoạn, tách câu…) sẽ thêm phức tạp với
phần xử lý các hư từ, phụ từ, từ láy…
• Phương thức ngữ pháp chủ yếu là trật tự từ nên nếu áp dụng phương pháp tính
xác xuất xuất hiện của từ có thể không chính xác như mong đợi.
• Ranh giới từ không được xác định mặc định bằng khoảng trắng. Điều này khiến
cho việc phân tích hình thái (tách từ) tiếng Việt trỏe nên khó khăn. Việc nhận
diện ranh giới từ là quan trọng và làm tiền đề cho các xử lý tiếp theo sau đó.

Shortest Match
Shortest Match
Overlap Match
Overlap Match
Longest Match
Longest Match
c. Hướng tiếp cận dựa trên từ (Word-based approaches)
Hướng tiếp cận dựa trên từ với mục tiêu tách được các từ hoàn chỉnh trong câu.
Hướng tiếp cận này có thể chia ra theo 3 hướng : dựa trên thống kê (statistics -
based), dựa trên từ điển ( dictionary – based) và hydrid ( kết hợp nhiều phương
pháp).
• Hướng tiếp cận dựa trên thống kê (statistic-based): dựa trên các thông tin như
tần số xuất hiện của từ trong tập huấn luyện ban đầu.
• Hướng tiếp cận dựa trên từ điển (dictionary- based): ý tưởng của hướng tiếp cận
này là những cụm từ được tách ra từ văn bản phải được so khớp với các từ trong
từ điển.
• Tùy thuộc vào loại từ điển sử dụng để so khớp lại có 2 hướng tiếp cận: full
word/ pharse và component. Trong đó full word/ pharse cần sử dụng một từ
điển hoàn chỉnh. Còn component thì sử dụng từ điển thành phần.
Trang 5
• Tùy theo cách chọn so khớp từ (match) hướng tiếp cận ‘full word/ pharse’ có
thể chia ra làm 3 loại: so khớp dài nhất (longest match), so khớp ngắn nhất
(shortest match) và so khớp kết hợp (overlap). Trong so khớp kết hợp mỗi chuỗi
được phát sinh từ văn bản có thể chồng lấp lên chuỗi khác nếu chuỗi đó có trong
từ điển.
• Hiện nay thì hướng tiếp cận so khớp dài nhất được xem là phương pháp quan
trọng và có hiệu quả nhất trong hướng tiếp cận dựa trên từ điển.
• Hướng tiếp cận hybrid:Với mục đích kết hợp các hướng tiếp cận khác nhau để
thừa hưởng được các ưu điểm của nhiều kỹ thuật và các hướng tiếp cận khác
nhau nhằm nâng cao kết qủa. Hướng tiếp cận này thường kết hợp giữa hướng

T là bộ từ điển.
While V≠⍉ do
Begin
Wmax= từ đầu danh sách V; // từ dài nhất
Foreach (v thuộc từ gồm các tiếng bắt đầu trong V)
If(length(v)> length(Wmax) and v thuộc T) then Wmax= v;
Trang 6
Loại đi các tiếng trong Wmax ở đầu danh sách V;
End.
Ví dụ : Tôi là công dân nước Việt Nam.
Bước Từ dài nhất có thể Các tiếng còn lại
1 Tôi là công dân nước Việt Nam
2 Là công dân nước Việt Nam
3 công dân nước Việt Nam
4 nước Việt Nam
5 Việt Nam
Ưu điểm:
• Tách từ nhanh đơn giản chỉ cần dựa vào từ điển.
• Độ chính xác tương đối cao.
Hạn chế:
• Độ chính xác phụ thuộc vào hoàn toàn vào tính đầy đủ và chính xác của từ điển.
Phương pháp này sẽ không đạt được kết quả nếu cuối từ trước có liên hệ với các từ
sau. Ví dụ : một ông quan tài giỏi => một ||ông|| quan tài|| giỏi.
b. Học dựa trên sự cải biến (Transformation-based Learning -TBL)
Đây là cách tiếp cận dựa trên ngữ liệu đã đánh dấu. Theo cách tiếp cận này, để huấn
luyện cho máy tính biết cách nhận diện ranh giới từ tiếng Việt, ta có thể cho máy
“học” trên ngữ liệu hàng vạn câu tiếng Việt đã được đánh dấu ranh giới từ đúng.
Sau khi học xong, máy sẽ xác định được các tham số (các xác suất) cần thiết cho
mô hình nhận diện từ.
Ưu điểm:

một sự chuyển dịch trạng thái có xác suất (Stochastic Transduction). Chúng ta miêu
tả từ điển D là một đồ thị biên độ trạng thái hữu hạn có trọng số. Giả sử:
- H: là tập các từ chính tả tiếng Viêt (còn gọi là “tiếng”)
- P: là từ loại của từ (POS: part - Of – Speech).
Mỗi cung của D có thể là:
- Từ một phần từ của H tới một phần từ của H, hoặc
- Từ З (ký hiệu kết thúc từ) tới một phần từ của P
Các nhãn trong D biểu thị một chi phí ước lượng (estimated cost) bằng công thức:
Cost = - log(f/N)
- Với f: tần số của từ, N: kích thước tập mẫu
Đối với các trường hợp từ mới chưa gặp, tác giả áp dụng xác suất có điều kiện Goog –
Turning (Baayen) để tính toán trọng số.
 Xây dụng khả năng phân đoạn từ: để giảm bớt sự bùng nổ tổ hợp khi sinh ra các dãy
các từ có thể từ một dãy các tiếng trong câu, tác giả đề xuất một phương pháp mới là
kết hợp dùng từ điển để hạn chế sinh ra các bùng nổ tổ hợp. Khi phát hiện thấy một
cách phân đoạn từ nào đó không phù hợp (không có trong từ điển, không phải là từ
láy, không phải là danh từ riêng…) thì tác giả loại bỏ các nhánh xuất phát từ cách
phân đoạn từ đó.
 Lựa chọn khả năng phân đoạn từ tối ưu: Sau khi được
một danh sách các cách phân đoạn từ có thể có của câu,
tác giả chọn trường hợp phân đoạn có trọng số bé nhất
như sau:
- Ví dụ: input = “Tốc độ truyền thông tin sẽ cao”
Dictionary “tốc độ” 8. 68
“truyền” 12. 31
“truyền thông” 12. 31
Trang 8
Bắt đầu
Bắt đầu
Tiền xử lý

muốn nhắm đến việc tách từ thật chính xác để là nền tảng cho việc dịch máy
Hạn chế
• Cũng tương tự như phương pháp TBL, việc xây dụng tập ngữ liệu là rất công
phu, nhưng thật sự cần rất cần thiết để phục vụ cho mục đích dịch máy sau này.
d. Phương pháp tách từ dựa trên thống kê từ trên Internet và giải thuật di truyền
(Internet and Genetics Algorithm-based Text Categorization for Documents in
Vietnamese - IGATEC)
Phương pháp tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di truyền –
IGATEC (Internet and Genetics Algorithm based Text Categorization for
Documents in Vietnamese) do H. Nguyễn đề xuất năm 2005 như một hướng tiếp
cận mới trong tách từ với mục đích phân loại văn bản mà không cần dùng đến một từ
điển hay tập ngữ liệu học nào. Trong hướng tiếp cận này, tác giả kết hợp giữa thuật
toán di truyền với dữ liệu thống kê được lấy từ Internet.
Trang 9
segmentation
segmentation
Online Extractor
Online Extractor
segmentation
segmentation
segmentation
segmentation
Online Extractor
Online Extractor
Online Extractor
Online Extractor
Online Extractor
Online Extractor
segmentation
segmentation

Trong đó MAX = 4 * 109
count(w) số lượng văn bản trên Internet được tìm thấy có chứa từ w hoặc cùng
chứa w1 và w2 đối với count(w1&w2).
• Tính xác suất độ phụ thuộc của một từ lên một từ khác :
( )
w
1
p
)
w
2
&
w
1
p(
)
w
2
|
w
1
p( =
Thông tin phụ thuộc lẫn nhau (mutual information) của các từ ghép được cấu tạo
bởi n tiếng ( cw = w1w2…wn)
( )
∑
=
−
=
n

Trang 10
giá trị fitness của các cá thể để đạt được cách tách từ tốt nhất có thể.
Ưu điểm:
• Không cần sử dụng bất cứ tập huấn luyện hoặc từ điển nào.
• Phương pháp tương đối đơn giản.
• Không tốn thời gian huấn luyện.
Hạn chế:
• So với các phương pháp trước, IGATEC có độ chính xác thấp hơn LRMM và
WFST nhưng vẫn được chấp nhận đối với mục đích tách từ dành cho phân loại
văn bản.
• Thời gian chạy ban đầu khá chậm do phải lấy thông tin từ internet mà đường
truyền ở Việt Nam còn hạn chế.
• Chưa có thử nghiệm trên các tập dữ liệu đủ lớn.
4. Kết luận
Sau khi xem xét một số hướng tiếp cận trong tách từ văn bản tiếng Việt, các nghiên
cứu đã được công bố đều chỉ ra rằng phương pháp tách từ dựa trên từ mang lại kết
quả có độ chính xác khá cao, điều này có được nhờ vào tập huấn luyện lớn, được
đánh dấu ranh giới giữa các từ chính xác giúp cho việc học rút ra các luật để tách từ
cho các văn bản khác được tốt đẹp, tuy nhiên chúng ta cũng dễ nhận thấy hiệu suất
của phương pháp hoàn toàn phụ thuộc vào tập ngữ liệu huấn luyện. Do đó để khắc
phục sự phụ thuộc của từ điển, chúng ta đề nghị sử dụng hướng tiếp cận của H.
Nguyễn (sẽ được trình bày chi tiết trong phần sau ) để tách từ.
Hướng tiếp cận dựa trên ký tự có ưu điểm là dễ thực hiện, thời gian thực hiện tương
đối nhanh, tuy nhiên lại cho kết qủa không chính xác bằng hướng tiếp cận dựa trên
từ. Hướng tiếp cận này nói chung phù hợp cho các ứng dụng không cần độ chính xác
tuyệt đối trong tách từ văn bản như ứng dụng lọc spam mail, firewall, …Nhìn chung
với hướng tiếp cận này nếu chúng ta có thể cải tiến để nâng cao độ chính xác trong
tách từ thì hướng tiếp cận này là hoàn toàn khả thi và có khả năng thay thế hướng
tiếp cận tách từ dựa trên từ vì đã không phải xây dựng kho ngữ liệu, một công việc
đòi hỏi nhiều công sức, thời gian và sự hỗ trợ của các chuyên gia trong các lĩnh vực

tin ở thư mục đầu ra giống tên tương ứng ở đầu vào.
Sau cùng chọn Ok để tiến hành tách từ.
Lưu ý: trong chương trình có 2 tuỳ chọn
• Sử dụng dấu cách để phân tách từ: mỗi từ đơn sẽ nằm trong dấu ngoặc vuông.
Vd: nước rơi tí tách -> [nước] [rơi] [tí tách]
• Xuất dưới dạng XML: định dạng văn bản chuẩn XML.
Trang 14
Kết quả chương trình thực hiện được ứng với đoạn văn bản:
Trang 15
Châu Âu và Nga hợp tác chinh phục sao Hỏa
Các quốc gia thành viên của Cơ quan vũ trụ châu Âu (ESA) đã thông qua thỏa thuận coi Nga là một đối
tác quan trọng trong sứ mệnh thám hiểm sao Hỏa vào năm 2016 và 2018.
Sau khi Mỹ từ chối tham gia dự án thăm dò sao Hỏa ExoMars của ESA, Nga đã được được lựa chọn làm
đối tác thay thế. Dự án ExoMars bao gồm phóng một vệ tinh tìm kiếm khí mê tan và các khi khác trong
bầu khí quyển sao Hỏa vào năm 2016 và sau đó phóng tàu thăm dò lên bề mặt hành tinh đỏ vào năm
2018.
Hôm 19/11 vừa qua, các quốc gia thành viên của ESA đã thông qua một thỏa thuận hợp tác với Nga trong
các sứ mệnh thăm dò sao Hỏa sắp tới, dự định sẽ được 2 bên ký kết vào cuối năm nay. Sự hợp tác này
sẽ giúp dự án ExoMars của ESA triển khai đúng tiến độ như dư kiến.
“Chúng tôi cũng có cơ hội khác để xem xét hợp tác, như các sứ mệnh thăm dò sao Mộc. ESA đang phát
triển tàu thăm dò Juice để khám phá sao Mộc, trong khi, Nga có kế hoạch phát triển tàu vũ trụ Ganymede
để thăm dò hành tinh này”, ông Frederic Nordlund, giám đốc quan hệ quốc tế của ESA, cho biết trên BBC.
Ngoài ra, ông Frederic Nordlund cho biết châu Âu và Nga có thể hợp tác cùng nhau trong các sứ mệnh
thăm dò Mặt trăng. Bởi vì Nga đã từng phóng 2 tàu thăm dò Mặt trăng là Luna-Glob và Luna-Resurs.
Theo thỏa thuận hợp tác giữa Nga và châu Âu, Nga có thể sẽ là đối tác cung cấp tên lửa Proton cho 2 sứ
mệnh của dự án ExoMars. Nga cũng sẽ cung cấp thiết bị cho vệ tinh và tàu thăm dò của ESA. Ngoài ra,
các nhà khoa học của 2 bên sẽ cùng tiến hành khai thác dữ liệu từ những sứ mệnh này.
Châu_Âu và Nga hợp_tác chinh_phục sao Hỏa
Các quốc_gia thành_viên của Cơ_quan vũ_trụ châu Âu ( ESA ) đã thông_qua thỏa_thuận coi Nga là một
đối_tác quan_trọng trong sứ_mệnh thám_hiểm sao Hỏa vào năm 2016 và 2018 .

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Tìm hiểu một vài phương pháp tách từ trong văn bản tiếng việt - Pdf 26

Tài liệu, ebook tham khảo khác

Học thêm