báo cao xư lý ngôn ngữ tự nhiên gán nhãn từ loại tiếng anh - Pdf 23

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NÔI
VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
BỘ MÔN HỆ THỐNG THÔNG TIN
BÀI TẬP LỚN
XỬ LÝ NGÔN NGỮ TỰ NHIÊN
ĐỀ TÀI:
Gán nhãn từ loại Tiếng Anh
Giáo viên hướng dẫn :
PGS.Lê Thanh Hương
Sinh viên thực hiện:
1.Lê Xuân Tùng 20083004
2.Nguyễn Hán Luân 20081642
3.Ngô Quang Vịnh 20083571
4.Lương Thành Công 20080314
5.Đỗ Duy Quang 20082051
Lớp : HTTT-K53
Hà Nội,tháng 4 năm 2012
1
MỤC LỤC
Gán nhãn từ loại Tiếng Anh Trang 2
NỘI DUNG
I.KHÁI QUÁT VỀ BÀI TOÁN GÁN NHÃN TỪ LOẠI.
1. Khái niệm về gán nhãn từ loại.
Gán nhãn từ loại là một vấn đề rất quan trọng trong lĩnh vực xử lý ngôn ngữ
tự nhiên, đây là bước tiền xử lý của nhiều bài toán và một số hệ thống thông minh
khác. Mỗi từ trong một ngôn ngữ nói chung đôi khi có thể gắn với nhiều từ loại và
việc giải thích đúng nghĩa một từ phụ thuộc vào việc nó có được xác định đúng từ
loại hay không dựa trên ngữ cảnh cho trước. Công việc gán nhãn từ loại cho một
văn bản là xác định từ loại của mỗi từ trong phạm vi văn bản đó, tức là phân loại
các từ thành các lớp từ loại dựa trên thực tiễn hoạt động ngôn ngữ. Việc gán nhãn
từ loại thường được thể hiện bằng cách gán cho mỗi từ một “nhãn” có sẵn theo tập

2. Ứng dụng của bài toán gán nhãn từ loại.
Gán nhãn từ loại là một công việc quan trọng và bắt buộc phải có đối với
hầu hết các ứng dụng xử lý ngôn ngữ tự nhiên. Nếu coi quá trình xử lý ngôn ngữ tự
nhiên gồm các bước: Tiền xử lý văn bản, phân tích hình thái, phân tích cú pháp và
phân tích ngữ nghĩa thì gán nhãn từ loại thuộc vào bước phân tích hình thái. Bước
này có nhiệm vụ phân tích câu thành một bảng các từ (hay cụm từ) riêng biệt, đồng
thời kèm theo tất cả các thông tin về từ đó, như là: Từ loại (part-of-speech), phạm
trù ngữ pháp (category), các biến cách của từ, tiền tố, hậu tố của từ.
Một số ứng dụng quan trọng của gán nhãn từ loại:
+ Thành công của việc gán nhãn từ loại tiếng Việt sẽ là cơ sở cho việc giải
quyết các bài toán xử lý ngôn ngữ tự nhiên khác như tóm tắt văn bản, phân cụm,
phân loại văn bản …
+ Khi hệ thống văn bản đã được gán nhãn, hay nói cách khác là đã được chú
thích từ loại thì nó sẽ được ứng dụng rộng rãi trong các hệ thống tìm kiếm thông
tin, trong các ứng dụng tổng hợp tiếng nói, các hệ thống nhận dạng tiếng nói cũng
như trong các hệ thống dịch máy …
+ Một trong những ứng dụng thường được nhắc đến nhiều nhất của gán nhãn
từ loại là trong hệ thống dịch máy. Có ba cách để thực hiện bài toán dịch máy là:
dịch trực tiếp, dịch thông qua ngôn ngữ trung gian và dịch dựa trên chuyển đổi.
Trong đó phương pháp dịch dựa trên chuyển đổi tỏ ra là có hiệu quả nhất. Nếu cây
cú pháp bị gán nhãn từ loại sai dẫn đến cây cú pháp của câu cũng bị sai. Giả sử như
hệ thống tiến hành dịch câu sau đây từ tiếng Anh sang tiếng Việt: “Jet planes fly
about nine miles high”, nếu không có sự trợ giúp của công cụ gán nhãn từ loại, hệ
thống dịch máy chỉ dịch từ từ sang từ thì ta sẽ có được kết quả tiếng Việt là “Phản
lực các phi cơ bay khoảng chín dặm cao”
Jet planes fly about nine miles high.

Gán nhãn từ loại Tiếng Anh Trang 4

Phản lực các phi cơ bay khoảng chín dặm cao.

các lớp này thường chỉ chứa một số lượng ít các từ có liên quan. Ví dụ: Giới từ,
mạo từ, đại từ, số đếm ) và các lớp từ mở ( Open class, là các lớp từ có khả năng
mở rộng bằng cách tạo thêm từ mới hoặc “mượn” từ các ngôn ngữ khác. )
Các lớp từ đóng gồm có:
+ Giới từ (Prepositions): on, under, over,…
+ Tiểu từ (Particles): abroad, about, around, before, in, instead, since, without,…
+ Mạo từ (Articles): a, an, the
+ Liên từ (Conjunctions): and, or, but, that,…
+ Đại từ (Pronouns): you, me, I, your, what, who,…
+ Trợ động từ (Auxiliary verbs): can, will, may, should…
Gán nhãn từ loại Tiếng Anh Trang 6
Lớp từ mở trong Tiếng Anh:
Proper noun: IBM, Colorado…
Noun Common noun Count nouns : book, cat…
Mass noun: snow, sand
Verb Auxiliaries: go, run, eat…

Adjectives Color: red, green, blue…
Age: old, young…
Openclass Value: good, bad…
Locatives adverbs: home, here…
Adverb Degree adverbs: extremely, very…
Manner adverbs: slowly, delicately…
Temporal adverbs: yesterday, Monday…
Đối với tiếng Anh thì hiện nay đã có rất nhiều tập từ loại khác nhau được
xây dựng:

Gán nhãn từ loại Tiếng Anh Trang 7
Một số tập nhãn từ loại cho tiếng Anh.
Có thể kể đến một số tập từ nhãn điển hình như:

PDT Predeterminer “ Left quote
POS Possessive ending ” Right quote
PP Personal pronoun ( Left parenthesis
PP$ Possessive pronoun ) Right parenthesis
RB Adverb , Comma
Gán nhãn từ loại Tiếng Anh Trang 8
RBR Adverb, comparative . Sentence-final punc
RBS Adverb, superlative : Mid-sentence punc
Bảng Penn Treebank.
Ví dụ:
The grand jury commented on a number of other topics.
=> The/DT grand/JJ jury/NN commented/VBD on/IN a/DT number/NN
of/IN other/JJ topics/NNS ./.
2.Học máy và xử lý ngôn ngữ tự nhiên.
Các phương pháp máy học được áp dụng trong lĩnh vực xử lý ngôn
ngữ tự nhiên được phân loại như sau:
+ Hướng tiếp cận theo thống kê (stochastic approach).
+ Hướng tiếp cận theo biểu trưng ( symbolic approach ): học theo ví dụ ( instance –
based learning ), cây quyết định ( decision tree ), logic quy nạp ( inductive logic ),
phân tách tuyến tính theo ngưỡng ( threshold linear separator ) Trong các phương
pháp này, đáng chú ý nhất là phương pháp học dựa trên các luật chuyển đổi ( TBL
– Transformation Based Learning ). Phương pháp này cho phép đưa ra tập các
khung luậttổng quát có thể giải quyết các vấn đề nhậpnhằng tương tự nhau ( như
trong bài toán gán nhãn từ loại ).
+ Hướng tiếp cận theo biểu trưng thay thế (sybsymbolic approach): mạng nơ-ron
(neural network), thuật toán di tuyền (genetic algorithm)
Ở đây chúng ta tập trung vào hướng tiếp cận thống kê và mô hình Markov ẩn.
3.Hướng tiếp cận thống kê.
Hướng tiếp cận thống kê được xem là một hướng tiếp cận mô tả quá trình
thế giới thực tạo ra dữ liệu quan sát được. Các mô hình trong hướng tiếpcậnthống

Nhiều bài toán thực tế được biểu diễn dưới mối quan hệ nhân quả, nhưng chỉ quan
sát được phần quả còn phần nhân thì ẩn.
• HMM dùng để giải quyết các bài toán xác lập mối nhân quả cục bộ
(Fragmentation,Classification, Similarity Search).
Cơ chế của mô hình Markov ẩn là sử dụng tất cả những thông tin đã có và đoán.
Gán nhãn dựa trên xác suất theo mô hình Markov ẩn:
Gán nhãn từ loại Tiếng Anh Trang 10
Chọn thẻ từ loại làm tối đa xác suất.
P(từ|từ loại).P(từ loại| n từ loại phía trước)
Ví dụ:
The/DT grand/JJ jury/NN commented/VBD on/IN a/DT number/NN of/IN
other/NNS
 P(jury|NN)=1/2
Công thức Bigram HMM: chọn t cho w có nhiều khả năng nhất khi biết t
i
và w
i
:
t
i
= argmax
j
P(t
j
|t
i-1
,w
i
)
Giả thiết đơn giản hóa HMM: Vấn đề có thể giải quyết bằng cách dựa trên các từ

7) Ot= (ký hiệu) Quan sát tại thời điểm t.
Cho các giá trị N, M, A, B và π thích hợp, mô hình HMM sẽ cho ra một chuỗi quan
sát như sau:
O = O1 O2 … OT
(Trong đó, mỗi giá trị Ot là một trong số các symbol của tập các ký hiệu quan sát
được V và T là số lượng chuỗi quan sát.)
- Chọn trạng thái khởi đầu là q1 = S1 tuỳ thuộc vào xác xuất khởi trạng π.
- Cho t = 1
- Chọn Ot = Vk theo xác suất nhả ký tự bi(k) của tập các trạng thái ẩn Si
Gán nhãn từ loại Tiếng Anh Trang 11
- Và chuyển sang trạng thái mới qt+1 = Sj tuỳ theo xác suất chuyển trạng aij của
tập các trạng thái ẩn.
- Thiết lập t = t +1 và sau đó quay lại thực hiện lần lược như bước (3). Nếu t < T thì
kết thúc thuật toán.
.Ứng dụng của mô hình Markov ẩn: Mô hình này được ứng dụng nhiều trong các
lĩnh vực như:
• Nhận dạng tiếng nói.
• Nhận dạng chữ viết tay.
• Xử lý ngôn ngữ thống kê.
• Dịch máy.
• Tin sinh học:
– Khớp xấp xỉ nhiều chuỗi.
– Tìm Motif.
_Tìm kiếm tương tự.
Thuộc tính Markov
Một dãy trạng thái ngẫu nhiên gọi là có thuộc tính Markov nếu như xác suất
chuyển sang trạng thái tiếp theo chỉ phụ thuộc vào trạng thái hiện tại và quá khứ.
– Dãy chuyển trạng quan sát được → Xích Markov.
– Dãy chuyển trạng không quan sát được → Mô hình Markov ẩn.
Mô hình Markov ẩn – HMM

Vieterbi.
• Cung cấp dãy đầu ra, tìm tập hợp có khả năng nhất của chuyển tiếp trạng
thái và các xác suất đầu ra. Giải bằng thuật toán Balum Welch.
Ví dụ cụ thể
• Giả sử tôi có một người bạn sống ở rất xa. Hàng ngày chúng tôi gọi điện
thoại cho nhau và anh ta kể cho tôi nghe anh ta đã làm gì trong ngày. Người
bạn tôi chỉ có 3 công việc mà anh thích làm là 1) đi dạo, 2) đi chợ và 3) dọn
phòng. Hiển nhiên là sự lựa chọn phải làm gì thì phụ thuộc trực tiếp vào thời
tiết hôm đấy thế nào. Như vậy, tôi không nhận được thông tin cụ thể về thời
tiết nơi anh bạn tôi sống nhưng tôi lại biết về xu hướng chung. Dựa vào lời
kể của công việc hàng ngày của anh ta, tôi có thể đoán về thời tiết hôm đó.
• Như vậy, thời tiết được vận hành như một chuỗi Markov cụ thể. Có 2 trạng
thái thời tiết, "Mưa" và "Nắng", nhưng tôi không quan sát trực tiếp, do đó,
chúng là ẩn đối với tôi. Vào mỗi ngày, anh bạn tôi sẽ làm một trong các việc
sau phụ thuộc vào thời tiết hôm đó là "đi dạo", "đi chợ" và "dọn phòng". Vì
anh bạn tôi đã tường thuật lại hoạt động của mình, đó là các dữ liệu quan
sát. Toàn bộ hệ thống này là một mô hình Markov ẩn (HMM).
Trong đoạn câu lệnh trên, khả_năng_ban_đầu cho thấy tôi không chắc về trạng thái
HMM khi người bạn đầu tiên gọi điện cho tôi (tất cả cái tôi biết là trời có vẻ mưa).
khả_năng_chuyển_dịch cho thấy những thay đổi về thời tiết trong chuỗi Markov.
Trong ví dụ này, chỉ có 30% khả năng ngày mai trời sẽ nắng nếu hôm nay trời
mưa. Khả_năng_loại_bỏ cho thấy anh bạn thích làm những việc gì mỗi ngày. Nếu
Gán nhãn từ loại Tiếng Anh Trang 14
trời mưa thì có đến 50% khả năng anh bạn này sẽ dọn phòng, trong khi trời nắng
thì 60% khả năng anh ta sẽ đi dạo.
Ví dụ này được xem xét tỉ mỉ hơn trong trang Viterbi
Các ứng dụng
• Sự nhận biết lời nói hay ký tự quan học.
• Quy trình ngôn ngữ tự nhiên.
• Tin sinh học và hệ gen học.


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status