giới thiệu tổng quan về xử lý ngôn ngữ tự nhiên - Pdf 23

Giảng viên:
Hoàng Anh Việt

2011
Nội dung chương 01
17/10/14
2

Tổng quan

Các hướng nghiên cứu trong XLNN

Những khó khăn trong XLNN

Các ứng dụng cụ thể
Tổng quan
17/10/14
3
Máy tính trung tâm- Trí tuệ
ảo
17/10/14
4
Ngôn ngữ tự nhiên

Ngôn ngữ dùng giao tiếp hằng ngày
17/10/14
5
C++, java, c#?
Xử lý ngôn ngữ tự nhiên
(NLP)


Yahoo, Google, AltaVista ($100-$1,000) mil./yr.


Information Retrieval

Monster.com, HotJobs.com (Job finders) – a market
expected to reach $4,5 billions in 2004

Information
Extraction + Information Retrieval

Systran powers Babelfish AltaVista, (€ 24 mil./yr.)


Machine Translation

Ask Jeeves ($60 mil./yr.)

Question Answering

Nghiên cứu

Các tập đoàn, công ty lớn có phòng thí nghiệm NLP:

IBM, Microsoft, AT&T, Xerox, Sun, etc.

Phòng nghiên cứu, nhóm nghiên cứu tại các trường đại học.
17/10/14
8
Thế giới thương mại


Các mức phân tích

Các bài toán con

Các thuật toán và cách tiếp cận
17/10/14
14
Các chủ đề nghiên cứu

Các Ứng dụng:

Phân loại văn bản (Classify text into categories)

Đánh chỉ số và tìm kiếm (Index and search large texts)

Dịch tự động (Automatic translation)

Hiểu tiếng nói (Speech understanding):

Hiểu nội dung hội thoại qua điện thoại.

Khai phá thông tin (Information extraction)

Trích rút các thông tin quan trọng

Tóm tắt văn bản (Automatic summarization)

Cô đọng 1 quyển sách trên một trang giấy


Generation
Các chủ đề nghiên cứu

Các bài toán con:

Tách từ

Gán nhãn từ loại

Phân cụm từ

Phân tích cú pháp

Phân giải nhập nhằng

Phân tích ngữ nghĩa

Phân tích thực nghĩa



Các thuật toán và phương pháp tiếp cận:

Dựa từ điển, tập ngữ liệu (corpus)

Dựa trên tri thức

Thống kê

Học máy




  !"#

$! $%&

!!'
(!)(%
**
#
!
!+
!, 

! 
-.
-.
/012&3
/012&3


 4
 4
#5#5$6$0%&/#0
%!6$7
%!6$7
%&$&2
8-+  
9: *;<=>?@

+"D
4BC+" 
+"D
('! .
('! .
E8FG / 
E8FG / 
/",+"E8F
/",+"E8F
'H:D
'H:D
<>?@4#
,D
<>?@4#
,D
IJ@@K!
IJ@@K!
NLP thực sự khó?

Máy tính thiếu:

Tri thức

Khả năng suy luận

Kinh nghiệm

Những thực tế khó khăn tại Việt Nam:

Bản thân ngôn ngữ: nhiều NHẬP NHẰNG


Tiếng Việt: Không biến hình và đa âm tiết

Việt Nam, Lập trình, => khó xác định đâu là một từ
17/10/14
22
Tách từ

Tách từ là một quá trình xử lý nhằm mục đích
xác định ranh giới của các từ trong câu văn

Là đầu vào cho các bài toán xử lý khác trong hệ
thống XLNNTN

Tiếng Trung Quốc, Nhật, Thái, Việt Nam

Ví dụ:

Con ngựa đá con ngựa đá

Con ngựa | đá | con ngựa | đá

Con ngựa đá | con ngựa đá|

Con ngựa đá | con ngựa | đá


17/10/14
23
N

Tiếp cận dựa vào từ điển cố định

Tiếp cận dựa vào thống kê thuần túy

Tiếp cận dựa trên cả hai phương pháp trên
17/10/14
24
N
h

p

n
h

n
g

đ
a

n
g
h
ĩ
a
Tách từ (tiếp)

Các phương pháp tách từ:


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status