Giảng viên:
Hoàng Anh Việt
2011
Nội dung chương 01
17/10/14
2
Tổng quan
Các hướng nghiên cứu trong XLNN
Những khó khăn trong XLNN
Các ứng dụng cụ thể
Tổng quan
17/10/14
3
Máy tính trung tâm- Trí tuệ
ảo
17/10/14
4
Ngôn ngữ tự nhiên
Ngôn ngữ dùng giao tiếp hằng ngày
17/10/14
5
C++, java, c#?
Xử lý ngôn ngữ tự nhiên
(NLP)
Yahoo, Google, AltaVista ($100-$1,000) mil./yr.
Information Retrieval
Monster.com, HotJobs.com (Job finders) – a market
expected to reach $4,5 billions in 2004
Information
Extraction + Information Retrieval
Systran powers Babelfish AltaVista, (€ 24 mil./yr.)
Machine Translation
Ask Jeeves ($60 mil./yr.)
Question Answering
Nghiên cứu
Các tập đoàn, công ty lớn có phòng thí nghiệm NLP:
IBM, Microsoft, AT&T, Xerox, Sun, etc.
Phòng nghiên cứu, nhóm nghiên cứu tại các trường đại học.
17/10/14
8
Thế giới thương mại
Các mức phân tích
Các bài toán con
Các thuật toán và cách tiếp cận
17/10/14
14
Các chủ đề nghiên cứu
Các Ứng dụng:
Phân loại văn bản (Classify text into categories)
Đánh chỉ số và tìm kiếm (Index and search large texts)
Dịch tự động (Automatic translation)
Hiểu tiếng nói (Speech understanding):
Hiểu nội dung hội thoại qua điện thoại.
Khai phá thông tin (Information extraction)
Trích rút các thông tin quan trọng
Tóm tắt văn bản (Automatic summarization)
Cô đọng 1 quyển sách trên một trang giấy
Generation
Các chủ đề nghiên cứu
Các bài toán con:
Tách từ
Gán nhãn từ loại
Phân cụm từ
Phân tích cú pháp
Phân giải nhập nhằng
Phân tích ngữ nghĩa
Phân tích thực nghĩa
…
Các thuật toán và phương pháp tiếp cận:
Dựa từ điển, tập ngữ liệu (corpus)
Dựa trên tri thức
Thống kê
Học máy
!"#
$! $%&
!!'
(!)(%
**
#
!
!+
!,
!
-.
-.
/012&3
/012&3
✓
✗
4
4
#5#5$6$0%&/#0
%!6$7
%!6$7
%&$&2
8-+
9: *;<=>?@
+"D
4BC+"
+"D
('! .
('! .
E8FG /
E8FG /
/",+"E8F
/",+"E8F
'H:D
'H:D
<>?@4#
,D
<>?@4#
,D
IJ@@K!
IJ@@K!
NLP thực sự khó?
Máy tính thiếu:
Tri thức
Khả năng suy luận
Kinh nghiệm
Những thực tế khó khăn tại Việt Nam:
Bản thân ngôn ngữ: nhiều NHẬP NHẰNG
Tiếng Việt: Không biến hình và đa âm tiết
Việt Nam, Lập trình, => khó xác định đâu là một từ
17/10/14
22
Tách từ
Tách từ là một quá trình xử lý nhằm mục đích
xác định ranh giới của các từ trong câu văn
Là đầu vào cho các bài toán xử lý khác trong hệ
thống XLNNTN
Tiếng Trung Quốc, Nhật, Thái, Việt Nam
Ví dụ:
Con ngựa đá con ngựa đá
Con ngựa | đá | con ngựa | đá
Con ngựa đá | con ngựa đá|
Con ngựa đá | con ngựa | đá
17/10/14
23
N
Tiếp cận dựa vào từ điển cố định
Tiếp cận dựa vào thống kê thuần túy
Tiếp cận dựa trên cả hai phương pháp trên
17/10/14
24
N
h
ậ
p
n
h
ằ
n
g
đ
a
n
g
h
ĩ
a
Tách từ (tiếp)
Các phương pháp tách từ: