Đại học Quốc gia Hà Nội
Khoa Công nghệ thông tin
BÁO CÁO ĐỀ TÀI
SINH NGÔN NGỮ TỰ NHIÊN
GVHD: tiến sĩ Lê Anh Cường
BÁO CÁO
SINH NGÔN NGỮ TỰ NHIÊN
Nhóm 8:
Nguyễn Trung Hiếu
Trương Quý Quỳnh
Hoàng Đình Tiến
Giảng viên: Lê Anh Cường
LỜI MỞ ĐẦU
Trong những năm gần đây, công nghệ thông tin phát triển như vũ bão, đóng vai trò
ngày càng quan trọng trong đời sống xã hội.Trí tuệ nhân tạo và đặc biệt là xử lý
ngôn ngữ tự nhiên được nghiên cứu rộng rãi mang lại nhiều ứng dụng quan trọng
trong đời sống. Trong đó sinh ngôn ngữ tự nhiên là một lĩnh vực nổi bật có khả
năng tạo ra những hệ thống đáp ứng người sử dụng như chính ngôn ngữ con người
nó ra. Chính vì những lợi ích to lớn mà nó mang lại, trong bài tập lớn môn xử lý
ngôn ngữ tự nhiên, nhóm 8 đã chọn chủ đề này nhằm làm rõ những kiến thức cơ
bản để xây dựng một hệ thống sinh ngôn ngữ tự nhiên và sử dụng những kiến thức
đã đạt được để xây dựng một chương trình sinh ngôn ngữ tự nhiên về tổng kết và
đánh giá của những người sử dụng điện thoại.
Nhóm 8 xin gửi lời cảm ơn chân thành nhất tới thầy giáo – tiến sĩ Lê Anh Cường,
thầy là giảng viên môn Xử lý ngôn ngữ tự nhiên , Khoa Công nghệ thông tin – Đại
học Công nghệ - Đại học Quốc gia Hà Nội. Trong suốt quá trình thực hiện bài tập
lớn này, thầy đã có những chỉ dẫn tận tình, hết lòng chỉ bảo để cả nhóm có thể
hoàn thành được bài tập lớn này.
một lĩnh vực con của trí tuệ nhân tạo và ngôn ngữ học máy tính liên quan tới việc
xây dựng một hệ thống máy tính có thể sản sinh ra văn bản bằng tiếng Anh hoặc
những ngôn ngữ loài người khác từ những biểu diễn phi ngữ nghĩa của thông tin.
Mục tiêu của hệ thống sinh ngôn ngữ tự nhiên là tạo ra các văn bản có thể
hiểu được bằng ngôn ngữ loài người bởi vậy, nó cần nguồn tri thức từ loại ngôn
ngữ mà hệ thống sử dụng cũng như những kiến thức thuộc lĩnh vực mà hệ thống sẽ
sản sinh. Đầu vào của hệ thống sinh ngôn ngữ tự nhiên là các dạng phi ngữ nghĩa
của thông tin: mẩu tin, bảng biểu, số liệu. Đầu ra là những câu, văn bản có ý nghĩa
nhất định bằng ngôn ngữ con người, chứa thông tin ở đầu vào.
1.2. Ứng dụng
Sinh ngôn ngữ tự nhiên cần thiết trong các hệ thống tương tác người máy, một vài
ứng dụng quan trọng có thể kể đến:
- Ứng dụng sinh ra tài liệu tự động. Ví dụ: dự báo thời tiết, báo cáo mô phỏng,
thư tín,
- Ứng dụng biểu diễn thông tin tới người dùng bằng cách có thể hiểu được. Ví
dụ: bản ghi y khoa, lập luận hệ thống chuyên gia….
- Ứng dụng giảng dạy. Ví dụ: hệ thống cung cấp thông tin cho sinh viên.
- Ứng dụng giải trí. Ví dụ: truyện cười, thơ văn,…
Chương II: Cấu trúc hệ thống sinh ngôn ngữ tự
nhiên
2. Cấu trúc của một hệ thống sinh ngôn ngữ tự nhiên
Mô hình cấu trúc của một hệ thống sinh ngôn ngữ tự nhiên
Ba giai đoạn cần tiến hành trong hệ thống sinh ngôn ngữ tự nhiên là “Document
Plan”, “Micro plan” và “Surface realisation”.
- Quyết định nội dung
- Cấu trúc văn bản
- Tập hợp câu
- Từ vựng hóa
- Sinh từ/cụm từ quy chiếu
- Thể hiện ngôn ngữ.
2.1.1.3. Input và Output của document planning
- Input:
Bao gồm 4 thành phần chính cho đầu vào của một hệ thống sinh văn bản
như sau:
+ Nguồn tri thức: Có thể là cơ sở dữ liệu trong phạm vi đang nghiên cứu hoặc
cơ sở tri thức.
+ Mục tiêu xác định: Cần chỉ rõ mục đích của những văn bản được sinh ra.
Mục tiêu có thể rất đa dạng ví dụ như: Tổng hợp, so sánh, bổ sung, …
+ Mô hình người dùng: Cần phải xác định rõ đối tượng nào sẽ đọc văn bản
được sinh ra bởi hệ thống. Mỗi kiểu người dùng với những khác biệt về kiến
thức, trình độ, học vấn, nghề nghiệp sẽ có những cách tiếp thu khác nhau.
+ Lịch sử diễn ngôn: Hệ thống cần thông tin về tương tác với người dùng ở
thời điểm trước đó. Sử dụng ở Referring expression của giai đoạn “Micro
Planning”.
- Output:
Giai đoạn “Document Planning” tạo ra các “Document Plan” được biểu diễn
dưới dạng cây nhị phân với các nút lá biểu diễn các thông điệpvà giữa hai lá
là thông tin biểu diễn mối quan hệ giữa hai nút lá tức là chỉ rõ rằng hai thông
điệp bên trái và bên phải được liên kết với nhau như thế nào. Thông tin biểu
diễn mối quan hệ này được gọi là quan hệ diễn ngôn (Discourse Relation).
Ví dụ cây biểu diễn cấu trúc diễn ngôn:
2.1.2. Biểu diễn thông tin
2.1.2.1. Mô hình biểu diễn thông tin
Mô hình gồm có 4 thành phần sau:
- Thực thể (Entities)
- Thuộc tính (Attributes):
- Quan hệ (Relationships):
- Lớp (Classes):
2.1.2.2. Định nghĩa các thông điệp
Công việc ở đây là cần xây dựng nên những thông điệp từ những dữ liệu thô ban
lấy được từ bước trên thành thông tin cần quan tâm.
- Suy luận dữ liệu: Hai bước phía trên chỉ là trường hợp riêng của phần này.
Tổng hợp dữ liệu, chọn lọc là những dữ liệu cần thiết, có quan hệ nhất định
để sử dụng.
- Tùy biến văn bản theo từng loại đối tượng: Với mỗi loại người dùng khác
nhau thì sẽ tùy biến văn bản sinh ra cho phù hợp về cả nội dung và hình thức
2.1.2.5. Thu thập các luật để quyết định nội dung
Mục đích của các hệ thống sinh văn bản là sinh ra được văn bản ngày càng giống
với văn bản do chính con người viết ra, cho dù bằng cách nào cũng cần thu thập tri
thức từ các chuyên gia để có được tập “target text corpus” đem phân tích. Chúng ta
sẽ sử dụng chính tập “corpus” này để xây dựng nên một tập các luật chỉ định rằng
một thông điệp nào đó thì nên xuất hiện trong một kiểu văn bản như nào.
2.1.3. Cấu trúc văn bản từ các thông điệp
Công việc của phần “Cấu trúc văn bản” là sinh ra một cây với các nút lá các thông
điệp còn ở giữa 2 lá trái phải có cùng gốc là nút giữa mang thông tin giải thích:
- Cách liên kết giữa các thông điệp với nhau.
- Thứ tự sắp xếp của các thông điệp hoặc các nhóm thông điệp trong văn bản.
- Vị trí tương ứng của thông điệp hoặc nhóm thông điệp trong từng phần của
đoạn văn
- Mối quan hệ diễn ngôn giữa các thông điệp hoặc nhóm thông điệp.
2.1.3.1. Quan hệ diễn ngôn (Discourse Relation)
Quan hệ diễn ngôn xác định mối quan hệ liên kết giữa các thông điệp hoặc nhóm
thông điệp với nhau. Chung quy trong các văn bản, có 4 kiểu quan hệ diễn ngôn
chính là :
- Cụ thể hóa vấn đề (Elaboration)
- Dẫn chứng vấn đề (Exemlification)
- Đối lập (Contrast):
- Chuỗi tường thuật (Narrative Sequence)
2.1.3.2. Tiếp cận giản đồ (Schema)
Có thể mô tả câu bằng cách sử dụng các giản đồ - Schema, trong đó các giản đồ có
Referring Expression Generation
2.2.1. Từ vựng hóa:
- Từ vựng hóa là quá trình lựa chọn những cấu trúc từ, cú pháp để biểu diễn
thông tin từ các “Document Plan”, ánh xạ các thông điệp thành các từ ngữ
có ý nghĩa với người sử dụng.
- Như đã nói ở trên, ta sẽ sử dụng các template dựng sẵn cho mỗi đặc tả cụm
nguyên thủy rồi áp thông tin từ các thông điệp vào mẫu này. Ví dụ về một
đặc tả cụm nguyên thủy được tạo ra từ template:
- Một vấn đề với công đoạn này đó là lựa chọn từ ngữ thế nào cho phù hợp.
Một số cơ chế để lựa chọn từ ngữ bao gồm cây quyết định (decision trees),
đồ thị chuyển đổi (graph-rewriting), mạng phân tách (discrimination nets),
mạng hệ thống (systemic networks),
- Một cơ chế thường được sử dụng đó là cây quyết định. Cây quyết định dùng
để đặt ra các luật đơn giản nhằm đa dạng hóa cách biểu diễn từ ngữ phụ
thuộc vào các yếu tố ngữ cảnh. Đây là một ví dụ cho trường hợp sử dụng cây
quyết định cho thủ tục từ vựng hóa:
2.2.2. Ghép câu (Sentence Aggregation)
- Ghép câu là quá trình tổ chức các đặc tả cụm thành các câu hoặc văn bản
phức tạp, mạch lạc hơn. Quá trình này có thể bao gồm việc nối câu và
quyết định thứ tự các câu.
- Sau đây là một số hướng tiếp cận với quá trình ghép câu:
+ Liên từ đơn giản (Simple conjunction): Là những liên từ như “và”,
“nhưng”, biểu diễn mối quan hệ diễn ngôn giữa 2 hoặc nhiều câu
và dùng để ghép những câu này lại thành một câu duy nhất.
Sử dụng dạng ghép câu này không làm thay đổi cấu trúc cú pháp
cũng như nội dung của từng thành phần thông tin được ghép lại.
Sau đây là một ví dụ về kiểu ghép câu này, có thể thấy cấu trúc của
các đặc tả cụm nguyên thủy không đổi:
+ Liên từ qua các thành phần chung: Khi 2 hoặc nhiều thành phần
thông tin cùng có chung một từ/cụm từ với nội dung như nhau và ở
Các vấn đề của quy chiếu đại từ : bỏ phí đại từ - không sử dụng
các đại từ được phép, hoặc đại từ không phù hợp –sử dụng đại
từ tham chiếu không rõ ràng.
- Thuật toán trên được sử dụng để duyệt toàn bộ mô hình diễn
ngôn, không cho phép tham chiếu đến các thực thể có thể gây
nhập nhằng.
+ Quy chiếu kéo theo : Sử dụng trong trường hợp có nhiều thực thể
được nhắc tới trước đó và dễ gây nhập nhằng. Chúng ta sẽ sử dụng
miêu tả phân biệt để có thể phân biệt được với các thực thể khác nằm
trong mô hình diễn ngôn.
2.3. Trình bày văn bản (Surface Realisation) :
- Khi nói tới quá trình xử lý “text specification” thì người ta thường nghĩ tới 2
hướng xử lý không liên quan tới nhau. Thứ nhất được gọi là “Structure
Realisation”. Thứ hai được gọi là “Linguistic Realisation”. “Structure
Realisation” sẽ thể hiện ngôn ngữ trong các kiểu được quy định nào đó để còn
thông qua một hệ thống xử lý. Còn đối với “Linguistic Realisation” thì sẽ thể
hiện ra ngôn ngữ cuối cùng tới người dùng.
- “Structrure realisation ” thực chất không nằm trong lĩnh vực NLG. Trong
chương này, ta đi xem xét quá trình “Linguistic Realisation”.
- Người ta đã xây dựng một số các hệ thống phần mềm chuyên thực hiện công
việc của quá trình “Linguistic Realisation”. Các hệ thống này rất đa dạng về
input (phrase specification) và cách thực hiện công việc. Như vậy, chúng ta –
những người đang nghiên cứu và phát triển các hệ thống NLG sẽ không cần
phải hiểu quá sâu về bản chất bên trong của quá trình “Linguistic
Realisation”. Những gì chúng ta cần hiểu là những phần mềm như thế làm
những công việc gì, làm như thế nào và có yêu cầu gì để có thể áp dụng vào
hệ thống của chúng ta.
- Đối với mỗi một kiểu biểu diễn đặc tả cụm khác nhau thì ứng với mỗi đầu vào
của hệ thống trình bày văn bản chuyên biệt. Chẳng hạn hệ thống RealPro sẽ
sử dụng cấu trúc cú pháp trừu tượng làm đầu vào. Kiến trúc của hệ thống
• Các câu sinh ra chưa thực sự mềm dẻo.
3.3. Thu thập tập văn bản đích:
Tập văn bản đích bao gồm một số câu ví dụ như sau: