SINH câu MIÊU tả CHO HÌNH ẢNH sử DỤNG mô HÌNH NGÔN NGỮ - Pdf 34

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
-----*-----

ĐÀO BẢO LINH

SINH CÂU MIÊU TẢ CHO HÌNH ẢNH SỬ DỤNG
MÔ HÌNH NGÔN NGỮ

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2015

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
-----*-----

ĐÀO BẢO LINH

SINH CÂU MIÊU TẢ CHO HÌNH ẢNH SỬ DỤNG
MÔ HÌNH NGÔN NGỮ

Ngành: Công Nghệ Thông Tin
Chuyên ngành: Kỹ Thuật Phần Mềm
Mã số: 60.48.01.03

LUẬN VĂN THẠC SĨ
CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS LÊ ANH CƯỜNG

LỜI CẢM ƠN
Trước tiên, tôi xin gửi lời cảm ơn tới thầy giáo hướng dẫn, PGS. TS Lê
Anh Cường (University of Enginerring and Technology) người đã trực tiếp
hướng dẫn và tạo điều kiện tốt nhất để tôi hoàn thành luận văn này.
Tôi cũng xin gửi lời cảm ơn tới PGS.TS Yusuke Miyao (National Institute
of Informatics), người đã hướng dẫn và tạo điều kiện cho tôi trong quá trình
nghiên cứu đề tài tại Nhật Bản.
Tôi cũng xin gửi lời cảm ơn chân thành tới các thầy cô giáo trường Đại
học Công Nghệ, những người đã trực tiếp giảng dạy, hướng dẫn và tạo điều kiện
cho tôi trong quá trình học tập và thực hành ở trường.
Cuối cùng, tôi xin gửi lời cảm ơn tới tất cả các bạn học và gia đình đã ủng
hộ, giúp đỡ tôi trong suốt quá trình tôi thực hiện luận văn này.

Hà Nội, ngày 8 tháng 9 năm 2015
Học viên

Đào Bảo Linh

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn với đề tài “Sinh câu miêu tả cho hình ảnh sử
dụng mô hình ngôn ngữ” là công trình nghiên cứu của riêng tôi. Các số liệu, kết
quả được trình bày trong luận văn là hoàn toàn trung thực và chưa từng được
công bố trong bất kỳ một công trình nào khác.
Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên
quan ở trong nước và quốc tế.
Trong các nội dung được trình bày trong luận văn, tôi đã thể hiện rõ ràng
và chính xác những gì do tôi đóng góp.

Natural Language
Processing

Xử lý ngôn ngữ tự nhiên

CNN

Convolutional Neural
Network-CNN

Mạng nơ-ron nhân chập

OWs

Other words

Các từ khác

BFS

Best-first search

7

Tìm kiếm theo lựa chọn tối
ưu

Thuật ngữ sử dụng

Văn bản miêu tả

Corpus

Tập văn bản

Annotation

Chú thích

Perplexity

Độ hỗn loạn thông tin

8

Danh mục bảng biểu
Bảng 2.2-1. Ước lượng xác suất của từ xuất hiện sau cụm từ tương ứng trong tập
văn bản.

9

Danh sách hình vẽ

10

MỞ ĐẦU

12

Chương 1. MÔ TẢ BÀI TOÁN
1.1. Bài toán và Ý nghĩa
Nhận dạng đối tượng trong ảnh là bài toán khá quen thuộc với hầu hết
những người làm nghiên cứu trong lĩnh vực khoa học máy tính nói chung, hay
thị giác máy nói riêng, có rất nhiều phương pháp với các mục đích khác nhau đã
được đề xuất nhằm nhận dạng khuân mặt, nhận dạng vị trí, nhận dạng đối tượng,
trong đó nổi bật là các công trình nghiên cứu như: Pictorial structures Fishcher
and Elschlager 1973 IEEE ( hình 1-1a), Eigenfaces Turk and Pentland
1991b( hình 1-1b),
Real-time face detection Viola and Jones 2004,
Springer( hình 1-1c), Instance (known object) recognition Lowe 1999
IEEE( hình 1-1d), Feature-based recognition Fergus, Perona, and Zisserman
2007( hình 1-1e), Region-based recognition Mori, Ren, Efros et al 2004
IEEE( hình 1-1f), Simultaneous recognition and segmentation Shotton, Winn,
Rother et al 2009 Springer ( hình 1-1g), Location recognition Philbin, Chum,
Isard et al. 2007 IEEE( hình 1-1h), Using context Russell, Torralba, Liu et al.
2007( hình 1-1i).

13

Hình 1. Các nghiên cứu của thị giác máy liên quan tới vấn đề nhận dạng
đối tượng [17].

Những năm gần đây nhiều nghiên cứu trong khoa học máy tính đang có
những bước đột phá rõ rệt khi liên tục công bố các kết quả nghiên cứu về trí tuệ
nhân tạo, cho phép tạo ra những hệ thống Robot có khả năng thu nhận thông tin

thể, chúng ta có đầu vào nhiều hơn 2 từ, vì thế cho nên bài toán được nâng lên
thành tìm đường đi tối ưu qua nhiều đỉnh cho trước, chính vì thế việc tìm ra một
câu có ý nghĩa và tối ưu được về mặt thời gian và tài nguyên hệ thống là vấn đề
khó khăn có thể sẽ mất nhiều thời gian để có thể giải quyết được vấn đề này.
Đối với nghiên cứu khoa học, giải quyết bài toán này không chỉ có ý nghĩa
trong phạm vi sinh câu miêu tả hình ảnh mà còn có ý nghĩa khi nghiên cứu vấn
đề sinh câu miêu tả cho các đoạn phim ngắn bằng việc kết hợp hoặc xây dựng
mô hình phát hiện đối tượng trong các đoạn phim đó tại các thời điểm khác nhau
với kết quả nghiên cứu mà chúng tôi đã thực hiện. Đối với thực tiễn dựa trên
những nghiên cứu về sinh câu miêu tả cho hình ảnh, chúng ta có thể xây dựng
các hệ thống phục vụ cho đời sống con người như các hệ thống nhu có khả năng
thu nhận hình ảnh và đưa ra câu miêu tả dưới dạng văn bản hoặc dạng giọng nói,
như một người trợ lý. Mặt khác trong thời đại bùng nổ của internet những
nghiên cứu về sinh câu miêu tả cho hình ảnh cũng mở ra ý tưởng về hệ thống
cho phép tìm kiếm hình ảnh thông qua các miêu tả có hiệu quả cao hơn, ngay cả
đối với những hình ảnh có tên và mô tả mặc định hoặc không đúng với nội dung
hình ảnh, giúp cho người sử dụng internet dễ dàng tiếp cận với tài nguyên khi
cần thiết.

15

1.2. Các nghiên cứu liên quan
Nghiên cứu về sinh câu từ ảnh lần đầu tiên được nhóm tác giả B. Z. Yao, X.
Yang, L. Lin, M. W. Lee, and S.-C. Zhu đề xuất vào năm 2010. Ý tưởng của
nghiên cứu này là từ bức ảnh đầu vào, áp dụng kỹ thuật Image Parsing để phân
đoạn thành các đối tượng [5], mỗi đối tượng tiếp tục được phân chia thành nhiều
thành phần, sau đó từ các biểu diễn ngữ nghĩa (semantic representation) sinh câu
trong khi phải bảo đảm chính xác về mặt ngữ pháp.
Một nghiên cứu khác đã được công bố, thông qua một mô hình ngữ pháp

vào là một ảnh và đầu ra là các đối tượng/ nhãn để tập trung cho công đoạn 2,
nghiên cứu phương pháp sinh câu từ các nhãn vừa thu được. Sau đó ghép 2 công
đoạn lại sẽ là hệ thống tổng thể cho phép trả về kết quả là một câu tương ứng với
hình ảnh đầu vào.
Tuy nhiên do đặc thù của hệ thống khi cài đặt có sử dụng kết quả nghiên
cứu mô hình phát hiện đối tượng, cho nên trong luận văn chúng tôi sẽ trình bày
ở mức tìm hiểu, mục đích là để chúng ta có cái nhìn toàn diện hơn trên tổng thể
hệ thống.
Luận văn sẽ trình bày những nội dung sau: Khái niệm về tập văn bản, mô
hình ngôn ngữ và phương pháp đánh giá, sau đó là các thuật toán tìm kiếm đặc
trưng như thuật toán tìm kiếm theo chiều rộng, tìm kiếm theo chiều sâu và thuật
toán tìm kiếm theo lựa chọn tốt nhất. Ngoài ra, chúng tôi cũng trình bày mô hình
bài toán mà chúng tôi nghiên cứu, bao gồm: Giới thiệu tổng quan mô hình bài
toán, phương pháp phát hiện đối tượng trong ảnh, và phương pháp sinh câu miêu
tả cho hình ảnh. Chương cuối sẽ trình bày về thực nghiệm của chúng tôi trong
điều kiện cụ thể.

17

Chương 2. PHƯƠNG PHÁP
2.1. Tập văn bản
Để xây dựng được mô hình ngôn ngữ chúng ta cần có tập văn bản mẫu
huấn luyện. Cùng với từ điển, tập văn bản là những tài nguyên ngôn ngữ vô
cùng căn bản và cần thiết cho xử lý ngôn ngữ tự nhiên (Natural Language
Processing: NLP). Từ điển là tập hợp các tri thức về ngôn ngữ, cách sử dụng và
ý nghĩa của từng từ thì tập văn bản là dữ liệu về cách sử dụng, cách viết của từ
đó trong thực tế.
Trên quan điểm sử dụng trong mô hình ngôn ngữ, tập văn bản có thể chia
thành 2 loại chính : tập văn bản hẹp và tập văn bản rộng.

quan tâm và tính toán đến sự cân bằng (tính đại diện, phổ biến, đầy đủ) của tập
văn bản, và thứ hai là tập trung vào số lượng mà không quan tâm đến sự cân
bằng. Tuỳ theo 2 hướng xây dựng này mà các tập văn bản sẽ có cấu trúc và quá
trình xây dựng khác nhau.
Khi xây dựng các tập văn bản hẹp, thường trải qua các quá trình sau :
• Tính toán, thiết kế tập văn bản: Đây là quá trình quan trọng nhất
quyết định đặc điểm, tính chất của tập văn bản. Trước đó, ta phải
kiểm tra những điều sau : (a) mục đích sử dụng tập văn bản, (b) kích
thức tập văn bản hay số lượng ngôn ngữ, (c) các chủng loại văn bản
được chọn, (d) phương pháp phân tầng, phương pháp tính tỉ suất cấu
thành, (e) độ dài các văn bản sẽ lấy, (f) bản quyền tác giả, phương
pháp công khai, và nhiều yếu tố khác.
• Lấy mẫu (sampling): Từ tập hợp mẫu ta chọn ra lần lượt từng thành
phần (là các văn bản). Quá trình này phải tuân theo tỉ suất cấu thành
được thiết lập từ bước 1 để xác định độ dài văn bản, số lượng văn
bản ở mỗi tầng. Sau khi xác định được các yếu tố này, người ta
thường dùng phương pháp chọn ngẫu nhiên các mẫu để xây dựng các
tầng.

19

• Xây dựng hình thức (Formalization): Quá trình gắn thêm các tag cần
thiết cho các mẫu.
• Chú thích (annotation): Bổ xung thêm thông tin về hình thái, phân
tách từ, cấu trúc câu …
• Sửa, bổ xung thêm các văn bản, thông tin liên quan: Các thông tin
liên quan như quyền tác giả, giới thiệu, phương pháp, nguồn thông
tin, …
2.1.3. Chú thích (annotation)

triển vượt bậc của tốc độ máy tính, hàng loạt tập văn bản được làm tự động hay
bán tự động đã được ra đời, điều này cũng làm tăng kích thước tập văn bản và
độ chính xác của các thống kê.
Ngoài ra, tập văn bản còn có 1 tác dụng vô cùng quan trọng nữa, là làm tài
nguyên cho các máy học ( Machine Learning ) và các hệ chuyên gia, khai phá
dữ liệu ( Data Mining ) .
2.2. Mô hình ngôn ngữ
2.2.1. Khái quát
Mô hình ngôn ngữ là phân bố xác suất trên các tập văn bản, cho biết xác
suất của một câu, hoặc một dãy từ thuộc một ngôn ngữ là bao nhiêu. Mô hình
ngôn ngữ tốt sẽ đánh giá đúng các câu đúng ngữ pháp, trôi chảy hơn các từ có
thứ tự ngẫu nhiên.
Thí dụ:
P(“It is raining heavily”) > P(“Raining heavily it is”)
Mô hình ngôn ngữ được áp dụng nhiều trong lĩnh vực xử lý ngôn ngữ tự
nhiên như: Dịch máy, kiểm tra lỗi chính tả, tra cứu thông tin, phân đoạn từ và
các ứng dụng khác. Chính vì vậy mô hình ngôn ngữ hết sức quan trọng, làm tiền
đề cho các nghiên cứu trong các lĩnh vực liên quan. Thí dụ, một mô hình ngôn
ngữ kém sẽ kéo theo xác suất của câu cũng thay đổi theo, điều này ảnh hưởng

21

rất nhiều đến kết quả và quá trình đánh giá kết quả của việc sinh một câu, ví dụ
như trong nhận dạng tiếng nói.
Một mô hình ngôn ngữ sẽ cho chúng ta biết xác suất của một chuỗi từ
P(w1,w2,…,wk).
2.2.2. Tầm quan trọng của mô hình ngôn ngữ N-gram.
Mô hình ngôn ngữ quan trọng trong việc phát hiện từ bị nhiễu. Trong nhận
dạng giọng nói, với đầu vào là các tín hiệu âm thanh có nhiễu, độ nhập nhằng,

Những lỗi thế này xảy ra rất nhiều, chúng ta cũng không thể nào xác định
từ sai bằng cách gắn cờ cho từ không có trong từ điển, nhưng chúng ta có thể
biết được cụm từ “in about fifteen minuets” ít có khả năng xảy ra hơn “in about
fifteen minutes”. Chúng ta có thể sử dụng một bộ spelling checker để ước tính
xác suất, đồng thời đưa ra gợi ý một cụm từ có xác suất cao nhất.
Ngoài ra, mô hình ngôn ngữ N-gram còn được ứng dụng rộng rãi trong các
lĩnh vực khác như dự đoán từ (Word Prediction), gán nhãn từ loại (Part-OfSpeech Tagging ), Sinh ngôn ngữ tự nhiên (Natural Language Generation)...
2.2.3. Mô hình ngôn ngữ N-gram
Áp dụng công thức luật xích (Chain Rule), ta có xác suất của một dãy từ
được tính như sau:
P(w1w2…wk) = P(w1)
…

P(w2|w1)

P(w3|w1w2)

(2.1.1)

P(wk|w1w2 …wk-1)

Cách tính xác suất của một từ với điều kiện các từ đứng trước nó:
Giả sử ta muốn tính xác suất của một từ w với một chuỗi từ h trước nó,
P(w,h). Với h là “its water is so transparent that”, w là “the”
Hay để tính:
P(the| its water is so transparent that)
Theo công thức xác suất có điều kiện:
23

lượng ngẫu nhiên (
thiết rằng mỗi

) trong đó

là trạng thái của hệ tại thời điểm n. Giả

, n = 0, 1, ... là một đại lượng ngẫu nhiên rời rạc. Ký hiệu E

là tập giá trị của các (

). Khi đó E là một tập hữu hạn hay đếm được, các

phần tử của nó được ký hiệu là i, j, k... Ta gọi E là không gian trạng thái của dãy.
Ta nói rằng dãy các đại lượng ngẫu nhiên (
với mọi

< ...

là quá khứ. Như vậy, xác suất có điều kiện của một sự kiện B nào đó trong
tương lai nếu biết hiện tại và quá khứ của hệ cũng giống như xác suất có điều
kiện của B nếu chỉ biết trạng thái hiện tại của hệ.[4]
Bài toán dự đoán từ tiếp theo của một chuỗi chưa đầy đủ chúng ta đi xét
điều kiện để xảy ra sự kiện B trong tương lai, hay nói cách khác dự vào xác suất
của từ hiện tại và các từ đứng trước để dự đoán từ tiếp theo của chuỗi đó.
Trong mô hình ngôn ngữ n-gram, thông thường để tìm xác suất một chuỗi
các từ chúng ta đi tìm tích của từng từ một dựa trên giá trị xác suất của các từ
đứng trước, theo luật xích (Chain Rule):

(2.2.4-1)

Theo công thức 2.2.4-1, chúng ta thấy rằng nếu xét ở thời điểm k là thời
điểm hiện tại, thì k+1 là thời điểm tương lai và từ thời điểm bắt đầu tới thời
điểm k-1 là quá khứ. Nếu chúng ta giới hạn số lượng từ đứng trước ở mức m nào
25

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

SINH câu MIÊU tả CHO HÌNH ẢNH sử DỤNG mô HÌNH NGÔN NGỮ - Pdf 34

Tài liệu, ebook tham khảo khác

Học thêm