GÁN NHÃN ẢNH TỰ ĐỘNG SỬ DỤNG KẾT HỢP NHIỀU NGUỒN THÔNG TIN (Luận văn thạc sĩ) - Pdf 47

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ DƢƠNG

GÁN NHÃN ẢNH TỰ ĐỘNG SỬ DỤNG KẾT HỢP
NHIỀU NGUỒN THÔNG TIN

LUẬN VĂN THẠC SĨ ĐIỆN TỬ - VIỄN THÔNG

HÀ NỘI - 2017


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ DƢƠNG

GÁN NHÃN ẢNH TỰ ĐỘNG SỬ DỤNG KẾT HỢP
NHIỀU NGUỒN THÔNG TIN
Ngành: Điện tử truyền thông
Chuyên ngành:Kỹ thuật điện tử
Mã số: 60530203

LUẬN VĂN THẠC SĨ ĐIỆN TỬ- VIỄN THÔNG

NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. LÊ VŨ HÀ

HÀ NỘI - 2017




Nguyễn Thị Dƣơng


MỤC LỤC
PHẦN MỞ ĐẦU ............................................................................................... 1
1. Tính cấp thiết của luận văn ........................................................................... 1
2. Mục tiêu của luận văn ................................................................................... 2
3. Các đóng góp của luận văn ........................................................................... 2
4. Bố cục của luận văn ...................................................................................... 3
Chƣơng 1. TỔNG QUAN VỀ PHƢƠNG PHÁP GÁN NHÃN TỰ ĐỘNG
CHO ẢNH ......................................................................................................... 4
1.1. Tổng quan ................................................................................................... 4
1.2. Các nghiên cứu trong lĩnh vực gần đây ..................................................... 7
1.3. Bài toán phân loại và gán nhãn ảnh tự động .............................................. 8
1.4. Biểu diễn ảnh dƣới dạng các vector đặc trƣng (Low level features) ...... 10
1.4.1. Tại sao phải biểu diễn ảnh ....................................................................................10
1.4.2. Đặc trƣng của ảnh.....................................................................................................11
1.4.2.1. Đặc trƣng toàn cục ....................................................................... 12
1.4.2.2. Đặc trƣng cục bộ .......................................................................... 12
1.4.3. Các vector đặc trƣng................................................................................................12
1.4.3.1. Lƣợc đồ màu CH.......................................................................... 12
1.4.3.2. Đặc trƣng tƣơng quan màu CORR .............................................. 13
1.4.3.3. Lƣợc đồ hệ số góc EDH............................................................... 14
1.4.3.4. Cấu trúc sóng con WT ................................................................. 15
1.4.3.5. Mô-men màu CM55..................................................................... 16
1.4.3.6. Phƣơng pháp túi từ điển BOW .................................................... 16
1.5. Các nguồn thông tin phụ trợ..................................................................... 18
1.6. Phƣơng pháp huấn luyện dùng để phân loại và gán nhãn ........................ 20
1.6.1. Phƣơng pháp K - láng giềng gần nhất (K-Nearest Neighbors) ..............20

Hình 1. 2 Sơ đồ khối của một khung công việc gán nhãn ảnh tự động. ........... 5
Hình 1. 3 Phƣơng pháp tổng quát cách thức thực hiện bài toán gán nhãn ảnh
sử dụng các nguồn thông tin khác nhau [Li et al. 2016]. .................................. 7
Hình 1. 4 Ví dụ tìm kiếm ảnh với từ khóa “mountain” trên Flickr.com. .......... 9
Hình 1. 5 Ví dụ minh họa không thể dùng lƣợc đồ màu để phân biệt con bò và
con ngựa trên thảo nguyên .............................................................................. 11
Hình 1. 6 Minh họa hai ảnh giống nhau nhƣng góc nhìn khác nhau .............. 11
Hình 1. 7 Minh họa hai ảnh có đặc trƣng tƣơng quan màu giống nhau ......... 14
Hình 1. 8 Minh họa phƣơng pháp túi từ điển [Fei et al. 2005] ...................... 17
Hình 1. 9 Túi từ - miêu tả đối tƣợng với biểu đồ của các từ xuất hiện[Fei et al.
2005]................................................................................................................ 18
Hình 1. 10 Ví dụ về ảnh và các tag ngƣời dùng gán cho ảnh ......................... 18
Hình 1. 11 Thông tin về các thông số của máy ảnh và EXIF của ảnh ............ 19
Hình 1. 12 Ví dụ phân lớp cho X bằng thuật toán K-NN ............................... 21
Hình 1. 13 Ví dụ phân lớp giữa hai tập hợp bóng Xanh - Đỏ sử dụng SVM . 23
Hình 2. 1 81 nhãn trong tập dữ liệu của NUS-WIDE ..................................... 28
Hình 2. 2 Số hình ảnh có liên quan đến 81 nhãn của NUS-WIDE ................. 29
Hình 2. 3 Sơ đồ tóm tắt các bƣớc thực hiện quá trình phân loại và gán nhãn
cho ảnh kiểm thử sử dụng K-NN .................................................................... 30
Hình 2. 4 Biểu đồ so sánh kết quả recall của 6 đặc trƣng và kết hợp các đặc
trƣng với K = 50 và số nhãn gán cho ảnh (N) tăng dần từ 1 đến 10 ............... 31
Hình 2. 5 Sơ đồ tóm tắt các bƣớc thực hiện quá trình phân loại và gán nhãn
cho ảnh kiểm thử sử dụng SVM ..................................................................... 33
Hình 2. 6 Biểu đồ so sánh kết quả recall của 6 đặc trƣng sử dụng thuật toán
SVM. ............................................................................................................... 34


Hình 3. 1 Biểu đồ Recall khi sử dụng thông tin chú giải của ngƣời dùng trên
tập kiểm thử. .................................................................................................... 37
Hình 3. 2 Sơ đồ khối quá trình kết hợp đặc trƣng ảnh và chú giải của ảnh

chủ đề đƣợc lƣu trữ chia sẻ và truy cập trên mạng. Điều này cũng đồng nghĩa
với yêu cầu bức thiết trong vấn đề lƣu trữ, quản lí và truy cập dữ liệu. Gán nhãn
ảnh tự động đã và đang trở thành chủ đề nóng và thách thức lớn trong xử lý thông
tin và khoa học máy tính. Mục tiêu chính của kỹ thuật này là thiết lập quá trình
mà hệ thống máy tính tự động gán cho mỗi đối tƣợng trong ảnh một vài nhãn
thông tin, căn cứ vào đó ta có thể dễ dàng tìm kiếm, phân loại và truy xuất ảnh.
Hiện nay, các kỹ thuật đƣợc sử dụng để phân loại và truy xuất ảnh thƣờng
sử dụng thông tin văn bản (text) từ nguồn thông tin phụ trợ (metadata) của dữ
liệu ví dụ nhƣ nhãn, chú giải (tag), bình luận (comment) của ngƣời dùng (ví dụ
nhƣ Google tìm kiếm văn bản). Tuy nhiên không phải lúc nào các thông tin này
cũng có sẵn, cũng chính xác, đặc biệt lại phụ thuộc lớn vào quan điểm của ngƣời
dùng cũng nhƣ ngôn ngữ mà ngƣời dùng sử dụng. Hơn nữa việc mô tả bức ảnh
bằng một vài từ khóa không phải công việc dễ dàng. Việc gán nhãn ảnh bằng tay
còn thực sự khó khăn tốn kém và trở lên bất khả thi khi số lƣợng ảnh tăng lên rất
nhanh chóng nhƣ hiện nay.
Xu hƣớng hiện tại là gán nhãn ảnh một cách tự động sử dụng trực tiếp nội
dung ảnh (image content), gán các nhãn cho ảnh đó, qua đó giúp dễ dàng quản lí
ảnh cũng nhƣ tìm kiếm ảnh. Vấn đề này vẫn luôn nhận đƣợc sự quan tâm của
các nhà nghiên cứu với hi vọng có thể cải thiện hơn độ chính xác, tốc độ xử lý,
sự đa dạng và độ khó của các tập ảnh. Xu hƣớng chung của các nghiên cứu này
là tìm ra các đặc trƣng tốt hơn trong việc đặc tả ảnh, qua đó cải thiện đƣợc độ
chính xác trong quá trình nhận dạng và gán nhãn ảnh. Một xu hƣớng nữa cũng
đƣợc quan tâm là sử dụng khai thác triệt để tất cả các thông tin có thể có từ ảnh


Luận văn đầy đủ ở file: Luận văn full





Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status