Nghiên cứu phát triển hệ thống tra cứu các loài thực vật quý hiếm tại khu bảo tồn thiên nhiên na hang tỉnh tuyên quang - Pdf 62

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

VŨ THANH BÌNH

NGHIÊN CỨU PHÁT TRIỂN HỆ THỐNG TRA CỨU
CÁC LOÀI THỰC VẬT QUÝ HIẾM TẠI KHU BẢO TỒN
THIÊN NHIÊN NA HANG TỈNH TUYÊN QUANG

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN - 2019


ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

VŨ THANH BÌNH

NGHIÊN CỨU PHÁT TRIỂN HỆ THỐNG TRA CỨU
CÁC LOÀI THỰC VẬT QUÝ HIẾM TẠI KHU BẢO TỒN
THIÊN NHIÊN NA HANG TỈNH TUYÊN QUANG

Chuyên ngành: Khoa học máy tính
Mã số: 8.48.0101

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Ngƣời hƣớng dẫn khoa học: TS. Nguyễn Văn Tảo

THÁI NGUYÊN - 2019

chuyên môn - một trong những điều kiện không thể thiếu quyết định đến việc
thành công của luận văn.
Để hoàn thành đƣợc luận văn này trƣớc tiên em xin gửi lời cảm ơn sâu
sắc đến thầy giáo hƣớng dẫn TS. Nguyễn Văn Tảo, là ngƣời đã định hƣớng
nội dung, hƣớng phát triển của luận văn và có nhiều ý kiến đóng góp quan
trọng ảnh về những vấn đề chuyên môn của luận văn, giúp em tháo gỡ kịp
thời những vƣớng mắc trong quá trình làm luận văn.
Em cũng xin chân thành cảm ơn các thầy cô giáo Trƣờng Đại học
Công nghệ thông tin và Truyền thông và bạn bè cùng lớp đã có những ý kiến
bổ ích để luận văn đƣợc hoàn thiện hơn. Xin cảm ơn gia đình, ngƣời thân,
đồng nghiệp luôn quan tâm ủng hộ về tinh thần trong suốt thời gian học tập và
hoàn thành luận văn.
Em xin hứa sẽ cố gắng tự nghiên cứu, nâng cao năng lực chuyên môn
của mình để sau khi hoàn thành luận văn này sẽ có hƣớng tập trung nghiên


iii

cứu sâu hơn, tiếp tục hoàn thiện luận văn này để có những ứng dụng thiết thực
trong thực tế.

Thái Nguyên, tháng năm 2019
Học viên

Vũ Thanh Bình


iv

MỤC LỤC


2.5.2 Máy véctơ hỗ trợ nhiều lớp – MSVM ................................................ 41
2.5.2.1 Từ Binary classification tới multi-class classification.................. 41
2.5.2.2 Xử lý dữ liệu ảnh ......................................................................... 41
2.5.2.3 Softmax Regression. ..................................................................... 42
CHƢƠNG 3: THỰC NGHIỆM ...................................................................... 44
3.1 Thu thập dữ liệu ........................................................................................ 44
3.1.1 Cơ sở dữ liệu hình ảnh ........................................................................ 44
3.1.2 Phƣơng pháp lấy mẫu hình ảnh lá cây: ............................................... 45
3.2 Tiền xử lý ảnh trong bộ cơ sở dữ liệu ....................................................... 48
3.3 Phƣơng pháp đánh giá ............................................................................... 53
3.4 Thử nghiệm và kết quả. ............................................................................. 54
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN. ..................................................... 60
TÀI LIỆU THAM KHẢO ............................................................................... 60


vi

DANH SÁCH HÌNH VẼ
Hình 2.1 : Xấp xỉ hữu hạn chiều ................................................................... 19
Hình 2.2: Sơ đồ hệ thống nhận dạng cây thuốc sử dụng KDES ................... 22
Hình 2.3: Patch thích nghi với

=

= 8, do đó

=

=9


DANH MỤC CÁC BẢNG
Bảng 3.1: Danh sách mẫu thực vật trong cơ sở dữ liệu ............................. 47
Bảng 3.2: So sánh kết quả giữa KDES gốc và phương pháp lựa chọn (KDES
cải tiến). ....................................................................................................... 59


1

MỞ ĐẦU

1. Đặt vấn đề
Khu Bảo tồn thiên nhiên Na Hang là một trong những nơi có nguồn tài
nguyên cây thuốc đa dạng và phong phú [1]. Hiện biết có 275 loài cây thuốc,
thuộc 4 ngành, 96 họ, 204 chi của thực vật có mạch, đã đƣợc ghi lại trong các
cuộc điều tra thực địa. Trong số đó, có 204 loài, thuộc 3 ngành, 85 họ, 168 chi
của thực vật có mạch đƣợc sử dụng bởi Cao Lan dân tộc; đã 05 loài đƣợc liệt
kê trong Sách Đỏ Việt Nam và Danh lục Đỏ cây thuốc Việt Nam.
Trong số 85 họ, có 11 họ có số loài nhiều nhất là họ Rubiaceae,
Euphorbiaceae, Zingberaceae, Araceae, Vitaceae, Acanthaceae, Verbenaceae,
Myrsinaceae, Moraceae, Menispermaceae và Convallariaceae.
Bốn loại phổ biến của cây thuốc là cây thân thảo (41,63%), cây bụi
(22.01%), cây thân gỗ (16,75%) và leo núi (17.70%). Các bộ phận đƣợc sử
dụng nhiều nhất thân, lá, rễ và toàn cây. Các nguồn tài nguyên cây thuốc ở
khu bảo tồn thiên nhiên Na Hang có giá trị kinh tế quan trọng và một tiềm
năng để phát triển dƣợc phẩm mới và các sản phẩm tự nhiên khác.
Rừng đặc dụng Na Hang (trƣớc đây là Khu bảo tồn thiên nhiên Tát kẻ Bản Bung huyện Na Hang) đƣợc thành lập theo Quyết định 274/UB-QĐ ngày
9 tháng 5 năm 1994 của Uỷ ban nhân dân tỉnh Tuyên Quang. Nằm trên địa
bàn các xã Khâu Tinh, Côn Lôn, Sơn Phú, Thanh Tƣơng của huyện Na
Hang, tỉnh Tuyên Quang. Rừng đặc dụng Na Hang có diện tích tự nhiên

cây với thông tin của nó v.v.
Tuy nhiên, hiện nay chƣa có một cơ sở dữ liệu với đầy đủ thông tin
cần thiết về các loài thực vật quý hiếm tại Khu bảo tồn Thiên nhiên Na Hang


3

cùng với công cụ tra cứu, tiếp cận thông tin một cách thuận tiện. Do đó, đề
tài luận văn thạc sỹ này tập trung vào việc xây dựng cơ sở dữ liệu các loài
thực vật quý hiếm tại Khu bảo tồn thiên nhiên Na Hang, tỉnh Tuyên Quang
và nghiên cứu, áp dụng một phƣơng pháp tra cứu tự động dựa trên thông tin
hình ảnh, với đề tài: “Nghiên cứu phát triển hệ thống tra cứu các loài thực
vật quý hiếm tại Khu bảo tồn thiên nhiên Na Hang, tỉnh Tuyên Quang”.
Hiện nay, nhiều nhà khoa học đã và đang nghiên cứu, đề xuất nhiều
phƣơng pháp giải quyết bài toán nhận dạng lá cây thông qua thông tin hình
ảnh, [15] [17] [18]. Trong đó, nhiều phƣơng pháp khai thác thông tin hình
ảnh lá cây [2]. Lá cây đƣợc sử dụng nhiều bởi vì đây là bộ phận dễ thu nhận,
hiện diện ở hầu hết các mùa. Trên cơ sở đó, đề tài luận văn thạc sỹ này, em
sẽ kế thừa một số kết quả nghiên cứu về nhận dạng ảnh lá cây để áp dụng
vào bài toán tra cứu các loài thực vật quý hiếm tại Khu bảo tồn thiên nhiên
Na Hang.

2. Bài toán tra cứu/ nhận dạng thực vật
Tra cứu hoặc nhận dạng thực vật là một quá trình nhằm xác định xem
một mẫu thực vật nào đó giống nhất hoặc thuộc loài nào trong danh mục các
loài cây đã biết. Đây là một nhiệm vụ khó khăn và tốn thời gian ngay cả đối
với các chuyên gia thực vật học. Tra cứu thực vật là đƣa ra một danh sách các
loài thực vật theo mức độ phù hợp với câu truy vấn. Trong bài toán tra cứu
thông tin/ hình ảnh tổng quát thì câu truy vấn có thể là văn bản, hình ảnh, ... Ở
đây, em đề cập đến câu truy vấn là ảnh cây hoặc một vài bộ phận của cây.

Chƣơng này giới thiệu bài toán và thông tin tổng quan về tra cứu/ nhận
dạng thực vật. Trong chƣơng này cũng trình bày sơ lƣợc một số nghiên cứu
liên quan đến bài toán nhận dạng, tra cứu ảnh lá cây; giới thiệu sử dụng


5

phƣơng pháp KDES (kernel descriptor) cho bài toán tra cứu thông tin về cây
thông qua hình ảnh lá cây.
- CHƢƠNG 2: PHƢƠNG PHÁP TRA CỨU LÁ CÂY SỬ DỤNG
KDES
Trong chƣơng này trình bày phƣơng pháp tra cứu thông tin cây thông
qua hình ảnh lá cây sử dụng phƣơng pháp KDES.
CHƢƠNG 3: THỰC NGHIỆM
Nội dung chƣơng này bao gồm phƣơng pháp thu thập dữ liệu, phƣơng
pháp đánh giá, việc thử nghiệm và kết quả của thử nghiệm trên cơ sở dữ liệu
đã thu thập.


6

CHƢƠNG 1
MỘT SỐ NGHIÊN CỨU LIÊN QUAN
1.1 Tổng quan về tra cứu ảnh
Những năm gần đây ảnh số ngày càng thu hút đƣợc sự quan tâm của
nhiều ngƣời, một phần là do các thiết bị thu nhận ảnh số ngày càng phổ biến
và có giá cả phù hợp, cho phép nhiều ngƣời có thể sở hữu và sử dụng. Mặt
khác các công nghệ chế tạo thiết bị lƣu trữ luôn đƣợc cải tiến để cho ra đời
các thiết bị lƣu trữ có dung lƣợng lớn và giá thành hạ làm cho việc lƣu trữ ảnh
dƣới dạng các file trở nên phổ biến. Thêm nữa là sự phát triển của mạng

dễ dàng hơn nhiều. Trong lĩnh vực khoa học hình sự, nhu cầu so sánh mẫu
vân tay, hay tìm kiếm hình ảnh tội phạm đặt ra những bài toán tra cứu ảnh.
Giả sử chúng ta tổ chức quản lý nhân khẩu với thông tin ảnh vân tay của từng
ngƣời. Trong một vụ án, nhân viên điều tra thu thập đƣợc mẫu vân tay trên
hiện trƣờng, khi đó ngƣời ta cần xem mẫu vân tay đó khớp với vân tay của ai
trong hàng chục triệu hình ảnh vân tay trong cơ sở dữ liệu. Nếu có phần mềm
thực hiện chính xác, nhanh chóng sẽ giúp ích rất nhiều cho công tác điều tra.
Một ví dụ nữa là trong lĩnh vực bảo tồn, bảo tàng. Vấn đề lƣu trữ và tra
cứu ảnh số có vai trò càng ngày càng quan trọng. Ảnh của các tác phẩm hội
họa, điêu khắc hoặc các cổ vật đƣợc lƣu trữ dƣới dạng các file ảnh sẽ đảm bảo
đƣợc chất lƣợng tốt hơn, thời gian lƣu trữ lâu dài hơn và việc trao đổi hay giới
thiệu với công chúng cũng dễ dàng hơn. Bài toán tra cứu của vật xuất phát từ
một thực tế của ngành bảo tồn, bảo tàng là khi sƣu tầm đƣợc một cổ vật mới,
ngƣời ta cần xác định hàng loạt các thuộc tính nhƣ niên đại, nguồn gốc và có
thể là chủ sở hữu của vật đó. Nếu có đƣợc sự trợ giúp của phần mềm tra cứu
ảnh phù hợp thì ngƣời ta ta có thể dễ dàng xác định xem mẫu cổ vật đó đã
đƣợc lƣu trữ trong cơ sở dữ liệu nào hay chƣa, có những loại cổ vật nào tƣơng
tự với nó trong kho tàng cổ vật của thế giới, và phần mềm có thể đƣa ra ảnh


8

của các loại cổ vật có màu sắc, hình dáng, hoa văn tƣơng tự với cổ vật vừa
tìm thấy. Những thông tin này sẽ giúp ích rất nhiều cho các chuyên gia trong
quá trình phân loại, kiểm chứng một cổ vật.
Một số hệ thống tra cứu ảnh nổi tiếng nhƣ
Virage

(Virage


- Hạn chế thứ nhất của ảnh kỹ thuật cơ sở là không sử dụng tính tƣơng
đồng giữa các màu. Khi đó, hai ảnh với màu cảm nhận tƣơng đồng nhƣng
không có màu chung thì khoảng cách giữa chúng sẽ rất lớn, có thể là cực đại.


9

Với hạn chế thứ nhất này, ngƣời ta đã đƣa ra những cách khắc phục bằng
cách: đƣa ra thƣớc đo mức độ giống nhau trong đó quan tâm đến đóng góp
các màu cảm nhận tƣơng tự; tính toán khoảng cách màu trong đó các giá trị
biểu đồ màu đƣợc điều chỉnh trên cơ sở mức độ tƣơng tự màu; sử dụng biểu
đồ trọng số cảm nhận (PWH -perceptually weighted histogram).
- Hạn chế thứ hai là không sử dụng quan hệ không gian giữa các pixel.
Để giải quyết vấn đề này, ngƣời ta có thể tách màu nền khỏi màu cận cảnh
(phân đoạn ảnh) sau đó biểu đồ màu nền và biểu đồ màu cận cảnh đƣợc tính
toán và sử dụng.
- Hạn chế thứ ba là không gian màu lựa chọn đƣợc lƣợng tử hóa đồng
nhất mặc dù các màu điểm ảnh không phân bổ đồng nhất trong không gian
màu. Một số giải pháp: lƣợng tử hóa màu không đồng nhất; lựa chọn không
gian màu thích hợp cũng đã đƣợc đề cập; cải tiến việc tính toán các bins màu
cách sử dụng kỹ thuật phân lớp dữ liệu.
Kỹ thuật tra cứu cơ sở dựa trên lƣợc đồ màu chƣa tận dụng đƣợc các
đặc tính cục bộ của vùng của ảnh nhƣ màu và không gian. Ngƣời ta đã đề cập
đến kỹ thuật tra cứu ảnh dựa vào các đặc tính cục bộ của vùng áp dụng trong
tra cứu các ảnh phong cảnh: kỹ thuật đối sánh cặp màu để mô hình các đƣờng
bao đối tƣợng phân biệt; mở rộng kỹ thuật cặp màu để thực hiện tra cứu các
ảnh đã đƣợc phân đoạn. Các hạn chế trong kỹ thuật tra cứu dựa vào màu bao
gồm: thiếu khả năng nhận dạng các đối tƣợng tƣơng tự có các màu khác nhau,
nhạy cảm với tỷ lệ của đối tƣợng. Ảnh ngƣời ta đƣa ra kỹ thuật tra cứu ảnh
dựa vào các đặc tính cục bộ của vùng bao gồm màu và không gian áp dụng

trƣng hình thái học đƣợc trích xuất. Các đặc trƣng này đƣợc sử dụng làm đầu
vào cho hệ thống phân loại, ví dụ nhƣ mạng nơron nhân tạo. Mạng nơron
đƣợc huấn luyện với lá từ các loài thực vật khác nhau. Sau đó, độ chính xác


11

của hệ thống nhận dạng đƣợc đánh giá thông qua thử nghiệm. Phƣơng pháp
này chỉ hoạt động đối với những cây có lá phẳng, rộng.
Một số lƣợng đáng kể các công trình đã đƣợc thực hiện nhằm giải
quyết bài toán tra cứu và nhận dạng thực vật dựa trên ảnh lá. Một phƣơng
pháp nào đó có thể đạt đƣợc hiệu năng tốt đối với một số mẫu giá cụ thể,
nhƣng không đảm bảo cho kết quả tốt đối với các mẫu lá khác. Đôi khi ngƣời
ta thấy rằng hai hoặc nhiều cây có lá có hình dạng tƣơng tự hoặc giống nhau,
nhƣng màu sắc khác nhau. Trong trƣờng hợp đó các đặc trƣng màu sắc cần
đƣợc lƣu tâm.
Chƣơng này trình bày sơ lƣợc các thuật toán khác nhau đã đƣợc sử
dụng để tra cứu phân loại thực vật thông qua ảnh lá.
1.3 Một số nghiên cứu liên quan
Để nhận dạng cây có nhiều cách, có thể nhận dạng cây qua các bộ phận
của cây nhƣ cành, lá, chồi, thân, hoa, quả, rễ cây… Tuy nhiên đặc trƣng dễ
nhận ra nhất của mỗi cây là hình ảnh lá cây. Nên trong luận văn này em sử
dụng hình ảnh lá cây với nền đơn giản.
Có hai loại lá: Lá kép (bao gồm một số lá nhỏ) và lá đơn. Trong khi hầu
hết các nghiên cứu trên lá đơn tập trung vào việc trích xuất đặc trƣng hình
dạng và vị trí của lá [9], thì các nghiên cứu trên lá kép cố gắng khai thác cấu
trúc của chúng [7].
Hình ảnh lá có thể đƣợc chụp với nền phức tạp, bƣớc đầu tiên của hệ
thống nhận dạng thực vật dựa trên ảnh lá là phân đoạn ảnh lá. Tuy nhiên,
phân đoạn ảnh là bài toán khó với nhiều thách thức trong thị giác máy tính.

Năm 2010, Liffeng Bo và cộng sự [5] đề xuất một bộ mô tả đối tƣợng
nói chung có tên là KDES (kernel descriptor). Với đặc trƣng KDES, việc trích
chọn đặc trƣng hình ảnh của mỗi bộ phận của cây đều đƣợc xây dựng theo
hƣớng: từ đặc trƣng mức pixel, đến đặc trƣng mức patch, rồi đặc trƣng mức
ảnh.Bằng thực nghiệm, các tác giả đã chỉ ra rằng KDES tốt hơn những
phƣơng pháp đã có trên cơ sở dữ liệu Cifa-10, Caltech-101, ImageNet. Năm
2015 với những kết quả đã đƣợc chỉ ra của KDES [15], luận văn này áp dụng
KDES cho bài toán tra cứu tra cứu các loài thực vật quý hiếm tại khu bảo tồn
thiên nhiên Na Hang tỉnh Tuyên Quang dựa vào hình ảnh lá cây.
2.2 Phƣơng pháp KDES
2.2.1 Gradient, màu sắc, và hình dạng kernels tƣơng ứng
Với đặc trƣng KDES, việc trích chọn đặc trƣng hình ảnh của mỗi bộ
phận của cây đều đƣợc xây dựng theo hƣớng: từ đặc trƣng mức pixel, đến đặc
trƣng mức patch, rồi đặc trƣng mức ảnh.
- Đặc trưng mức pixel
Theo [5], một số đặc trƣng có thể đƣợc tính toán ở mức pixel nhƣ: giá
trị pixel (rgb color), kết cấu (local binary patterns – lbp), gradient. Trong đề
tài này, em sử dụng đặc trƣng gradient đối với ảnh lá cây.
+Đặc trƣng gradient


14

Vector gradient tại một pixel z đƣợc xác định bởi biên độ
 ( z) .

m ( z ) và

hƣớng


(theo

(theo vị trí). Trong [2] Gradient Match Kernel


15

(

)

∑∑

̅(

)

. ̃ ( ) ̃ ( )/

(

)

Trong đó:


: các điểm ảnh trên các patch P, Q.

z,



‖ ) : hàm đối theo vị trí của e pixel

z và
Với

là vị trí Gaussian kernel với

biểu

thị vị trí 2D của một pixel trong một bản vá hình ảnh (đƣợc chuẩn hóa thành
là kernel hƣớng. Để

[0; 1]). Và
ƣớc tính sự khác biệt giữa các hƣớng ở pixel



vectơ gradient chuẩn hóa sau trong hàm kernel

:

, chúng tôi sử dụng các

(2.2)
Khoảng cách giữa các vectơ nhƣ vậy cho thấy rất rõ sự khác biệt của
gradient định hƣớng. Lƣu ý rằng tính toán khoảng cách theo chuẩn L2 trên
các giá trị góc

thay vì chuẩn hóa vectơ gradient


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status