Nghiên cứu và phát triển các phương pháp nhận dạng cây dựa trên nhiều ảnh bộ phận của cây, có tương tác với người sử dụng tt - Pdf 59

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

NGUYỄN THỊ THANH NHÀN

NGHIÊN CỨU VÀ PHÁT TRIỂN CÁC PHƯƠNG
PHÁP NHẬN DẠNG CÂY DỰA TRÊN NHIỀU ẢNH
BỘ PHẬN CỦA CÂY, CÓ TƯƠNG TÁC VỚI NGƯỜI
SỬ DỤNG

Ngành: Khoa học máy tính
Mã số: 9480101

TÓM TẮT LUẬN ÁN TIẾN SĨ
KHOA HỌC MÁY TÍNH

Hà Nội −2020

Công trình được hoàn thành tại:
Trường Đại học Bách khoa Hà Nội

Người hướng dẫn khoa học:
1. PGS. TS. Lê Thị Lan
2. PGS. TS. Hoàng Văn Sâm

Phản biện 1:
Phản biện 2:
Phản biện 3:

Luận án sẽ được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ

cây có trong hệ thực vật. Cơ sở dữ liệu hình ảnh cây lớn nhất là LifeCLEF 2017 với
10,000 [2]) so với số lượng hơn 400,000 cây tồn tại trên trái đất [3]). Hạn chế thứ hai
là độ chính xác của nhận dạng tự động vẫn còn thấp đặc biệt là khi làm việc trên dữ
liệu đa dạng với số lớp lớn.

Mục tiêu
Luận án NCS hướng đến xây dựng các phương pháp hiệu quả cho phép nâng cao
độ chính xác của nhận dạng cây dựa vào hình ảnh.
Để đạt được mục tiêu này, trước tiên luận án tập trung vào cải thiện độ chính
xác của nhận dạng cây dựa trên ảnh của một bộ phận. Có nhiều bộ phận trên cây có
thể được dùng để xác định cây. Tuy nhiên, trong các bộ phận khác nhau của cây, lá
là bộ phận được lựa chọn nhiều nhất. Tuy nhiên các nghiên cứu trước đó thường dựa
trên giả thuyết là lá được chụp trên nền đồng nhất. Giả thuyết này thường không thỏa
mãn trong các điều kiện làm việc thực tế, do đó trong luận án này, chúng tôi tập trung

1

nghiên cứu và phát triển phương pháp nhận dạng lá trên nền phức tạp.
Thứ hai, xuất phát từ quan sát là việc sử dụng hình ảnh của một bộ phận để nhận
dạng không phải lúc nào cũng phù hợp. Nhiều cây rất dễ bị nhận nhầm nếu sử dụng
lá nhưng lại có khả năng phân biệt rất cao nếu dựa trên hoa. Nhận dạng cây dựa trên
nhiều bộ phận có thể được mô hình hóa thành bài toán kết hợp muộn: các kết quả của
nhận dạng cây nhiều bộ phận có thể được xác định dựa trên kết quả nhận dạng đơn
bộ phận qua các chiến lược kết hợp. Do đó, mục tiêu thứ hai của luận án là đề xuất
các phương pháp kết hợp hiệu quả cho bài toán nhận dạng cây dựa trên các bộ phận.
Mục tiêu cuối cùng của luận án liên quan đến ứng dụng của các kết quả nghiên
cứu trong việc quảng bá thông tin của một tập các loài cây tương đối đặc thù: cây
thuốc Việt Nam thông qua việc phát triển chức năng tìm kiếm dựa trên hình ảnh trong
hệ thống tra cứu cây thuốc Việt Nam VnMed. Các mục tiêu của luận án được tóm tắt

2

❼ Chương 2: Trong chương này, một phương pháp cho nhận dạng cây dựa trên ảnh

lá được đề xuất. Trong phương pháp đề xuất, để trích chọn vùng lá từ ảnh, chúng
tôi đề xuất áp dụng phân đoạn tương tác. Sau đó, đặc trưng nhân KDES cải tiến
được áp dụng để trích chọn các đặc trưng của lá.
❼ Chương 3: Chương này tập trung vào nhận dạng cây dựa trên nhiều bộ phận của

cây. Chúng tôi đề xuất một phương pháp kết hợp cho nhận dạng cây nhiều bộ
phận dựa trên các kết quả một bộ phận.
❼ Chương 4: Trong chương này, chúng tôi đề xuất một cách tiếp cận mới để xây

dựng hệ thống nhận dạng cây tự động khi cơ sở dữ liệu không có sẵn và ứng dụng
của cách tiếp cận đề xuất trong việc xây dựng chức năng tìm kiếm cây thuốc
Việt Nam dựa trên hình ảnh.
❼ Kết luận: Chương này đưa ra các kết luận và các hướng nghiên cứu tiếp theo.

CHƯƠNG 1

CÁC NGHIÊN CỨU LIÊN QUAN
1.1

Nhận dạng cây từ các ảnh của một bộ phận

Các nghiên cứu trước đây thường tập trung nhận dạng cây dựa trên ảnh của một
bộ phận cây. Giữa các bộ phận của cây thì bộ phận lá được sử dụng rộng rãi nhất [4]
bởi vì lá thường tồn tại trong thời gian dài, có số lượng lớn, có cấu trúc phẳng nên

hay ảnh hoa..., nhóm thứ hai là không quan tâm ảnh thuộc vào bộ phận nào của cây.
Trong nhóm đầu tiên, mỗi bộ phận sẽ được huấn luyện bởi một bộ phân lớp riêng biệt.
Trong nhóm thứ hai, tất cả các ảnh sẽ được huấn luyện bởi cùng một bộ phân lớp. Các
kỹ thuật kết hợp được sử dụng để kết hợp các kết quả lại với nhau thường sử dụng là
kỹ thuật kết hợp sớm và kỹ thuật kết hợp muộn.

1.3

Các hệ thống nhận dạng và thu thập dữ liệu cây

Hiện nay có một số các ứng dụng nhận dạng cây dựa trên ảnh được triển khai
trên các thiết bị di động như Pl@ntNet, iNaturalist, iSpot, Leafsnap, FlowerChecker,
PlantSnapp, Plantifier,...[7, 8]. Các ứng dụng này thường cung cấp ba chức năng chính
tới người dùng đó là chức năng khám phá, nhận dạng và thu thập dữ liệu. Trong đó
chức năng nhận dạng cây và chức năng thu thập dữ liệu cây là hai chức năng hỗ trợ
cho nhau. Khi chức năng nhận dạng cây đạt được độ chính xác cao, hệ thống sẽ thu
hút được nhiều người dùng sử dụng hệ thống từ đó sẽ thu thập được nhiều dữ liệu từ
người dùng. Sau đó dữ liệu thu thập sẽ được sử dụng để huấn luyện lại hệ thống, khi
càng có nhiều dữ liệu huấn luyện thì độ chính xác đạt được càng cao. Dữ liệu thu thập
càng nhiều và đa dạng sẽ giải quyết được vấn đề học quá khớp trong nhận dạng. Điều
này chỉ ra vai trò quan trọng của hệ thống thu thập dữ liệu dựa trên cộng đồng.

CHƯƠNG 2

PHƯƠNG PHÁP NHẬN DẠNG LÁ CÂY DỰA TRÊN
BỘ MÔ TẢ NHÂN
2.1

Phương pháp nhận dạng cây dựa trên ảnh lá trên nền phức
tạp

Trích chọn đặc trưng

Trong luận án này, bộ mô tả nhân (KDES) được đề xuất sử dụng. KDES đầu tiên
được đề xuất bởi Liefeng Bo [10] sử dụng các đặc trưng của điểm ảnh (gradient, màu
và hình dạng) và học các đặc trưng kết hợp thông qua các nhân đối sánh. KDES gốc
được sử dụng cho phát hiện đối tượng và đạt được các kết quả ấn tượng trên các cơ sở
dữ liệu tiêu chuẩn như CIFAR-10, Caltech-101, ImageNet. KDES gốc có hai giới hạn
là không bất biến với phép tỷ lệ và nhạy cảm với phép quay. Trong nghiên cứu [11],
5

Hình 2.5 Một ví dụ của vùng kích thước cố định trong KDES gốc và vùng kích thước
thay đổi trong phương pháp KDES cải tiến. (a,b) hai ảnh của cùng một lá với các kích
thước khác nhau được phân chia sử dụng vùng kích thước cố định; (b,c): hai ảnh của
cùng một lá với kích thước khác nhau được phân chia sử dụng vùng kích thước thay đổi.

Nguyễn Văn Tới và các công sự đã đề xuất ba cải tiến KDES gốc cho nhận dạng cử chỉ
tay, chúng tôi gọi là KDES cải tiến. Trong công việc này, chúng tôi đề xuất sử dụng
KDES cải tiến cho việc trích chọn đặc trưng ảnh lá. KDES cải tiến được trích chọn
thông qua ba bước: trích chọn đặc trưng mức điểm, mức vùng và mức ảnh.
a) Trích chọn các đặc trưng mức điểm
Ở bước này, một véc tơ gradient được tính tại mỗi điểm ảnh. Véc tơ gradient tại
điểm z được định nghĩa bởi độ lớn của nó m(z) và θ(z) là góc của véc tơ gradient tại
˜
điểm z. Theo [10], hướng θ(z)
được định nghĩa như sau:
˜ = [sin(θ(z))cos(θ(z))]
θ(z)

c) Trích chọn các đặc trưng mức ảnh
Khi các đặc trưng mức vùng được tính cho mỗi vùng, công việc còn lại là tính
véc tơ đặc trưng biểu diễn cho toàn bộ ảnh. Để làm điều này, chúng tôi phân chia ảnh
thành các vùng nhỏ hơn sử dụng các đường ngang và các đường dọc. Số vùng được
chia trong một ảnh là theo cấu trúc kim tự tháp, tại mức k chúng ta có 2k−1 vùng theo
chiều ngang và 2k−1 vùng theo chiều dọc (Hình 2.7). Sau đó chúng tôi tính véc tơ đặc
trưng cho mỗi vùng của ảnh và nối chúng vào trong một véc tơ chúng tôi gọi đó véc tơ
đặc trưng mức ảnh, véc tơ đặc trưng này được biểu diễn như dưới đây. Véc tơ này sẽ
là đầu vào của bộ phân lớp SVM cho pha huấn luyện và kiểm thử.
φ¯P (X) = w(1) φ¯S (X (1,1) ); ...; w(l) φ¯S (X (l,t) ); ...; w(L) φ¯S (X (L,nL ) )

2.4

(2.20)

Các kết quả thực nghiệm

2.4.1

Các cơ sở dữ liệu

Cơ sở dữ liệu ImageCLEF 2013: bao gồm 5,540 ảnh huấn luyện và 1,660 ảnh
kiểm thử của 80 loài được trích rút.
Cơ sở dữ liệu Flavia: bao gồm 1,907 ảnh lá trên nền đơn giản của 32 loài.
Cơ sở dữ liệu LifeCLEF 2015: Bảng 2.1 chỉ ra chi tiết cơ sở dữ liệu.
2.4.2 Các kết quả thực nghiệm
Các kết quả trên cơ sở dữ liệu ImageCLEF 2013

7

42.3
KDES gốc với phân đoạn tự động
35.5
Các kết quả trên cơ sở dữ liệu Flavia
Phương pháp đề xuất thực hiện trên cơ sở dữ liệu Flavia đạt được độ chính xác
là 99.06%. Để đánh giá hiệu năng của phương pháp chúng tôi so sánh phương pháp đề
xuất với các phương pháp khác trên cùng cơ sở dữ liệu Flavia. Các kết quả được cho
như trong Bảng 2.3 cho thấy phương pháp đề xuất cao hơn các phương pháp dựa trên
đặc trưng thiết kế trước đó. Độ chính xác được cải thiện từ 0.36 đến 6.86% so với các
kết quả khác.
Bảng 2.3 Độ chính xác thu được trên cơ sở dữ liệu Flavia
Phương pháp
Đặc trưng, Phương pháp phân lớp
Độ chính xác(%)
Phương pháp
KDES cải tiến; SVM
99.06
đề xuất
[12]
SMSD ; NFC
97.5
[13]
CT,HU, moments, GF, GLCM; NFC
97.6
[14]
EnS, CDS; SVM
97.8
[15]
GIST features (486), (PCA=40%); cosine KNN
98.7

tiến và phân đoạn tương tác trong phương pháp đề xuất đã vượt qua KDES gốc và các
phương pháp dựa trên đặc trưng được thiết kế khác cho các cơ sở dữ liệu ImageCLEF
2013, Flavia và LifeCLEF 2015. Tuy nhiên, phương pháp đề xuất vẫn cần sự thao tác
của người dùng trong bước phân đoạn. Trong ứng dụng thực tế, ràng buộc này là chấp
nhận được do số lượng thao tác ít (trong các thực nghiệm của chúng tôi, số lần đánh
dấu từ 1 đến 3) và dễ dàng thực hiện với các điện thoại có màn hình cảm ứng.

9

CHƯƠNG 3

KỸ THUẬT KẾT HỢP SAU CHO NHẬN DẠNG
CÂY DỰA TRÊN NHIỀU BỘ PHẬN
3.1

Giới thiệu

Theo quan điểm của các nhà thực vật học nhận dạng loài cây chỉ dựa vào các ảnh
của một bộ phận là không đủ thông tin do sự tương tự lớn giữa các loài khác nhau
và sự biến đổi lớn trong cùng một loài. Do đó hiện nay đã có nhiều nghiên cứu thực
hiện nhận dạng cây dựa trên nhiều bộ phận. Chương này chúng tôi đề xuất một kỹ
thuật kết hợp nhiều bộ phận. Không mất tính tổng quát, chúng tôi thực hiện và đánh
giá các kỹ thuật kết hợp cho mỗi cặp bộ phận của cây. Sơ đồ đề xuất được miêu tả
trong Hình 3.2. Chúng tôi đề xuất một phương pháp gọi là phương pháp kết hợp lai
bền vững (RHF), phương pháp này thực hiện kết hợp phương pháp kết hợp dựa trên
biến đổi và kết hợp dựa trên phân lớp (CBF).

Hình 3.2 Sơ đồ làm việc cho nhận dạng cây đa bộ phận

c = arg max
i

si (Ik )

(3.2)

k=1

Luật nhân Nhân các độ tin cậy cùng một lớp lại.
N

c = arg max
i

si (Ik )

(3.3)

k=1

Các phương pháp kết hợp dựa trên biến đổi không phải luôn luôn đạt được kết
quả tốt. Tuy nhiên các phương pháp này là đơn giản và không yêu cầu quá trình huấn
luyện, hầu hết các phương pháp nhận dạng cây dựa trên nhiều bộ phận đều sử dụng
các phương pháp này.
Kỹ thuật kết hợp dựa trên phân lớp (CBF)
Ý tưởng chính của kỹ thuật kết hợp dựa trên phân lớp là nhiều độ tin cậy được
đưa vào một véc tơ đặc trưng và sử dụng một bộ phân lớp để phân tách các lớp dựa
trên không gian các véc tơ đặc trưng thu được. Chúng tôi thực hiện ý tưởng này cho
nhận dạng cây từ ảnh của hai bộ phận. Chúng tôi sử dụng máy véc tơ hỗ trợ (SVM)

lớp. Mỗi mẫu tương ứng cho lớp i chúng tôi sẽ cho qua bộ phân lớp SVM cho lớp i thu
được xác suất tương ứng si (q). Sau đó chúng tôi thực hiện nhân giá trị si (q) với các
giá trị trong mẫu đang xét. Mô hình lai đề xuất được tiến hành như sau:
2

c = arg max si (q).
i

si (Ik )

(3.6)

k=1

Mô hình này là tích hợp giữa luật nhân và kỹ thuật kết hợp dựa trên phân lớp.
Chúng tôi mong đợi rằng xác suất của câu truy vấn q vào lớp dương ảnh hưởng đến
kết quả kết hợp. Nếu xác suất của câu truy vấn q vào lớp dương là cao thì xác suất
của câu truy vấn q thuộc vào lớp thứ i cũng cao.

12

3.3

Lựa chọn mô hình phân lớp cho nhận dạng cây đơn bộ phận

Để nhận dạng cây dựa trên nhiều bộ phận đạt kết quả cao, ngoài việc sử dụng
các kỹ thuật kết hợp hiệu quả, một nhân tố quan trọng góp phần để nâng cao kết quả
này là kết quả nhận dạng trên một bộ phận phải đạt kết quả cao. Với sự thành công
của các mạng CNN cho các bài toán nhận dạng đối tượng trong những năm gần đây,

bộ phận; SVM input được sử dụng làm tập dữ liệu huấn luyện cho bộ phân lớp SVM;
testing được sử dụng để đánh giá hiệu suất của các phương pháp kết hợp đã trình bày.
Bảng 3.2 Cơ sở dữ liệu thu thập của 50 loài với 4 bộ phận
Flower Leaf Entire Branch Total
CNN Training

1650

1930

825

1388

5793

SVM Input

986

1164

495

833

3478

Testing

ResNet ở cả hai phương pháp và cho hầu hết các bộ phận ngoại trừ ảnh toàn bộ của
cây trong chiến lược 1. Một điểm thú vị là chiến lược 1 phù hợp với bộ phận lá và hoa
trong khi chiến lược 2 là lựa chọn tốt cho các bộ phận khác như cành và ảnh toàn bộ
cây. Điểm thuận lợi của chiến lược 2 cho nhận dạng đơn bộ phận là không yêu cầu biết
loại bộ phận. Các kết quả cũng chỉ ra rằng hoa là bộ phận cho kết quả tốt nhất, trong
khi ảnh toàn bộ cây cho kết quả thấp nhất.
Bảng 3.3 Độ chính xác nhận dạng cây dựa trên một bộ phận với hai chiến lược:
(1) Một mạng cho mỗi bộ phận; (2) Một mạng cho tất cả các bộ phận.
Bộ phận
Leaf (Le)
Flower (Fl)
Branch (Br)
Entire (En)

AlexNet
Chiến lược 1
66.2
73.0
43.2
32.4

Chiến lược 2
63.8
72.2
47.4
33.8

ResNet
Chiến lược 1
73.4

kết hợp giữa lá và hoa (Le-Fl) tăng lên 17 % so với một bộ phận và 13.6% khi áp dụng
mạng GoogLeNet. Không chỉ đối với hoa và lá mà trong tất cả sáu cặp bộ phận kết
hợp, phương pháp đề xuất RHF đạt được kết quả cao nhất.
So sánh phương pháp đề xuất với phương pháp MCDCNN[22]
14

Bảng 3.4 Độ chính xác đạt được ở hạng 1 khi kết hợp mỗi cặp bộ phận với các phương pháp
kết hợp khác nhau trong trường hợp sử dụng mạng AlexNet.
Độ chính xác (%)
En - Le
En - Fl
Le - Fl
Br - Le
Br - Fl
Br - En

R1
R5
R1
R5
R1
R5
R1
R5
R1
R5
R1
R5

70.2
71.0
76.8
73.8
89.6
90.0
93.4
79.6
74.2
75.4
80.8
79.0
90.8
91.4
95.2
83.0
51.6
52.2
58.0
58.0
76.8
77.6
83.6
81.4

bộ phận
RHF
76.6
94.6
81.2

83.6
78.8
81.2
89.6
83.2
95.6
96.0
99.2
88.8
66.4
68.2
78.2
73.6
92.0
93.0
95.6
81.6
70.2
70.6
80.6
76.6
90.4
90.6
95.4
84.6
52.4
52.8
60.6
60.6
78.2

R5
R1
R5
R1
R5
R1
R5
R1
R5
R1
R5

Phương pháp 1 cho nhận dạng đơn
Max Sum Product
CBF
rule
rule
rule
70.4
72.2
75.2
73.2
91.8
92.6
92.8
90.6
73.8
75.4
80.0
76.4

62.2
55.0
82.0
83.4
86.6
80.4

bộ phận
RHF
78.0
93.2
83.2
95.4
92.6
99.2
83.2
94.6
86.4
97.8
60.6
87.4

Phương pháp 2 cho nhận dạng đơn
Max Sum Product
CBF
rule
rule
rule
73.6
75.4

78.8
80.4
85.6
81.0
95.6
96.0
96.2
91.4
60.4
66.2
69.0
55.0
84.8
85.6
89.6
80.4

bộ phận
RHF
80.8
95.2
83.2
95.2
92.6
99.2
83.2
94.6
86.0
97.6
69.0

rule
74.6
75.0
79.2
79.4
94.0
93.8
93.6
84.0
79.2
79.8
83.4
83.8
95.8
96.0
97.0
89.2
91.4
92.0
95.4
93.8
99.6
99.6
99.6
96.0
79.8
81.0
84.6
80.2
94.4

91.6
99.0
64.2
87.0

Phương pháp 2 cho nhận dạng đơn
Max Sum Product
CBF
rule
rule
rule
77.8
78.0
79.4
81.2
91.4
91.4
96.2
85.6
77.6
78.0
81.0
80.2
93.6
93.8
95.8
84.4
90.6
90.2
92.6

bộ phận
RHF
82.0
95.8
81.0
96.2
92.8
99.0
86.6
97.0
87.2
97.0
66.4
87.0

Để cho thấy hiệu quả của kỹ thuật kết hợp đề xuất, chúng tôi so sánh phương
pháp RHF với MCDCNN[22]. Các kết quả đạt được trên cùng cơ sở dữ liệu được cho
trong Bảng 3.8 cho thấy phương pháp đề xuất vượt trội hơn MCDCNN trong tất cả

15

Bảng 3.8 So sánh phương pháp đề xuất với MCDCNN [22]
Accuracy (%)
En - Le
En - Fl
Le - Fl
Br - Le
Br - Fl
Br - En

95.4
96.8
89.8
92.6
95.8
98.4
99.2
99.8
78.4
83.2
84.6
93.8
94.6
97.4
81.4
86.4
91.6
95.4
97.8
99.0
58.6
60.6
64.2
83.8
87.4
87.0

Phương pháp 2 cho
nhận dạng đơn bộ phận
RHF

95.6
97.6
97.0
61.6
69.0
66.4
84.0
87.6
87.0

MCDCNN
[22]
70.0
91.0
75.6
94.2
86.6
98.4
72.2
93.0
76.8
93.0
55.2
80.6

các cặp bộ phận kết hợp. Sự cải thiện lên tới 14.4 % cho sự kết hợp giữa cành và lá.

3.5

Kết luận

Hình 4.3 Sơ đồ đề xuất
❼ Thu thập dữ liệu cây: Bước đầu tiên là thu thập dữ liệu từ nhiều nguồn khác

nhau.
❼ Phát hiện bộ phận cây Chúng tôi đề xuất xây dựng bộ phát hiện bộ phận cây

(lá, hoa, quả, thân, cành, không phải cây) dựa trên bộ dữ liệu LifeCLEF 2015 và
được sử dụng làm bộ lọc dữ liệu tự động để đánh giá dữ liệu.
❼ Đánh giá dữ liệu: Mục đích chính của công việc này là loại bỏ các hình ảnh

không phải là cây.
❼ Nhận dạng cây: Chúng tôi áp dụng các kỹ thuật nhận dạng cây dựa trên một

bộ phận hoặc nhiều bộ phận.
Trong các mục sau, chúng tôi sẽ tập trung trình bày bộ phát hiện bộ phận cây và ứng
dụng của cách tiếp cận đề xuất trong việc xây dựng chức năng tìm kiếm theo hình ảnh
của hệ thống tra cứu cây thuốc Việt Nam VnMed.

4.2

Phát hiện bộ phận cây

Phát hiện bộ phận cây tự động nhằm xác định bộ phận của cây có mặt trong
một hình ảnh cho trước. Chúng tôi đề xuất áp dụng mạng GoogLeNet và kỹ thuật học
chuyển giao để xây dựng bộ phát hiện bộ phận.
Để huấn luyện và đánh giá mạng đề xuất, chúng tôi lấy cơ sở dữ liệu LifeCLEF
2015 và dữ liệu thu thập từ internet. Chúng tôi sử dụng 5 lớp trong LifeCLEF 2015
đó là lá (bao gồm lá + lá nền đơn giản), hoa, quả, thân, cành (bao gồm cành + toàn
bộ). Với mục đích phân loại một ảnh đầu vào là cây hay không phải là cây, chúng tôi

thường được sử dụng ở Việt Nam dựa trên từ khóa và mô tả sinh học. Việc phát triển
chức năng tìm kiếm dựa trên hình ảnh là quan trọng tuy nhiên việc này khó thực hiện
do sự khó khăn trong việc thu thập hình ảnh của các cây thuốc. Trong nghiên cứu này,
chúng tôi đề xuất áp dụng cách tiếp cận ở trên trong việc phát triển chức năng tìm
kiếm cây thuốc dựa trên hình ảnh.
Để đánh giá sự khả thi cũng như vai trò của các bước trong cách tiếp cận đề xuất,
chúng tôi thu thập dữ liệu 100 cây thuốc Việt Nam theo 2 phương pháp: thủ công, dựa
trên cộng đồng. Chúng tôi tổ chức các ảnh thu thập được thành 4 cơ sở dữ liệu như
sau:
❼ VnDataset1 chứa các ảnh thu được theo phương pháp thủ công;
❼ VnDataset2 chứa các ảnh của VnDataset1 và các ảnh thu thập theo phương

pháp dựa trên cộng đồng. Trong cơ sở dữ liệu này, số ảnh cho mỗi loài biến đổi
từ 57 tới 379. Trung bình mỗi loài có 206 ảnh. VnDataset2 chứa nhiễu (như các
ảnh không phải là cây) do quá trình thu thập ảnh tự động trên internet.
❼ VnDataset3 chứa các ảnh còn lại của VnDataset2 sau khi áp dụng bộ phát hiện

bộ phận xây dựng ở phần trước để loại bỏ những ảnh không hợp lệ.
❼ VnDataset4 chứa những ảnh của VnDataset3 sau khi loại bỏ thủ công những

ảnh không hợp lệ của VnDataset3;
18

Các cơ sở dữ liệu huấn luyện được trình bày chi tiết trong Bảng 4.7. Chúng tôi tiến
hành trên 2 tập đánh giá evaluation 1 và evaluation 2. Tập evaluation 1 chứa 972 ảnh
tự chụp trong khi evaluation 2 gồm 3,163 ảnh là những ảnh của tập evaluation 1 và
những ảnh được thu thập dựa trên cộng đồng.
Bảng 4.7 Bốn cơ sở dữ liệu cây thuốc Việt Nam
VnDataset1 VnDataset2 VnDataset3 VnDataset4

58.46
79.48

Ba kết luận thú vị có thể được rút ra từ các kết quả thực nghiệm. Thứ nhất, dữ
liệu huấn luyện đóng vai trò quan trọng trong hiệu năng của mạng. Dữ liệu huấn luyện
càng không đồng nhất, mô hình càng mạnh mẽ. Trong số 4 mô hình, M1 vượt trội so
với các mô hình khác trên VnDataset1 (độ chính xác ở hạng 1 là 81.58 %). Tuy nhiên,
khi thử nghiệm với các bộ dữ liệu khác, hiệu năng của mô hình này giảm đáng kể. Các
mô hình khác thu được kết quả tương đối thấp hơn mô hình M1 trên VnDataset1.
Độ chính xác ở hạng 1 của M2 , M3 và M4 lần lượt là 76.03%, 78.70% và 79.63%. Tuy
nhiên, các mô hình này vẫn giữ độ chính xác cao khi làm việc với các bộ dữ liệu khác
(VnDataset1, VnDataset2, VnDataset3). Thứ hai, xác thực dữ liệu là một bước
quan trọng trong việc xây dựng bộ dữ liệu dựa trên nguồn dữ liệu cung cấp từ cộng
đồng. Cuối cùng, phương pháp đề xuất có thể giúp xây dựng chức năng tìm kiếm hình
ảnh trong ứng dụng VnMed cho phép tìm kiếm các cây quan tâm bằng cách sử dụng
hình ảnh các bộ phận khác nhau của cây.
Đến thời điểm viết luận án này, dựa trên phương pháp đề xuất, một cơ sở dữ liệu
chứa 75,405 hình ảnh của 596 cây thuốc Việt Nam đã được thu thập. Bộ nhận dạng
cây VnPlantNet cho kết quả nhận dạng ở thứ hạng 1 là 66.61 % và ở thứ hạng 10 là
87.52 % trên bộ cơ sở dữ liệu này. Bộ nhận dạng này được tích hợp để xây dựng chức
năng tìm kiếm dựa trên hình ảnh trong trong ứng dụng tra cứu cây thuốc Việt Nam
VnMed.
19

4.4

Kết luận

Trong chương này, một cách tiếp cận cho bài toán nhận dạng cây khi không có

thuật dựa trên biến đổi và kỹ thuật dựa trên phân lớp. Phương pháp đề xuất cũng
vượt trội hơn so với phương pháp kết hợp MCDCNN trên tập con LifeCLEF 2015 với
50 loài. Các kết quả cũng chỉ ra rằng việc kết hợp hai bộ phận cho phép cải thiện độ
chính xác hơn là việc chỉ sử dụng một bộ phận. Giữa các cách kết hợp các bộ phận
khác nhau, kết hợp bộ phận lá và hoa cho kết quả tốt nhất. Khi áp dụng phương pháp
20

1 cho nhận dạng một bộ phận, đối với mạng AlexNet, kết quả tốt nhất cho nhận dạng
một bộ phận là bộ phận hoa đạt độ chính xác 73.0%, và khi áp dụng phương pháp kết
hợp đề xuất RHF, kết quả độ chính xác giữa bộ phận lá và hoa đã tăng lên 16.8%.
Khi triển khai hệ thống nhận dạng cây trong thực tế, một vấn đề chúng tôi gặp
phải là thiếu cơ sở dữ liệu hình ảnh của cây. Trong luận án này, chúng tôi giới thiệu
một cách tiếp cận cho nhận dạng cây khi không có sẵn nguồn dữ liệu bao gồm 4 bước
chính: thu thập dữ liệu, phát hiện tự động bộ phận cây, lọc dữ liệu và nhận dạng cây.
Bước quan trọng của phương pháp đề xuất là bộ lọc dữ liệu với sự trợ giúp của bộ
phận phát hiện bộ phận cây được đề xuất có tên OrganNet. Các thực nghiệm chỉ ra
rằng OrganNet vượt trội hơn so với phương pháp dựa trên đặc trưng GIST và bộ phân
lớp SVM là 19.91%. Chúng tôi cũng áp dụng phương pháp đề xuất cho chức năng tìm
kiếm dựa trên hình ảnh của ứng dụng VnMed. Các thực nghiệm trên cơ sở dữ liệu 100
cây thuốc Việt Nam chỉ ra vai trò của việc lọc dữ liệu từ nhiều nguồn khác nhau là
rất quan trọng, nó giúp cho các mô hình huấn luyện dữ liệu trở nên bền vững hơn.
Dựa trên cách tiếp cận đề xuất, một cơ sở dữ liệu ảnh bao gồm 75,405 ảnh của 596
cây thuốc Việt Nam được xây dựng. Chức năng tìm kiếm cây thuốc dựa trên mô hình
huấn luyện trên cơ sở dữ liệu thu thập đã được tích hợp trong ứng dụng VnMed.

Hướng phát triển
Trong luận án này, chúng tôi đã đề xuất một vài cải tiến cho nhận dạng cây. Tuy
nhiên những cải tiến này chỉ là một phần nhỏ trong quá trình phát triển hệ thống
nhận dạng cây tự động trong môi trường thực. Trong tương lai, chúng tôi muốn tiếp

gia. Những ảnh này sẽ được sử dụng để làm giàu dữ liệu huấn luyện. Các
kết quả thực nghiệm của chúng tôi chỉ ra độ chính xác của phương pháp đề
xuất có thể được cải tiến khi cơ sở dữ liệu huấn luyện được làm giàu.
– Thiết kế các kiến trúc mạng CNN/hàm mất mát phù hợp cho bài toán nhận
dạng cây: Một phần của luận án này là kỹ thuật kết hợp, với nhận dạng
một bộ phận, chúng tôi đơn giản áp dụng các chiến lược học chuyển giao
trên các mạng CNN sẵn có. Trong tương lai chúng tôi sẽ xem xét và thiết
kế các kiến trúc mạng CNN với hàm mất mát phù cho bài toán nhận dạng
cây.
– Phát triển hệ thống nhận dạng cây dựa trên đa phương thức: Hình ảnh là
một thông tin rất quan trọng để nhận dạng cây. Tuy nhiên việc chỉ sử dụng
hình ảnh cho nhận dạng cây trong nhiều trường hợp là không đầy đủ. Bên
cạnh hình ảnh, các chuyên gia và các nhà thực vật học còn xem xét các yếu
tố khác (như mùi hương, độ sần sùi,..). Trong tương lai, chúng tôi sẽ nghiên
cứu và phát triển nhận dạng cây dựa trên đa phương thức.
Thứ hai, chúng tôi sẽ mở rộng công việc nghiên cứu này cho các loài cây khác
của Việt Nam như các loài cây có giá trị quan trọng về mặt kinh tế xã hội.
Cuối cùng, với mục đích quảng bá kiến thức các loài cây trong ứng dụng của
mình tới đông đảo cộng đồng đặc biệt là các thế hệ trẻ, chúng tôi mong muốn
phát triển ứng dụng trò chơi nhận dạng cây và dựa trên các công nghệ thực tại
hiện thực ảo và hiện thực tăng cường.

22

TÀI LIỆU THAM KHẢO
[1] Go¨eau H., Bonnet P., and Joly A. (September 2015). Lifeclef plant identification
task 2015 . In CEUR-WS, editor, CLEF: Conference and Labs of the Evaluation
forum, volume 1391 of CLEF2015 Working notes. Toulouse, France.
[2] Go¨eau H., Bonnet P., and Joly A. (2017). Plant identification based on noisy web

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Nghiên cứu và phát triển các phương pháp nhận dạng cây dựa trên nhiều ảnh bộ phận của cây, có tương tác với người sử dụng tt - Pdf 59

Tài liệu, ebook tham khảo khác

Học thêm