BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
Đặng Khánh Hòa
NGHIÊN CỨU VÀ PHÁT TRIỂN CÁC THUẬT TOÁN ƯỚC LƯỢNG
MẶT PHẲNG VÀ DẪN ĐƯỜNG CHO HỆ THỐNG THỊ GIÁC RÔ-BỐT TRONG NHÀ
Ngành: Kỹ thuật điện tử
Mã số: 9520203
TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ
Hà Nội – 2019
1
Công trình được hoàn thành tại:
Trường Đại học Bách khoa Hà Nội
Người hướng dẫn khoa học:
1. PGS.TS. Nguyễn Tiến Dũng
2. TS. Lê Dũng
Phản biện 1:
Phản biện 2:
Phản biện 3:
Luận án được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Trường họp tại Trường Đại
học Bách khoa Hà Nội
2.2. Đối tượng nghiên cứu
Từ các mục tiêu nghiên cứu trên, luận án tập trung vào đối tượng nghiên cứu thứ nhất là các thuật
toán xử lý dữ liệu bản đồ độ sâu được cung cấp bới hệ thống máy ảnh nổi hoặc RGB-D, cung cấp dữ
liệu vào cho bài toán dẫn đường của rô-bốt trong nhà, với khả năng tự tránh các vật cản trên đường
di chuyển. Tiếp theo nghiên cứu phương pháp dẫn đường cho rô-bốt dùng hệ thống máy ảnh nổi hoặc
RGB-D trong nhà không biết trước. Cuối cùng là nghiên cứu, thiết kế và chế tạo mô hình rô-bốt tích
hợp hệ thống máy ảnh nổi hoặc RGB-D với các thuật toán đã phát triển nhằm thử nghiệm độ tin cậy.
2.3. Phương pháp nghiên cứu
Phương pháp nghiên cứu trong luận án đi từ nghiên cứu lý thuyết đến thực nghiệm, ứng dụng các
kỹ thuật xử lý ảnh thu nhận từ máy ảnh nổi vào giải quyết bài toán tìm đường trên robot di động. Đầu
tiên luận án nghiên cứu lý thuyết, xây dựng mô hình, sau đó mô phỏng thuật toán, thiết kế chế tạo mô
hình xe rô-bốt để thực nghiệm trên hiện trường nghiên cứu và đo lường, đánh giá.
2.4. Phạm vi nghiên cứu
Phát triển các thuật toán xử lý ảnh được cung cấp bởi hệ thống máy ảnh nổi hoặc RGB-D. Phát
triển thuật toán dẫn đường cho rô-bốt trong môi trường năng động chỉ sử dụng thuần túy dữ liệu thu
nhận bởi hệ thống máy ảnh nổi hoặc RGB-D. Xây dựng mô hình rô-bốt dẫn đường bằng hệ thống
máy ảnh nổi hoặc RGB-D với các thuật toán đã phát triển đối với môi trường hoạt động trong nhà
chưa biết trước.
3. Ý nghĩa khoa học và những đóng góp của luận án
3.1. Ý nghĩa khoa học: Việc nghiên cứu các thuật toán xử lý video bản đồ độ sâu cung cấp bởi hệ
thống máy ảnh nổi hoặc RGB-D của đề tài mang ý nghĩa khoa học bao gồm cả hai khía cạnh lý luận
và thực tiễn.
3.1.1. Về lý luận: Góp phần phát triển cơ sở khoa học các thuật toán xử lý tín hiệu video độ sâu
thông qua xây dựng các phương pháp tính toán nhanh, chính xác cao cho bài toán dẫn đường cho xe
rô-bốt khảo sát hiện trường - một định hướng nghiên cứu mang tính thời sự. Các kết quả nghiên cứu
của đề tài dự kiến sẽ đóng góp cho sự phát triển của nền tảng lý thuyết xử lý tín hiệu video độ sâu.
Thúc đấy giải quyết bài toán nhân dạng đối tượng mặt đất hỗ trợ dẫn đường sử dụng thị giác máy tính
cho rô-bốt di động hoạt động trong môi trường động trong nhà.
1
độ sâu chuẩn và tập dữ liệu thu thập thực tế. Kết quả thu được đã minh chứng cho tính mãnh mẽ, ổn
định của thuật toán thông qua cả hai phương pháp đánh giá trực quan và đánh giá khách quan.
Cuối cùng, chương 4 nghiên cứu đề xuất chiến thuật dẫn đường áp dụng cho rô-bốt di động
đi tới đích cho trước. Bài toán được giải quyết trong môi trường hoạt động trong nhà không biết trước
với ràng buộc chỉ sử dụng dữ liệu bản đồ độ sâu. Các phân tích cụ thể phương pháp tìm đường đi đề
xuất đã nêu rõ những ưu điểm nổi bật cũng như một số hạn chế của bài toán tìm đường trong nhà;
cho thấy tính khả thi của phương pháp dẫn đường đề xuất.
CHƯƠNG 1. TỔNG QUAN HỆ THỐNG DẪN ĐƯỜNG CHO RÔ-BỐT DỰA
TRÊN HÌNH ẢNH THỊ GIÁC MÁY TÍNH
1.1. Giới thiệu chương
Nội dung của chương này gồm hai phần. Phần đầu trình bày lý thuyết tổng quan về hệ thống
dẫn đường cho rô-bốt di chuyển trên mặt đất với các khái niệm, vai trò và phân loại một số loại hệ
thống dẫn đường hiện nay. Phần cuối cùng của chương này phân tích cụ thể các vấn đề liên quan tới
việc khai thác dữ liệu độ sâu hiện nay với các phân tích chi tiết các vấn đề tồn tại theo từng khía cạnh
của bài toán dẫn đường cho rô-bốt.
1.2. Hệ thống dẫn đường cho rô-bốt trong nhà
Hệ thống dẫn đường cho rô-bốt là một hệ thống kết hợp phần cứng và phần mềm nhằm tính
toán đường đi cho rô-bốt một cách hợp lý. Dựa theo nguyên tắc dẫn đường, chúng được phân biệt
như sau: Dẫn đường toàn cục, Dẫn đường cục bộ, Dẫn đường riêng. Ba hệ thống dẫn đường trên có
2
thể được ứng dụng một cách độc lập hoặc sử dụng kết hợp với nhau để bổ sung ưu điểm cho nhau
bởi với mỗi một hệ thống đều có những ưu nhược điểm nhất định.
Kiến trúc hệ thống dẫn đường rô-bốt sử dụng thị giác máy tính
Với phạm vi hoạt động là môi trường trong nhà chưa biết trước, kiến trúc của hệ thống dẫn
đường cho rô-bốt di động như Hình 2.1.
Máy ảnh RGB-D/
Máy ảnh nổi
điểm nhiễu thuộc về các mặt phẳng khác và có một số điểm bị mất. Các điểm nhiễu này cần được
loại bỏ khỏi mặt phẳng thật vừa được phát hiện và phải được gán lại cho đám mây điểm ban đầu.
Những điểm bị mất phải được thêm vào mặt phẳng được phát hiện để nâng cao tính đầy đủ của phép
trích xuất mặt phẳng. Đồng thời, các điểm này cũng được tách ra từ đám mây điểm ban đầu. Do đó
giải thuật RANSAC áp dụng để trích xuất mặt phẳng chưa chứng minh được tính mạnh mẽ trừ phi
cần thêm các giải pháp khắc phục. Ngoài ra kết quả trực quan trên chưa có chứng minh độ ổn định
của thuật toán mà cần có các số liệu đánh giá khách quan.
1.3.3. Phương pháp nhận dạng đối tượng mặt đất
1.3.3.1.
Phát hiện mặt phẳng đất dựa trên sự biến đổi ảnh thị giác
1) Phương pháp biến đổi ảnh thị giác
Sự biến đổi các điểm trên mặt phẳng đất giữa các hình ảnh tại thời điểm k-1 và k được cho bởi
một bản đồ phẳng như (1.6) [22] [50].
(1.6)
x = Hx
k
k −1
trong đó xk và xk −1 là tọa độ đồng nhất của các đặc trưng trong ảnh hiện tại và ảnh trước. Ma
trận biến đổi phẳng H bao gồm tám hệ số độc lập nên cần có ít nhất 8 phương trình (tức là bốn điểm
tương ứng) để giải hệ tuyến tính [50]. Sự biến đổi ảnh tức thời tính theo cách này có thể không mang
lại kết quả chính xác vì sự tương đối không chính xác hoặc sai. Điều này đặc biệt có hại khi vài điểm
được sử dụng trong tính toán của H, như trường hợp trong một môi trường phức tạp, do số lượng
điểm đặc trưng khan hiếm.
Phần lớn các phương pháp dựa trên sự biến đổi ảnh tính toán các thông số trong (1.6) để biểu
diễn, phân tích sự biến đổi ảnh trong suốt quá trình quan sát. Tuy nhiên, điều này liên quan đến việc
dữ liệu đầu vào. Phương pháp [18] được đề xuất so sánh sự khác biệt độ chênh lệch trên mỗi dòng
trong bản đồ chênh lệch. Kết quả cho thấy tính mạnh mẽ của thuật toán không cao nếu nguồn ảnh bị
ảnh hưởng bởi bối cảnh. Trong bản đồ khác biệt thực tế, rõ ràng là luôn có nhiễu xuất hiện bởi hai
loại yếu tố bên ngoài và bên trong. Ngoài ra, có thêm một điểm hạn chế nữa là các kết quả chỉ được
hiển thị trong bối cảnh không có vật cản. Thuật toán V-Disparity cải tiến [88] dẫn đầu với tỷ lệ phát
hiện điểm đất cao hơn nhưng nó bị trả giá bởi độ phức tạp của quá trình xử lý khi thuật toán tích hợp
phép biến đổi Hough hoặc thuật toán RANSAC để lọc kết quả thô.
1.3.3.3.
Phát hiện mặt phẳng đất từ đám mây điểm 3D
1) Mô hình mặt phẳng đất
Trong toán học, mặt đất được mô tả như một mặt phẳng 3D nằm trong một đám mây điểm
3D. Về cơ bản, một mặt phẳng 3D có thể được biểu diễn bởi 4 thông số như (1.16).
ax + by + cz + d = 0
a 2 + b2 + c 2 = 1
(1.16)
với
[𝑎, 𝑏, 𝑐, 𝑑] là bộ tham số mặt đất. Như vậy có khá ít các tham số đủ khả năng mô tả mặt đất. Thêm
vào đó, giả định rô-bốt sử dụng các cảm biến cố định trong quá trình di chuyển.
2) Trích mặt phẳng đất từ đám mây điểm 3D
Định vị mặt đất là quá trình tìm những thông số mô tả một mặt phẳng được cho bởi hệ điểm 3D.
Cách biểu diễn các thông số được viết dưới dạng ma trận trong hệ 3D được biểu diễn như (1.17).
(1.17)
𝑋 = {𝑥1 , 𝑥2 , … , 𝑥𝑁 }
Trong đó X G là tập hợp của những điểm có sẵn trên mặt đất và f là hàm số để tính toán sai số
1.3.4.1.
Dẫn đường tự trị
Xe rô-bốt di động di chuyển tự trị trong một môi trường không rõ thì nó phải có khả năng
thực hiện xây dựng một số loại bản đồ và tự xác định vị trí và quy hoạch đường dẫn. Việc đồng thời
xác định vị trí và lập bản đồ, như [49] đòi hỏi có một bản đồ và lập bản đồ chính xác để ước tính
chính xác vị trí. Vấn đề này là trọng tâm của nhiều công trình nghiên cứu [53] [54] [55] [56] với nhiều
giải pháp kỹ thuật giải quyết được đề xuất.
Trong luận án này rô-bốt được xem xét xây dựng với một nhiệm vụ điều hướng trong một
môi trường chưa biết trong nhà khai thác dữ liệu bản đồ độ sâu.
1.3.4.2.
Lập kế hoạch đường đi
Vấn đề cơ bản của việc lập kế hoạch đường đi là tạo ra một con đường không bị va chạm từ
một điểm khởi đầu nhất định A, đến một điểm kết thúc mong muốn B. Một số phương pháp để điều
hướng trong một môi trường chưa biết đã được trình bày và tùy thuộc vào cách xác định khu vực hoạt
động, có nhiều cách khác nhau để giải quyết vấn đề lập kế hoạch đường dẫn. Với mục đích khai thác
hiệu quả dữ liệu độ sâu, tác giả của luận án này tập trung nghiên cứu ứng dụng bài toán dẫn đường
cho xe rô-bốt theo phương pháp lập kế hoạch đường đi cục bộ dựa trên thuần túy việc khai thác dữ
liệu độ sâu.
1.3.4.3.
Phát hiện và tránh chướng ngại vật dựa trên thị giác máy tính
Hướng nghiên cứu sử dụng phương pháp tính toán thị giác nổi mà tác giả có dự kiến lựa chọn
phương pháp để phát triển trong luận án này. Dựa vào chiều sâu của điểm, có thể đánh giá liệu điểm
đó có nằm trên mặt đất hay không [62] [67]. Hiện nay, một khó khăn của phát hiện vật cản dựa vào
ảnh thị giác nổi là vấn đề phức tạp tính toán. Gần đây, một số nhà nghiên cứu bắt đầu nghiên cứu về
riêng biệt hoặc khung phim cho mỗi ống kính được đặt theo chiều ngang. Nguyên lý thị giác nổi
giống như tầm nhìn hai mắt của con người và nhận thức trực quan của chúng ta về độ sâu, nơi mà các
vật ở xa hơn trong cảnh thì vị trí của chúng ít thay đổi khi chúng ta nhắm mắt luân phiên. Sự khác
biệt vị trí thường của một đặc trưng trong hai ảnh thường là theo trục ngang. Chênh lệch được định
nghĩa là phép trừ, từ hình ảnh trái sang phải, của các tọa độ 2D của các điểm tương ứng trong không
gian hình ảnh.
2.3. Phương pháp tăng tốc tính toán bản đồ chênh lệch/độ sâu
2.3.1. Triển khai tính toán SAD thông thường
Hình 2.5 cho thấy một sơ đồ khối điển hình để tính toán bản đồ chênh lệch. Thứ nhất, các hình
ảnh trái và phải được hệ thống máy ảnh nổi thu được, và sau đó được chuyển thành hình ảnh tỷ lệ
xám và được sử dụng để tính toán bản đồ chênh lệch bằng phương pháp SAD.
Hình 2.5. Hệ thống tính bản
đồ độ sâu điển hình SAD
Ảnh trái
Từ máy
ảnh nổi
Ảnh phải
Chuyển ảnh
xám
Chuyển ảnh
xám
Tính toán
SAD
Bản đồ
Do đó, thời gian xử lý và phạm vi tìm kiếm đạt được hiệu quả rất lớn. Biểu thị cửa sổ tham chiếu
và tìm kiếm là A và A’. SAD được xác định theo cách tương tự được mô tả ở trên nhưng chỉ áp dụng
cho những điểm tương ứng với các điểm ảnh được phát hiện biên. Để giảm các điểm ảnh biên sai, sự
khác biệt về cường độ giữa các điểm ảnh trung tâm của A và A’ được tính toán và so sánh với một
maxbias đã cho. Nếu chênh lệch này lớn hơn sai lệch, tìm kiếm sẽ bị bỏ qua và được chuyển sang bước
tiếp theo. Trong hệ thống đề xuất này, thuật toán dò biên Sobel [77] được sử dụng, bởi tính đơn giản
và hiệu quả của nó. Trong giai đoạn lọc, bản đồ chênh lệch được tinh chỉnh bằng cách sử dụng bộ lọc
hợp lý và kích thước lọc như trong [76], [78] để tránh các điểm chênh lệch được chỉ định không đúng
là những điểm mà thực tế không thể nhìn thấy trong hình ảnh trái hoặc phải do bị che khuất hoặc khu
vực phía sau của hình ảnh.
Ảnh trái
Từ máy
ảnh nổi
Ảnh phải
Chuyển ảnh
xám
Tách biên
Chuyển ảnh
xám
Tách biên
Tính toán
SAD
điển hình và được đề xuất.
7
Việc thay đổi thuật toán SAD cho việc tạo bản đồ chênh lệch trong một hệ thống thị giác nổi được
đề xuất để đạt được sự cải thiện đáng kể về thời gian tính toán và độ chính xác. Điều này rất có ý nghĩa
vì bài toán xây dựng bản đồ chênh lệch rất quan
trọng trong việc triển khai nhiều ứng dụng thời
gian thực. Thời gian xử lý ít hơn cho phép hệ
thống thu thập nhanh dữ liệu, hữu ích cho các
tác vụ tiếp theo như ánh xạ độ sâu, xây dựng
mô hình 3D, phát hiện đối tượng, vv. Cách tiếp
cận này hứa hẹn sẽ thu được nhiều dữ liệu hữu
ích hơn. Đối với công việc trong tương lai,
thuật toán SAD được đề xuất sẽ được tối ưu
hóa và triển khai trong một khung phần cứng
cho hệ thống điều hướng rô-bốt trong nhà.
Hình 2.11. So sánh trong thời gian xử lý được thực hiện bởi các
phương pháp SAD thông thường và phương pháp tăng cường SAD đề xuất
2.4. Nguyên lý trích xuất đối tượng mặt phẳng
2.4.1. Độ sâu của điểm
Giá trị độ sâu z của p không những phụ thuộc vào độ chênh lệch d mà còn phụ thuộc vào tiêu cự
quang học của máy ảnh và khoảng cách giữa hai máy ảnh được tính theo công thức (2.6):
z=
f .T
xL − xR
hàng xóm của điểm p đã được gắn vào vùng mặt phẳng nếu nó đáp ứng đầy đủ các điều kiện sau:
• Điểm phải nằm cạnh khu vực phẳng được xem xét.
• Độ chênh lệch độ sâu của điểm bằng hoặc nhỏ hơn ngưỡng xác định .
Như vậy, khái niệm mặt phẳng bao gồm các điểm hàng xóm trong bản đồ độ sâu có các giá trị
gradient độ sâu không lệch quá một ngưỡng . Việc xác định ngưỡng phải đảm bảo không được bỏ
qua các điểm đất thật và không được để lọt các điểm giả đất. Đây là một công việc cần thực nghiệm
nhiều lần để đưa ra đề nghị ngưỡng xét hợp lý trong từng hoàn cảnh cụ thể.
8
2.5. Triển khai phương pháp trích xuất đối tượng mặt phẳng
2.5.1. Kiến trúc hệ thống xử lý dữ liệu tin cậy chuẩn
Hệ thống áp dụng thuật toán Tạo nhóm hàng xóm kết hợp lọc (NGaF) được đề xuất bao gồm ba
giai đoạn liên tiếp như trong Hình 2.15.
Bản đồ
độ sâu
Tăng cường
chất lượng
Tạo nhóm hàng
xóm
Chọn lọc mặt
phẳng
Tập mặt
phẳng
trình sử dụng bản đồ độ sâu gần như hoàn hảo, nó sẽ thực
thi với θ = 1 cố định. Các trường hợp khác, ngưỡng θ sẽ
cao hơn 2. Thuật toán dừng lại khi tập S trở thành tập rỗng.
Hình 2.18. Thuật toán Tạo vùng hàng xóm
2.5.2.3.
Lựa chọn các vùng phẳng
Nhiệm vụ của bước này là chọn các ứng cử viên đáp ứng một số điều kiện trong thực tế để tạo ra
một bộ mặt phẳng thực sự. Số điểm của ứng cử viên phải lớn hơn ngưỡng tối thiểu min được xác định
để đảm bảo rằng một số lượng lớn can nhiễu nhỏ bị loại bỏ thành công. Ngưỡng tối thiểu min chắc
chắn sẽ phụ thuộc vào trường hợp cảnh quan sát cụ thể.
2.5.3. Kết quả thực nghiệm và thảo luận
Trong phần này, các kết quả thử nghiệm bằng cách sử dụng phương pháp được đề xuất được trình
bày chi tiết. Thử nghiệm được thực hiện trên hai loại bản đồ chênh lệch khác nhau. Tập dữ liệu đầu
vào đầu tiên bao gồm năm bản đồ chênh lệch được thu thập từ cơ sở dữ liệu chung với liên kết
trong trường hợp có bản đồ chênh lệch hoàn hảo gồm hình
ảnh Sawtooth, Venus, Cones, Teddy, và hình ảnh Books
Để kiểm tra sự ổn định của thuật toán được đề xuất khi xử lý dữ liệu độ sâu môi trường hoạt động
của rô-bốt, chương trình được thực hiện với các bản đồ độ sâu không lý tưởng như trong Hình 2.21.
Các mặt phẳng được phát hiện như được minh họa trong cột cuối cùng được hiển thị mượt mà, trơn
tru với các cảnh thực trong nhiều cảnh thử nghiệm với số lượng đối tượng nằm trên nền tăng dần.
9
Ảnh màu
Bản đồ độ sâu
từ 64 đến 128 nhưng tốc độ giảm này chậm lại khi ngưỡng tối thiểu tăng từ 128 lên 256 trong tất cả
10
các trường hợp được thử nghiệm. Ngoài ra
số lượng các mặt phẳng phát hiện phụ thuộc
vào các đối tượng trong cảnh rất nhiều.
Hình 2.23.. Số lượng mặt phẳng được phát
hiện theo các ngưỡng tối thiểu min khác
nhau áp dụng với bản đồ độ sâu từ máy ảnh
RGB-D
Hình 2.24 minh họa so sánh giữa phương
pháp được đề xuất và ba phương pháp tiếp
cận khác bao gồm HSBSR, PPDFM,
FPDIDM về khía cạnh hình ảnh kết quả trực quan.
(a)
(b)
(c)
(d)
(e)
(f)
Hình 2.24. Kết quả của các phương pháp HSBSR [4], PPDFDM [49], FPDIDM [5] và thuật toán
đề xuất trên bản đồ chênh lệch St-Michel Jail của Toulouse
Hình 2.25 biểu diễn kết quả đánh giá so sánh dựa trên ba thông số chung bao gồm thời gian tính
toán, số lượng mặt phẳng phát hiện và tỷ lệ phần trăm của các điểm hợp lệ. Thời gian xử lý phương
pháp đề xuất thấp nhất. Ngay cả thời gian tính toán của phương pháp được đề xuất cũng giảm 33 lần
so với thuật toán RANSAC được cải thiện
HSBSR
1.5
Computation time (s)
Number of planes
Valid point (%)
2.5.4. Kết luận
Phần này thực hiện giải quyết vấn đề phát hiện mặt phẳng dựa trên bản đồ độ sâu bằng cách sử
dụng một thuật toán phân nhóm hàng xóm mới và bộ lọc hợp lý (NGaF). Ưu điểm chính của phương
pháp đề xuất này là sự đơn giản trong khi vẫn đảm bảo độ tin cậy của các kết quả.
2.6. Tổng kết chương
Chương này đã trình bày đề xuất cách phương pháp tăng cường tính toán bản đồ chênh lệch dựa
trên thuật toán SAD. Phương pháp tính toán áp dụng cho dữ liệu biên ảnh, được trích xuất từ các cặp
ảnh nổi. Khối lượng dữ liệu cần xử lý được giảm rất nhiều so với khối dữ liệu toàn ảnh nên chương
trình yêu cầu ít tải tính toán hơn. Đồng nghĩa với việc thời gian chạy nhanh hơn trên cùng một nền
tảng phần cứng. Kết quả đánh giá thời gian chạy giảm trung bình 5,7 lần. Việc áp dụng maxbias là 2,
5 và 10 chứng minh cho hiệu quả hơn thực nghiệm không dùng maxbias trong việc giảm thời gian xử
lý. Đề xuất áp dụng SAD cải thiện với bộ thông số maxbias = 10 và cửa sổ làm việc 11 11 bởi độ
11
chính xác giữ gần như không thay đổi so với phương pháp SAD gốc. Trong các mục 2.4 và 2.5 của
chương này, tác giả đã đề xuất thuật toán Nhóm hàng xóm và Lọc (NGaF) để phát hiện bề mặt phẳng
từ chỉ một bản đồ độ sâu hoặc bản đồ chênh lệch. Kết quả thử nghiệm thể hiện phương pháp được đề
xuất mạnh mẽ bằng cách so sánh ba thông số chung giữa các phương pháp, thuật toán được áp dụng
minh họa một hiệu suất cao chắc chắn.
PI
f
Hình 3.1. Mô hình toán học xác định độ chênh lệch độ sâu
Mặt khác, cũng từ Hình 3.1, độ chênh lệch độ sâu z x có
p2 + f 2
d
O
O2
p
x
thể được xác định từ khoảng cách khác nhau M G của MG1 và
MG2 trên mặt đất trong trục ngang x như thể hiện trong phương
trình (3.3).
MI2
M I1
h
z
M G2
ảnh thuộc về mặt phẳng đất. Từ phân tích đồ thị phương trình (3.2), có thể thấy rằng đối với z x = 0
, z y thông thường có giá trị lớn hơn một ngưỡng nhất định T, có thể được xác định bằng đồ thị bằng
cách xấp xỉ hai trạng thái của đường cong được đưa ra bởi tỷ lệ
dz
dp trong phương trình (3.2). Giá trị
ngưỡng này thực sự là tọa độ y tại z y = 1 . Vì độ sâu của các điểm ảnh nền thường được lượng tử
hóa bởi 8 bit, do đó z y thường khác với 0 đối với tất cả các y < T.
Trên cơ sở phân tích hình học liên quan đến các thuộc tính mặt đất, thuật toán đề xuất phân loại
một điểm được xem xét thuộc đất hoặc không đất như bảng 3.1.
12
Bảng 3.1. Phân loại điểm đất và điểm phi đất
Điều kiện
Ý nghĩa
STT
1
Z x 0
Không phải điểm mặt đất.
(3.4)
2
Z x = 0 & Z y 0
Bản đồ
độ sâu
Xây dựng bản đồ
gradient độ sâu
Lọc và Gom
nhóm
Lựa chọn mặt
đất
Tập mặt
đất
Hình 3.2. Kiến trúc hệ thống nhận dạng mặt
đất đề xuất
3.3.2. Thuật toán đề xuất
3.3.2.1.
Xây dựng bản đồ gradient độ sâu
Là tạo một bản đồ gradient độ sâu từ đầu
vào bản đồ chiều sâu bằng cách tính gradient độ
sâu theo trục y và x bằng phương trình (3.2) và
(3.3) giữa hai điểm liên tiếp.
3.3.2.2.
Lọc và gom nhóm
tổng số điểm mặt đất Pground_of_ranges trong khu vực hình chữ
nhật bao ngoài các ranges với kích thước hình chữ nhật bao
ngoài các ranges Prec , được mô tả trong phương trình (3.7):
p
=
ground _ of _ ranges
Prec
(3.7)
Hình 3.4. Thuật
toán Tinh chỉnh
vùng mặt đất
3.3.3. Kết quả thực nghiệm và thảo luận
Để thử nghiệm thuật toán đề xuất, tác giả thực hiện
trên 02 bộ dữ liệu gồm.
1. Các bản đồ chênh lệch tham chiếu tin cậy Art, Bowling1
và Wood1 trong thư viện Midlebury trong bộ ảnh 2001,
2003 và 2005. Đây là thư viện ảnh thị giác được cộng
đồng nghiên cứu ảnh thị giác nổi dùng chung. Cơ sở dữ
liệu được sự hỗ trợ của trường Middlebury College,
Microsoft Research và quỹ National Science
Foundation. Chi tiết mô tả bộ dữ liệu tham khảo [79]
[80].
2. Bộ bản đồ độ sâu thực tế được nhiều nhà nghiên cứu
Hình 3.6. Kết quả nhận dạng mặt đất của hình ảnh thử nghiệm với các giá trị B.
Chú thích: Từ trên xuống dưới, hàng đầu tiên là hình ảnh Art, hàng thứ hai là hình ảnh Bowling1
và hàng cuối cùng là hình ảnh Wood1, tương ứng.
2. Bộ bản đồ độ sâu thực tế
Việc đánh giá hiệu suất của phương pháp được đề xuất được thực hiện với 5 hình ảnh khác nhau
được thu thập bởi một máy ảnh nổi trong các trường hợp có và không có các chướng ngại vật như
trong Hình 3.7. Các mặt đất được phát hiện như được minh họa trong cột cuối cùng được hiển thị để
phù hợp với cảnh thực. Để xác định kích thước cửa sổ w trong việc xây dựng bản đồ gradient độ sâu,
tỷ lệ phần trăm điểm mặt đất được phát hiện trong mỗi hình ảnh được so sánh với ba kích thước cửa
sổ w khác nhau. Kết quả trong Hình 3.10 chỉ ra rằng kích thước cửa sổ w=5*5 tạo ra tỷ lệ phát hiện
cao nhất trên 90% trong hầu hết các trường hợp. Tiếp theo các vật cản vẫn được nhận dạng thành
công trong trường hợp của ba hình ảnh cuối cùng.
15
(a)
(b)
(c)
(d)
(e)
Hình 3.7. Kết quả của các hình ảnh được thử nghiệm trong nhiều môi trường. Chú thích: Theo cột:
(a) ảnh Street [81], (b) ảnh Vaulted [82], (c) ảnh Kitchen [83], (d) ảnh Balls [84] và (e) ảnh
Canyon [85];
100
w =3x3
w =5x5
95.2
ứng θ.
87.8
63.7
60
40
20
0
B=4x 4
100
88.5 87
Vaulted
Kitchen
Balls
Canyon
B = 16 x 16
95
88.292.1
88
89.1
90
86.1
85
80
75
Street
Vaulted
Kitchen
balls
Canyon
percentage of detected ground point
100
98.6
Vaulted
Kitchen
Hình 3.9. Tỷ lệ điểm mặt đất phát hiện sau hiệu
chỉnh theo các kích thước khối B với cửa sổ
B = 8 x 8 B = 16 x 16
97.5 97.1
93.7
80
67.3
87.1 90 85.7
71 68.4
60
40
20
0
Street
Vaulted
Kitchen
balls
Canyon
Hình 3.10. Tỷ lệ điểm mặt đất phát hiện sau Hình 3.11 Tỷ lệ điểm mặt đất được phát hiện sau
quá trình hiệu chỉnh theo các kích thước khối B quá trình hiệu chỉnh theo các kích thước khối B
với cửa sổ w = 5 5
cứng nhúng. Đối với nền tảng phẩn cứng của rô-bốt di động được trang bị máy ảnh thị giác nổi, thuật
toán đề xuất sẽ được triển khai để kiểm tra khả năng điều hướng rô-bốt.
3.4. Phương pháp nhận dạng đối tượng mặt phẳng đất từ dữ liệu độ sâu thực tế
3.4.1. Giới thiệu
Phương pháp nhận dạng mặt đất được trình bày trong mục này. Kết quả kinh nghiệm được so
sánh với các cách tiếp cận cổ điển và gần đây khác, chẳng hạn như thuật toán RANSAC và VDisparity nâng cao.
3.4.2. Kiến trúc hệ thống trích mặt đất từ dữ liệu độ sâu môi trường thực tế
Sơ đồ khối của hệ thống trích chọn mặt đất được mô tả trong Hình 3.13. Trong đó thuật toán GDM
đóng vai trò quan trọng để phát hiện các mặt phẳng trong ảnh được thu thập bởi máy ảnh RGB-D trong
khối đầu vào. Các mặt phẳng ứng cử cuối cùng sẽ được phát hiện sau quá trình tinh chỉnh để loại bỏ
các mặt phẳng không đáng tin cậy.
Máy ảnh
RGB-D
Nhận dạng mặt đất
dựa trên GDM
Hiệu chỉnh mặt
đất
tập mặt đất
Hình 3.13. Sơ đồ khối chức năng hệ thống trích mặt đất từ dữ liệu độ sâu từ máy ảnh RGB-D
3.4.2.1.
Kích thước điểm trong bản đồ độ sâu
17
(b)
(c)
(d)
Hình 3.15. Kết quả của các hình ảnh được thử nghiệm trong nghiên cứu điển hình.
Chú thích: Theo hàng từ trên xuống dưới, hàng đầu tiên là hình ảnh màu, hàng thứ hai là hình
ảnh sâu, hàng thứ ba là bản đồ x-gradient, hàng thứ tư là bản đồ y-gradient, hàng thứ năm được
nhận dạng mặt đất, hàng thứ sáu là mặt đất được phát hiện của thuật toán RANSAC và hàng cuối
cùng là mặt đất tham chiếu, tương ứng; Theo cột từ trái qua phải: cột (a): nền ảnh không có vật cản,
(b) nền ảnh có 2 vật cản, (c) nền ảnh có 3 vật cản và (d) nền ảnh có vật cản che phủ gần hết.
Để đánh giá hiệu quả của phương pháp được đề xuất, tỷ lệ phần trăm của các điểm đất được phát
hiện R1 và tỷ lệ phần trăm của các điểm mặt đất được phát hiện không chính xác R2 thường được xác
định trong một kích thước cửa sổ làm mịn đã cho B. Trong khuôn khổ nghiên cứu, ba cửa sổ làm mịn
B có kích thước 8 × 8, 16 × 16 và 32 × 32 tương ứng như trong Hình 3.16. Trong trường hợp bản đồ
độ sâu không chướng ngại vật, phương pháp được đề xuất tốt hơn với R1 lớn hơn 96% và giá trị của
R2 ít hơn 2% (xem Hình 3.17). Trong loạt bản đồ độ sâu có chứa các chướng ngại vật trên mặt đất,
tỷ lệ phần trăm các điểm ảnh mặt đất được phát hiện chính xác R1 là tốt nhất và ổn định ở kích thước
cửa sổ B = 16 × 16 (xem Hình 3.16). Khi độ phức tạp của quá trình phát hiện đất được tăng lên, giá
trị của R2 cũng tăng lên khoảng 5% (xem Hình 3.17).
Hình 3.16. Tỷ lệ điểm mặt đất được phát hiện
đúng R1 theo kích thước cửa sổ làm mịn B
Hình 3.17. Tỷ lệ điểm mặt đất lỗi theo các kích
thước cửa sổ làm mịn B.
Hơn nữa, R1 và R2 của công trình nghiên cứu được so sánh với kết quả của thuật toán 3D
RANSAC được sử dụng trong phương pháp [86] và V-Disparity được sử dụng trong [88] như minh
họa trong Hình 3.18 và Hình 3.19 tương ứng. Tỷ lệ R1 của phương pháp được đề xuất lớn hơn R1
của RANSAC 3D và phương pháp V-Disparity nâng cao. Những so sánh này được thực hiện với kích
thước tối ưu của cửa sổ B = 16 × 16. Trong khi đó, tỷ lệ R2 của phương pháp đề xuất luôn thấp nhất
ưu điểm của phương pháp tiếp cận [32] [33] [34] bằng cách giới thiệu một phương pháp điều hướng
đơn giản mà không cần tích hợp trí tuệ nhân tạo trên rô-bốt di động.
4.2. Phương pháp dẫn đường sử dụng phương pháp nhận dạng mặt đất
4.2.1. Mô hình hoạt động của rô-bốt trong nhà
Rô-bốt bao gồm các thành phần như được mô tả trong Hình 4.1.
Hình 4.1. Mô hình rô-bốt sử dụng hệ thống dẫn
đường dựa trên thị giác máy tính
Hình 4.3. Mô hình toán học để tính toán
kích thước của điểm sâu
20
4.2.2. Xác định kích thước 2D của điểm sâu
Đặt máy ảnh ở vị trí O, trục Oz trùng với trục quang của máy ảnh, trục Oy được hướng từ dưới
lên trên, trục Ox được hướng từ phải sang trái, như được minh họa trong Hình 4.3. Để tính toán kích
thước điểm M dọc theo trục x với độ sâu được chỉ định, hãy sử dụng sự tương đồng của hai tam giác
OI’M’x và OIMx. Cuối cùng, ta có thể nhận được kích thước của M trong không gian 3D Oxyz bao
gồm (Mx, My, Mz).
4.2.3. Phương pháp dẫn đường AMSD đề xuất dựa trên khai thác dữ liệu độ sâu
Phương pháp bao gồm các giai đoạn liên tiếp như trong Hình 4.4.
Bản đồ
độ sâu
Tăng cường
chất lượng
A
M
Q
B
C
D
P
N
MN là khoảng cách từ rô-bốt đến vạch kiểm tra chướng ngại vật,
O
trong đó có các phân đoạn AB, CD như trong Hình 4.6a.
Hình 4.6(a). Mô hình toán học cải tiến lựa
chọn hướng di chuyển của rô-bốt
MQ
OQ
−
MN
chặn bởi chướng ngại vật. Từ thời điểm này, chiến thuật
tránh chướng ngại vật có ưu tiên cao hơn chiến thuật di
chuyển thẳng đến mục tiêu.
Hình 4.7. Thuật toán điều hướng cải thiện dựa trên bản đồ độ sâu cho rô-bốt di động trong nhà
21
4.3. Kết quả thực nghiệm phương pháp dẫn đường AMSD dựa trên nhận dạng mặt
đất và thảo luận
4.3.1. Kết quả thực nghiệm của phương pháp tránh vật cản cơ bản
Rô-bốt hoạt động trong phạm vi 10mx8m. Khoảng cách giữa điểm xuất phát và mục tiêu là
khoảng 9m. Rô-bốt đạt đến đích với tỷ lệ thành công là 98%, tuy nhiên thời gian của mỗi lần thử
nghiệm không giống nhau. Toàn bộ nền tảng phần cứng điện tử này được gắn trên một chiếc xe có
02 động cơ để điều khiển hai bánh xe chủ động phía trước (Hình 4.8).
4.3.2. Kết quả thực nghiệm của phương pháp tránh vật cản cải thiện
Trong suốt thời gian thử nghiệm, chỉ có cảm biến RGB-D được gắn trên
xe rô-bốt để cung cấp thông tin hỗ trợ định vị tương đối, phát hiện và tránh
chướng ngại vật. Các thí nghiệm được tiến hành trong môi trường thực tế với
các thiết lập chướng ngại khác nhau để kiểm tra độ ổn định của phương pháp
đề xuất như được mô tả trong Hình 4.11. Rô-bốt có thể tránh được các vật cản
tĩnh trên đường di chuyển của nó từ điểm xuất phát đến đích xác định trước bởi
các quyết định điều hướng đầy đủ như di chuyển thẳng hoặc di chuyển sang
phải hoặc di chuyển sang trái. Ngoài ra, có sự xuất hiện của các vật thể chuyển
động như hiện tượng của một người vào tầm nhìn của xe rô-bốt. Cả video điều
hướng dựa trên độ sâu và video màu đều được lưu.
Hình 4.8. Hệ thống xe rô-bốt thử nghiệm
Khung ảnh màu
hình
22
(11) 10.40.14
(5) 10.38.42
(6) 10.38.53
Ảnh RGB
Ảnh RGB
Bản đồ mặt đất
với hướng di
chuyển của rô-bốt
Bản đồ mặt đất với hướng
di chuyển của rô-bốt
Hình 4.11. Kết quả thuật toán điều hướng cải tiến
Hình 4.12b minh họa kết quả theo dõi vị trí của xe
rô-bốt với kịch bản có nhiều vật cản. Rô-bốt đạt được điểm
đến trong cả hai trường hợp với một vật cản và nhiều vật
cản với góc điều chỉnh hướng gần như vô cấp. Vì vậy,
phương pháp điều hướng AMSD đề xuất thể hiện tính linh
hoạt hơn và mượt mà hơn ba công trình khác gần đây như
so sánh được trình bày trong Bảng 4.1. Tỷ lệ định hướng
hoặc phân loại tình huống đúng của chiến thuật dẫn đường
22.5
45
11.25
180
360
4
16
1
0.5
180
180
Bảng 4.2. So sánh tỷ lệ điều hướng thành công
Phương pháp (Tác giả)
(Correa) [32]
Tỷ lệ định hướng/phân loại đúng (%)
(Biswas) [91]
Phương pháp đề xuất AMSD
100