ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƢỜNG ĐẠI HỌC BÁCH KHOA
NGUYỄN TẤN LŨY
NGUYỄN TẤN LŨY NGHIÊN CỨU GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU
KHIỂN THÍCH NGHI BỀN VỮNG CHO HỆ PHI TUYẾN LUẬN ÁN TIẾN SĨ KỸ THUẬT Chuyên ngành: Tự động hóa
Mã số chuyên ngành: 62.52.60.01
Phản biện độc lập 1: GS.TS Phan Xuân Minh
Phản biện độc lập 2: PGS.TS Nguyễn Chí Ngôn Phản biện 1: GS.TSKH Hồ Đắc Lộc
Phản biện 2: PGS.TS Nguyễn Ngọc Lâm
Phản biện 3: PGS.TS Lê Minh Phương
HƯỚNG DẪN KHOA HỌC
1. TS. NGUYỄN THIỆN THÀNH
NGƯỜI HƯỚNG DẪN KHOA HỌC
1. TS. NGUYỄN THIỆN THÀNH
2. TS. HOÀNG MINH TRÍ 2. TS. HOÀNG MINH TRÍ
i
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của bản thân tôi. Các kết quả
nghiên cứu và các kết luận trong luận án này là trung thực, và không sao chép từ bất
kỳ một nguồn nào và dưới bất kỳ hình thức nào. Việc tham khảo các nguồn tài liệu đã
được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định.
Tác giả luận án
Ban đầu, cấu trúc ADP chuẩn với hai hoặc ba xấp xỉ hàm được sử dụng để chuyển đổi
thành cấu trúc điều khiển với duy nhất một xấp xỉ hàm để tránh độ phức tạp tính toán
và lãng phí tài nguyên nhằm đẩy nhanh tốc độ hội tụ. Sau đó, luật cập nhật mới cho
tham số cho xấp xỉ hàm và các giải thuật điều khiển mới được thiết kế. Trong giải
thuật, các luật cập nhật tham số được đồng bộ hóa trong một bước lặp nhằm tăng tốc
độ hội tụ. Bên cạnh đó, luật điều khiển ổn định ban đầu để khởi động giải thuật là
không cần thiết. Từ đó, thủ tục thiết kế trở nên linh hoạt hơn. Giải thuật đảm bảo rằng
hàm chi phí được tối thiểu, tham số xấp xỉ hàm và luật điều khiển hội tụ về giá trị cận
iii
tối ưu trong khi toàn bộ trạng thái của hệ kín và sai số xấp xỉ bị chặn theo tiêu chuẩn
UUB (Uniform Ultimate Bounded). Kết quả mô phỏng có so sánh với các phương
pháp khác sử dụng hai hoặc ba xấp xỉ hàm cho thấy tính hiệu quả của giải thuật OADP
và ORADP.
Để kiểm tra khả năng ứng dụng của giải thuật ORADP, mô phỏng số và thực
nghiệm cho robot di động dạng xe (Wheeled Mobile Robot (WMR)) được tiến hành.
So sánh với các giải thuật điều khiển thích nghi khác, giải thuật ORADP điều khiển
WMR có một số ưu điểm mới. Thứ nhất, việc chia tách bộ điều khiển động học
(kinematic) và động lực học (dynamic) sử dụng phổ biến trong điều khiển thích nghi
cho WMR là không cần thiết. Từ đó, tránh phụ thuộc vào kinh nghiệm của người thiết
kế trong việc lựa chọn các tham số cho bộ điều khiển động học. Thứ hai, không đòi
hỏi nhận dạng trực tiếp hoặc gián tiếp thành phần động học không chắc chắn, không
cấu trúc trong mô hình robot. Cuối cùng, với giải thuật ORADP, hàm chỉ tiêu chất
lượng có liên quan đến sai số bám cả về động học, động lực học lẫn năng lượng điều
khiển được tối thiểu.
Giải thuật ORADP tiếp tục được sử dụng để thiết kế mở rộng cho bài toán điều
khiển hợp tác nhiều hệ phi tuyến MIMO không sử dụng thông tin về động học nội hệ
thống. Ban đầu, lý thuyết đồ thị được sử dụng để thiết lập cấu hình truyền thông phân
tán cho nhiều hệ phi tuyến hợp tác. Sau đó, giải thuật ORADP được thiết kế mở rộng
two or three approximators are used to transform into control structures with only
single approximator to avoid the complex computation and waste of resources in order
to accelerate the speed of update processes. Then, novel update laws for the
approximator’s parameters and the novel algorithms are designed. In the algorithm,
parameter update laws are synchronized in one iterative step to increase the speed of
convergence. Besides, any stability control law to initialize algorithm is not needed;
Therefore, design procudures become more flexible. The algorithms guarantee that
v
cost functions are minimized, parameters of approximators and control laws converge
to suboptimal values while all closed-system states and the approximate errors are
bounded by UUB (Uniform Ultimate Bounded) standard. The results of numerical
simulation compared with other methods using two or three approximators
demonstrate the effectiveness of the OADP and ORADP algorithms.
To verify the application ability of ORADP algorithm, simulation and
experiment for WMR (Wheeled Mobile Robot) are conducted. It is shown that when
ORADP algorithm is applied to control WMR, some novel advantages compared with
other adaptive control algorithms have been gained. Firstly, the separation of
kinematic and dynamic controllers that commonly used in adaptive control for WMR
is unnecessary. By doing that, we can avoid depending on the designer's experience in
choosing the parameters for the kinematic controller. Secondly, identifying directly or
indirectly uncertainty, unstructured and unmodeled dynamics in the robot models is
not required. Lastly, using ORADP algorithm, the performance index function related
to both kinematic, dynamic tracking errors and control energy is minimized.
The ORADP algorithm is continuously designed extendedly for the cooperative
control problem of multiple MIMO nonlinear systems without using the knowledge of
system internal dynamics. Initially, graph theory is used to establish distributed
communication configures for multiple cooperative nonlinear systems. Then, ORADP
algorithm is expanded to become the robust adaptive cooperative control algorithm.
MỤC LỤC
DANH MỤC CÁC HÌNH VẼ x
DANH MỤC CÁC GIẢI THUẬT VÀ BẢNG BIỂU xii
DANH MỤC CÁC TỪ VIẾT TẮT xiii
DANH MỤC CÁC KÝ HIỆU xv
CHƢƠNG 1 GIỚI THIỆU 1
1.1 Tổng quan về đề tài 1
1.1.1 Khái niệm về học củng cố 1
1.1.2 Lịch sử phát triển của RL trong điều khiển 2
1.2 Động cơ, mục tiêu và nhiệm vụ nghiên cứu 5
1.2.1 Sự cần thiết phải nghiên cứu học củng cố trong điều khiển 5
1.2.2 Tính cấp thiết của đề tài 7
1.2.3 Mục tiêu nghiên cứu 8
1.2.4 Nhiệm vụ nghiên cứu 8
1.3 Đối tượng, phạm vi và phương pháp nghiên cứu 9
1.3.1 Đối tượng và phạm vi nghiên cứu 9
1.3.2 Phương pháp nghiên cứu 11
1.4 Những đóng góp mới của luận án về mặt khoa học 11
1.4.1 Về mặt lý thuyết 11
1.4.2 Về mặt thực tiễn 12
1.5 Bố cục luận án 13
CHƢƠNG 2 CƠ SỞ LÝ THUYẾT 14
2.1 Các định nghĩa 14
2.2 Lý thuyết học củng cố 14
2.3 Các giải thuật học củng cố kinh điển 16
2.3.1 Giải thuật VI (Value Iteration) 16
2.3.2 Giải thuật PI (Policy Iteration) 17
2.3.3 Giải thuật Q-Learning 18
2.4 Xấp xỉ hàm trong RL 19
4.5 Tóm tắt 59
CHƢƠNG 5 ÁP DỤNG GIẢI THUẬT ORADP CHO ROBOT DI ĐỘNG 61
5.1 Mô hình phi tuyến của WMR 63
5.2 Mô hình WMR thực nghiệm 67
5.3 Giải thuật ORADP áp dụng cho WMR 72
5.4 Mô phỏng 74
5.4.1 Quỹ đạo tham chiếu 75
5.4.2 Thiết lập tham số học 76
ix
5.4.3 Kết quả mô phỏng 76
5.5 Thực nghiệm 80
5.6 Tóm tắt 86
CHƢƠNG 6 GIẢI THUẬT HỌC CỦNG CỐ ĐIỀU KHIỂN THÍCH NGHI BỀN
VỮNG HỢP TÁC NHIỀU HỆ PHI TUYẾN MIMO 88
6.1 Lý thuyết đồ thị và mô hình hợp tác nhiều hệ phi tuyến MIMO 89
6.1.1 Đồ thị truyền thông phân tán 89
6.1.2 Động học nút 90
6.1.3 Mô hình hợp tác nhiều hệ phi tuyến 91
6.2 Phân tích, thiết kế mở rộng giải thuật học củng cố ORADP 95
6.2.1 Học củng cố trong điều khiển hợp tác 95
6.2.2 Cấu trúc điều khiển và luật cập nhật trong ORADP mở rộng 95
6.2.3 Giải thuật ORADP mở rộng 100
6.2.4 Phân tích ổn định và hội tụ của giải thuật ORADP mở rộng 101
6.3 Điều khiển hệ thống robot bầy đàn bằng giải thuật ORADP mở rộng 101
6.3.1 Mô hình hệ thống robot bầy đàn 102
6.3.2 Áp dụng giải thuật và kết quả mô phỏng 105
6.4 Tóm tắt 109
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 111
tối ưu xấp xỉ và tối ưu lý thuyết 57
Hình 4.5 ORADP và AC3NN: a) Sai số giữa luật điều khiển tối ưu xấp xỉ và tối ưu lý
thuyết; b) Sai số giữa luật nhiễu tối ưu xấp xỉ và tối ưu lý thuyết 57
Hình 4.6 Sự mất ổn định và không hội tụ của trọng số NN của giải thuật AC3NN với
giá trị khởi tạo bằng không 58
Hình 4.7 Sự ổn định và hội tụ của trọng số NN của giải thuật ORADP với giá trị khởi
tạo bằng không 59
Hình 5.1 Mô hình robot di động dạng xe (WMR) 63
Hình 5.2 Mô hình robot thực nghiệm: a) Mặt sau; b) Mặt trước 68
Hình 5.3 Mô hình hệ thống thị giác đa chiều trên robot 69
Hình 5.4 Ảnh không gian thực qua hệ thống thị giác đa chiều 70
Hình 5.5 Xác định tâm robot so với hệ trục cố định 70
Hình 5.6 Sơ đồ điều khiển sử dụng ORADP cho WMR 73
Hình 5.7 Lịch trình thay đổi khối lượng robot trong quá trình điều khiển 75
Hình 5.8 Lịch trình thay đổi mô men quán tính robot trong quá trình điều khiển 76
Hình 5.9 Sự hội tụ của trọng số NN trong quá trình học điều khiển 77
Hình 5.11 Sai số bám vị trí: a) Toàn bộ quá trình; b) Sau khi hội tụ 79
Hình 5.12 Quỹ đạo , trong quá trình học điều khiển: a) ; b) 79
Oxy
xi
Hình 5.14 Sai số bám vận tốc: a) Vận tốc quay; b)Vận tốc dài 80
Hình 5.15 Quỹ đạo vận tốc quay: a) Toàn bộ quá trình; b) Sau khi hội tụ 81
Hình 5.16 Quỹ đạo vận tốc dài: a) Toàn bộ quá trình; b) Sau khi hội tụ 81
Hình 5.17 Mô men điều khiển tối ưu: a) Toàn bộ quá trình; b) Sau khi hội tụ 81
Hình 5.18 Quỹ đạo x-y thực nghiệm: a) Toàn bộ quá trình; b) Sau khi hội tụ 82
Hình 5.23 a) Không gian hoạt động; b) Quỹ đạo của robot so với tham chiếu 85
Hình 5.24 a) Sai số bám vị trí , , ; b) Sai số bám vận tốc dài 85
Hình 5.25 a) Sai số bám vận tốc góc; b) Mô men điều khiển 85
Giải thuật 2.2 PI 17
Giải thuật 2.3 Q-Learning 18
Giải thuật 2.4 ADP sử dụng hai NN cập nhật tuần tự 23
Giải thuật 2.5 ADP sử dụng hai NN cập nhật đồng bộ 23
Giải thuật 2.6 ADP sử dụng ba NN cập nhật tuần tự 24
Giải thuật 2.7 ADP sử dụng ba NN cập nhật đồng bộ 25
Giải thuật 3.1 OADP 34
Giải thuật 4.1 ORADP 53
Giải thuật 5.1 ORADP áp dụng cho WMR 74
Giải thuật 6.1 ORADP mở rộng 100
Bảng 3.1 So sánh chỉ tiêu chất lượng giữa OADP và AC2NN 38
Bảng 3.2 Chỉ tiêu chất lượng khi trọng số của các NN được khởi tạo bằng không 40
Bảng 4.1 So sánh chỉ tiêu chất lượng giữa ORADP và AC3NN 57
xiii
DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết
tắt
Thuật ngữ tiếng anh
Giải thích
(A)NN
(Artificial) Neural Network
Mạng thần kinh (nhân tạo), được viết tắt là
NN trong luận án
ANRBF
Adaptive Normalized Radial
Basis Function
NN có hàm cơ sở xuyên tâm được chuẩn
CNN
Critic Neural Network
NN critic đóng vai trò xấp xỉ hàm đánh giá
trong cấu trúc AC
COD
Curse of Dimensionality
Sự bùng nổ tổ hợp không gian trạng thái
DP
Dynamic Programming
Qui hoạch động
HJB
Hamilton-Jacobi-Bellman
HJI
Hamilton-Jacobi-Isaacs
IDP
Incremental Dynamic
Programming
Qui hoạch động tăng cường: phương pháp
xấp xỉ nghiệm ARE online cho hệ tuyến
tính không biết trước các ma trận trạng thái
LS
Least Square
Phương pháp bình phương tối thiểu
LQR
Linear Quadratic Regulation
Điều khiển tối ưu tuyến tính dạng toàn
phương
MIMO
Persistence of Excitation
Kích thích hệ thống bằng cách thêm nhiễu
vào véc tơ tín hiệu vào/ra. PE là điều kiện
để tham số hội tụ trong nhận dạng và điều
khiển thích nghi.
PI
Policy Iteration
Giải thuật học củng cố sử dụng một số
bước lặp để xấp xỉ luật điều khiển tối ưu
RL
Reinforcement Learning
Học củng cố
RBF
Radial Basis Function
NN có hàm cơ sở xuyên tâm
RARBF
Resource Allocating Radial
Basis Function
NN có hàm cơ sở xuyên tâm được cấp phát
động
SISO
Single Input-Single Output
Hệ thống một ngõ vào một ngõ ra
TD
Temporal Difference
Sai phân tạm thời: giải thuật cập nhật tham
số của bộ dự báo liên quan đến sai phân tín
hiệu theo thời gian sử dụng trong học củng
cố
UUB
Tập đóng (
) bao quanh gốc: nếu
thì là lân cận quanh
điểm cân bằng
0
.
Chuẩn của véc tơ
Chuẩn vô cùng của véc tơ
Chuẩn của ma trận
Chuẩn vô cùng của ma trận
=
1, ,1
Diag(
i
) Ma trận đường chéo chứa các phần tử
i
2
0,
Không gian Banach, nếu
2
0,
thì
() Hàm đánh giá tối ưu
,
Véc tơ tín hiệu ngõ vào điều khiển và ngõ vào điều khiển tối ưu
Véc tơ nhiễu của hệ thống
Véc tơ tín hiệu trạng thái của hệ thống
0
Véc tơ trạng thái của hệ thống tại thời điểm = 0
xvi
Véc tơ ngõ ra của hệ thống
Hàm chỉ tiêu chất lượng của hệ thống
Trị riêng nhỏ nhất của ma trận (
×
)
Trị riêng lớn nhất ma trận (
×
)
1
CHƢƠNG 1 GIỚI THIỆU
1.1 Tổng quan về đề tài
1.1.1 Khái niệm về học củng cố
Học củng cố (Reinforcement Learning (RL)) thuộc lớp phương pháp học máy
(Machine Learning) [63], [96] dùng để giải bài toán tối ưu bằng cách liên tục điều
chỉnh hành động của tác tử (Agent). Lý thuyết RL hình thành dựa trên sự quan sát và
nghiên cứu thuộc tính và hành vi của động vật khi tương tác với môi trường để thích
nghi và tồn tại. Các giải thuật điều khiển dựa vào RL mô phỏng bản năng của động
vật. Đó là biết học hỏi từ sai lầm, biết tự dạy chính mình, biết sử dụng thông tin trực
tiếp từ môi trường cũng như thông tin đã đánh giá trong quá khứ để củng cố, điều
chỉnh hành vi nhằm liên tục cải thiện chất lượng tương tác, tối ưu hóa mục tiêu nào đó
theo thời gian (Hình 1.1).
Phương pháp RL, đặc biệt hữu ích nếu môi trường thiếu thông tin để ra quyết
định chọn hành động. Trong trường hợp đó, RL sử dụng phương pháp thử và sai có
đánh giá. Thông tin hồi tiếp từ môi trường tương ứng với hành động thử sai được đánh
giá và lưu trữ. Sau đó, dựa vào thông tin lưu trữ, chiến lược chọn hành động tốt hơn
được thực hiện để cải thiện chất lượng tương tác với môi trường [18], [56], [68], [71],
[96], [100], [112].
Trong điều khiển tối ưu, RL học thích nghi trực tuyến nghiệm HJB dựa vào
thông tin vào ra của đối tượng với mục tiêu tối thiểu hàm chi phí cho trước. RL được
chứng minh là phương pháp điều khiển tối ưu thích nghi trực tiếp [43], [44]-[46], [63]
[72]-[73], [84], [92], [96]-[98], [100]-[103], [108]-[113].
Lý thuyết RL kế thừa từ lý thuyết tối ưu của qui hoạch động (Dynamic
Programming (DP)) [16] và phát triển thành lý thuyết qui hoạch động thích nghi
(Adaptive Dynamic Programming (ADP)) hoặc qui hoạch động xấp xỉ (Approximate
Dynamic Programming (ADP)) [35], [38], [39], [43], [53], [60], [61], [72], [73], [84],
[92], [98], [109], [113], [114], [120], [128]-[130]. ADP đã khắc phục được các hạn chế
của DP như off-line, không điều khiển thời gian thực, cần mô hình toán chính xác.
Hành động
Bộ nhớ
3
điều khiển được lượng tử hóa cùng với không gian trạng thái, giải thuật Q-Learning
[116] được đề nghị. Trong Q-Learning luật cập nhật tham số không phụ thuộc vào mô
hình hệ thống. Tuy nhiên, tất cả các giải thuật nêu trên chỉ áp dụng cho bài toán điều
khiển off-line.
Một trong những nghiên cứu RL thành công chuyển từ điều khiển off-line sang
online trong giai đoạn này là phương pháp qui hoạch động tăng cường (Incremental
Dynamic Programming (IDP)) [20], [42]. IDP được thiết kế để điều khiển tối ưu
thích nghi dựa trên giải thuật Q-learning, xấp xỉ online nghiệm cho bài toán LQR
(Linear Quaratic Regulation) rời rạc với các ma trận trạng thái không biết trước. Bên
cạnh đó, phải kể đến một loạt các nghiên cứu thành công khác, đó là sử dụng xấp xỉ
hàm vào cấu trúc ADP để giải quyết vấn đề bùng nổ tổ hợp trong không gian trạng thái
rời rạc cho hệ đa biến [88].
Các ứng dụng ADP với xấp xỉ hàm từ đó tiếp tục được phát triển mở rộng [27],
[96], [99], [123]. Tuy nhiên, hầu hết các nghiên cứu trong giai đoạn này không chứng
minh tính ổn định hệ thống trong quá trình học và điều khiển. Ngoài ra, luật cập nhật
online cho tham số xấp xỉ hàm chưa được thiết kế chặt chẽ. Một điểm quan trọng khác
đáng lưu ý trong giai đoạn này là RL chỉ được áp dụng cho hệ thống rời rạc. Lý do này
xuất phát từ thuộc tính rời rạc của qui hoạch động mà RL thừa kế (xem [73] cùng các
tài liệu tham khảo trong đó).
Ở giai đoạn thứ hai (từ những năm 2005-2010), các nhà nghiên cứu tập trung vào
việc sử dụng lý thuyết điều khiển hiện đại vào RL để thiết kế bộ điều khiển online cho
hệ thống phi tuyến [71]. Ngoài ra, do không thể áp dụng phương pháp RL rời rạc cho
hệ thống liên tục nên lý thuyết RL bắt đầu chuyển hướng. Giải thuật điều khiển tối ưu
thích nghi cho hệ thống tuyến tính liên tục với ma trận trạng thái không biết trước
được đề xuất trong [110] với kết quả là nghiệm tối ưu được xấp xỉ online đến nghiệm
(Actor 2)
Chặn trên
của nhiễu
Trạng thái
/Ngõ ra
Xấp xỉ hàm (Critic)
(Hàm chi phí)
Xấp xỉ hàm (Actor 1)
Môi trường
(Đối tượng)
Hành động
(Tín hiệu điều khiển) 5
Giai đoạn thứ ba (từ năm 2010 cho đến nay), lịch sử phát triển về RL liên quan
đến bài toán điều khiển tối ưu thích nghi cho hệ phi tuyến chứa một vài thành phần
động học hệ thống không biết trước [17]-[19], [38], [58], [61], [63], [66], [71], [80]-
[81], [85], [105]-[106], [120]-[121], [128]-[129]. Song song với các nghiên cứu vừa
nêu là các nghiên cứu về giải thuật RL cho bài toán điều khiển tối ưu
với hệ tuyến
tính có ma trận trạng thái không biết trước [109], hoặc hệ phi tuyến với các thành phần
động học trong mô hình hoàn toàn xác định [31], [53], [56], [57], [102]-[103]. Đa số
các nghiên cứu này đều sử dụng cấu trúc ADP với ba xấp xỉ hàm [43], [67], [84],
[123]. Một xấp xỉ hàm (Actor 2 trong H. 1.3) được thêm vào cấu trúc ADP nhằm xấp
xỉ chặn trên của nhiễu (nhiễu xấu nhất).
Xuất phát từ lý thuyết của RL, nghiên cứu chuyên sâu hơn nữa để phát triển RL
muốn. Về mặt toán học, bài toán điều khiển tối ưu được giải nếu nghiệm phương trình
Hamilton-Jacobi-Bellman (HJB) được giải. Đối với hệ tuyến tính, HJB trở thành
phương trình ARE (Algebraic Riccati Equation). Đối với hệ phi tuyến, HJB trở thành
phương trình vi phân phi tuyến. Với hệ tuyến tính thiếu thông tin về ma trận trạng thái,
nghiệm ARE không thể giải được bằng giải tích, với hệ phi tuyến, nghiệm giải tích
HJB là rất khó giải, nếu không muốn nói là không thể cho dù biết trước mô hình hệ
thống. Vì lý do đó, vấn đề xấp xỉ nghiệm HJB được đặt ra.
Lý thuyết điều khiển bền vững sử dụng chuẩn
đóng vai trò rất quan trọng
trong phân tích và thiết kế hệ thống [131]. Bộ điều khiển tối ưu bền vững
được
thiết kế bằng cách giải phương trình đại số Riccati mở rộng cho hệ tuyến tính [109] và
HJI (Hamilton-Jacobi-Isaacs) cho hệ tuyến tính [107]. Mặc dù lý thuyết điều khiển
hiện đại liên quan đến bài toán điều khiển
cho hệ phi tuyến [15] nhưng trong nhiều
ứng dụng thực tế, vấn đề phức tạp ở chỗ làm thế nào để tìm nghiệm HJI, bởi vì đây là
phương trình vi phân phi tuyến không có nghiệm giải tích [100], [122].
Lý thuyết RL là một trong những công cụ mạnh dùng để nghiên cứu và phát triển
các giải thuật điều khiển tối ưu bằng cách xấp xỉ online nghiệm HJB và HJI nhằm
khắc phục các hạn chế nêu trên [10], [11], [17]-[19], [38], [53], [61]-[58], [63], [66],
[71], [81]-[80], [85], [105]-[106], [120]-[122], [128]-[129]. Tuy nhiên, trong hầu hết
các giải thuật RL, thành phần động học nội trong mô hình hệ phi tuyến đòi hỏi phải
xác định trước và nhiễu tác động bị bỏ qua [100], [106]. Vì vậy, kết hợp đặc tính thích
nghi bền vững vào giải thuật RL để giải bài toán điều khiển tối ưu cho hệ phi tuyến
chứa thành phần động không có thông tin xác định, bị tác động bởi nhiễu là cần thiết.
7
xấp xỉ hàm phụ thuộc lẫn nhau, nếu khởi tạo trọng số NN không phù hợp sẽ dẫn đến
hệ kín mất ổn định ngay từ những thời điểm học đầu tiên [100]. Hay nói cách khác,
tìm luật điều khởi tạo ổn định cho giải thuật là điều bắt buộc.
Để khắc phục nhược điểm nêu trên, một số nghiên cứu về RL đề xuất giảm số