Giới thiệu lý thuyết trò chơi và một số ứng dụng trong kinh tế học vi mô - Pdf 15

Chương trình Giảng dạy Kinh tế Fulbright Kinh tế vi mô Nhập môn Lý thuyết trò chơi
Niên khóa 2005 - 2006

Vũ Thành Tự Anh
1
GIỚI THIỆU LÝ THUYẾT TRỊ CHƠI
VÀ MỘT SỐ ỨNG DỤNG TRONG KINH TẾ HỌC VI MƠCho đến nay, chúng ta đã nghiên cứu bốn hình thái cấu trúc thị trường cơ bản là cạnh
tranh hồn hảo, độc quyền, cạnh tranh độc quyền, và độc quyền nhóm. Ngun tắc tối đa
hóa lợi nhuận của các doanh nghiệp hoạt động trên 3 loại thị trường đầu là quy tắc quen
thuộc MR = MC. Trong khi đó, ở thị trường độc quyền nhóm (oligopoly), mỗi doanh
nghiệp trên thị trường có một thế lực nhất định, đồng thời tồn tại tương tác chiến lược (về
định giá và sản lượng chẳng hạn) với những doanh nghiệp khác thì cơng thức MR = MC
khơng còn thích hợp nữa. Vì vậy, để nghiên cứu ứng xử của các doanh nghiệp trong loại
hình cấu trúc thị trường này, chúng ta phải sử dụng một cơng cụ có khả năng phân tích
được những tương tác chiến lược của các doanh nghiệp tham gia thị trường. Cơng cụ đó
là lý thuyết trò chơi.
1
Lý thuyết trò chơi nghiên cứu các tình huống ra quyết định có liên
quan tới nhiều người và các quyết định của mỗi người ảnh hưởng tới lợi ích và quyết định
của những người khác.
Có một số phương pháp phân loại trò chơi. Nếu căn cứ vào khả năng hợp đồng và chế tài
hợp đồng của những người chơi thì có thể chia trò chơi thành hai loại: trò chơi hợp tác
(cooperative games) và trò chơi bất hợp tác (non-cooperative games). Trong trò chơi hợp
tác, những người chơi có khả năng cùng nhau lập chương trình (kế hoạch) hành động từ
trước, đồng thời có khả năng chế tài những thỏa thuận chung này. Còn trong trò chơi bất
hợp tác, những người chơi khơng thể tiến tới một hợp đồng (khế ước) trước khi hành
động, hoặc nếu có thể có hợp đồng thì những hợp đồng này khó được chế tài.
Phương pháp phân loại trò chơi thứ hai là căn cứ vào thơng tin và vào thời gian hành

Thơng tin đầy đủ
Cân bằng Nash – NE Subgame Perfect Nash Equilibrium -SPNS
Thơng tin khơng đầy đủ
Bayesian Nash Equilibrium - BNE Perfect Bayesian Equilibrium - PBE
Bảng 1: Bốn hệ trò chơi và các khái niệm cân bằng tương ứng
1) Trò chơi tĩnh với thơng tin đầy đủ
Dạng thức của trò chơi này là những người chơi đồng thời ra quyết định (hay hành
động) để tối ưu hóa kết quả (có thể là độ thỏa dụng, lợi nhuận, v.v.); đồng thời mỗi người
chơi đều biết rằng những người khác cũng đang cố gắng để tối đa hóa kết quả mình sẽ thu
được. Kết quả cuối cùng cho mỗi người phụ thuộc vào phối hợp hành động của họ.
Biểu diễn trò chơi dưới dạng chuẩn tắc (normal-form representation)
Ví dụ 1
: Thế “lưỡng nan của người tù”
Giả sử Giáp và At bị tình nghi cùng nhau ăn cắp. Hai người bị cơng an bắt về đồn nhưng
chưa thể kết tội nếu cả Giáp và At cùng khơng nhận tội. Cơng an mới nghĩ ra một cách
như sau khiến Giáp và At phải cung khai đúng sự thật. Cơng an sẽ giam Giáp và At vào
hai phòng tách biệt, khơng cho phép họ được thơng tin cho nhau và thơng báo với mỗi
người rằng: Nếu cả hai cùng khơng chịụ khai mình phạm tội thì mỗi người sẽ bị giữ thêm
1 tháng để thẩm tra và tìm thêm chứng cứ. Nếu cả hai cùng khai nhận tội thì mỗi người sẽ
phải ngồi tù 4 tháng. Nếu chỉ có một người nhận tội còn người kia ngoan cố khơng chịu
nhận tội thì người thành khẩn cung khai sẽ được hưởng sự khoan hồng và khơng phải
ngồi tù, trong khi người kia sẽ chịu hình phạt nặng hơn là 5 tháng tù giam. Các khả năng
và kết cục này được trình bày một cách chuẩn tắc trong Bảng 2 dưới đây.
3 Giáp

Chương trình Giảng dạy Kinh tế Fulbright Kinh tế vi mô Nhập môn Lý thuyết trò chơi
Niên khóa 2005 - 2006

Vũ Thành Tự Anh
3
mà mình lại khơng nhận tội thì nó trắng án còn mình phải ngồi bóc lịch những 5 tháng.
Như thế thì thà mình cũng nhận tội để chỉ phải ngồi tù 4 tháng còn hơn”. Rồi Giáp lại
nghĩ, “nhưng ngộ nhỡ thằng At nó ngoan cường khơng khai thì mình nên thế nào nhỉ?
Nếu nó khơng khai mà mình cũng khơng khai thì mình phải ngồi tù 1 tháng, nhưng mà
nếu mình khai thì mình còn được tha bổng cơ mà. Như vậy tốt nhất là mặc kệ thằng At,
mình cứ khai báo là hơn.” Như vậy, dù At có lựa chọn thế nào thì phương án tốt nhất đối
với Giáp là khai nhận tội. Tương tự như vậy, dù At có lựa chọn thế nào thì phương án tốt
nhất đối với Giáp là khai nhận tội. Nói cách khác, đối với cả Giáp và At thì chiến lược
“khai nhận tội” là chiến lược áp đảo so với chiến lược “khơng khai”; ngược lại, chiến
lược “khơng khai” là chiến lược bị áp đảo so với chiến lược “khai nhận tội.”
Trong ví dụ này mỗi người chơi chỉ có hai chiến lược lựa chọn, và vì vậy chiến lược áp
đảo cũng đồng thời là chiến lược tốt nhất. Trong những bài tốn có nhiều người chơi với
khơng gian chiến lược lớn hơn thì để tìm ra điểm cân bằng của trò chơi, chúng ta phải lần
lượt loại trừ tất cả các chiến lược bị áp đảo. Tuy nhiên đối với các trò chơi phức tạp điều
này khơng đơn giản, và thậm chí ngay cả khi loại hết các chiến lược bị áp đảo rồi chúng
ta vẫn chưa thể tìm được điểm cân bằng. Trong ví dụ trình bày ở Bảng 3, có hai người
chơi, mỗi người có 3 lựa chọn. Sau khi loại hết các chiến lược bị áp đảo chúng ta vẫn
chưa thể tìm được điểm cân bằng. Xuất phát từ hạn chế này của phương pháp loại trừ các
chiến lược bị áp đảo, Nash đã đưa ra một khái niệm cân bằng mạnh hơn.
Trái Giữa Phải
Trái 0, 4 4, 0 5, 3
Giữa 4, 0 0, 4 5, 3
Phải 3, 5 3, 5 6, 6
Bảng 3: Loại trừ các chiến lược bị áp đảo và cân bằng Nash
Trong ví dụ ở Bảng 3, cân bằng Nash duy nhất là (phải, phải) với kết cục là (6,6) nhưng

*
1
, s
*
2
, …, s
*
i-1
, s
*
i+1
, …, s
*
n
) (ký hiệu là
s
*
-i
). Nói cách khác, u
i
(s
*
i
, s
*
-i
) ≥ u
i
(s
i

Sau khi dự báo được ứng xử của những người chơi khác thì mỗi người chơi chọn chiến
lược (quyết định) để tối ưu hóa lợi ích của mình. Chiến lược (quyết định) này vì vậy được
gọi là phản ứng tốt nhất (best response). Quay lai bài tốn của 2 người tù, như đã lập luận
ở phần trên, “nhận tội” là phản ứng tốt nhất của cả Giáp và At, và phản ứng tốt nhất này
khơng phụ thuộc vào hành động cụ thể của người kia (nhớ lại rằng “nhận tội” là chiến
lược áp đảo)
Một số ứng dụng của trò chơi tĩnh với thơng tin đầy đủ
Ứng dụng 1:
Độc quyền song phương Cournot (1838)
Giả sử có 2 cơng ty hoạt động trong thị trường độc quyền song phương theo kiểu Cournot
và cùng sản xuất một sản phẩm đồng nhất. Sản lượng của hai hãng lần lượt là q
1
và q
2
.
Tổng cung của thị trường vì vậy là Q = q
1
+ q
2
. Để đơn giản, giả sử hàm cầu có dạng
tuyến tính: P(Q) = a – Q = a – (q
1
+ q
2
). Cuối cùng, giả sử rằng chi phí cận biên và chi phí
trung bình của cả 2 hãng bằng nhau và bằng hằng số c, tức là: C
i
(q
i
) = c.q

2
(q
1
, q
2
) = q
2
[P(Q) – c ] = q
2
[ a – (q
1
+ q
2
) -c]
• Định nghĩa cân bằng Nash:
Cặp (s
1
*, s
2
*) là cân bằng Nash Ù u
1
(s
1
*, s
2
*) ≥ u
1
(s
1
, s

[a –(q
1
+ q
2
*) -c] => q
1
=
2
*
2
qca −−

3
*
2
*
1
ca
qq
−
==

22
2
*
12
),(max
Ss
ssu
∈

Niên khóa 2005 - 2006

Vũ Thành Tự Anh
5

Hình 1: Cân bằng Nash của cạnh tranh độc quyền song phương Cournot
Bây giờ xem xét trường hợp 2 cơng ty cấu kết với nhau và hoạt động như 1 cơng ty độc
quyền. Khi ấy, chúng phải giải chọn Q sao cho:
[0, ]
[() ] [ ]
m
Qa
M
ax Q P Q c Q a Q c
∈
Π= − = − −
→
12
*
*** **
12

*
2
*
1
ca
qq
mm
−
==
<
3
*
2
*
1
ca
qq
−
==

8
)(
2
*
2
*
1
ca
mm
−

q1
(a-c)/3 (a-c) (a-c)/2
Chương trình Giảng dạy Kinh tế Fulbright Kinh tế vi mô Nhập môn Lý thuyết trò chơi
Niên khóa 2005 - 2006

Vũ Thành Tự Anh
6
a
a/2

Q
a/2 a (a-c)/2
MR
E
m

Hình 2: Sự khơng bền vững của thỏa thuận cấu kết
Một cách khác, chính xác hơn, để thấy rằng thỏa thuận cấu kết khơng có khả năng tự chế
tài là sử dụng phép chứng minh bằng tốn.
Ta biết: Π
1
= q
1
[a – c – (q
1
+ q
2
)].
Bây giờ giả sử
4

d
−
−
=−−
−
=
Π

Nếu
0
4
1
1
*
11
>
∂
Π∂
⇒
−
==
q
ca
qq
m

Như vậy, doanh nghiệp 1 có thể tăng Π
1
bằng cách tăng q
1

d
q
ca
ca
m
, tức là nếu doanh
nghiệp 1 tăng q
1
thì lợi nhuận của doanh nghiệp 2 sẽ giảm.
Chúng ta có thể kết luận rằng nếu khơng có biện pháp chế tài đáng tin cậy thì thỏa thuận
thơng đồng có nhiều khả năng bị phá vỡ một cách đơn phương hoặc song phương. Đây là
1 ví dụ khác về “thế lưỡng nan của người tù”.
Ứng dụng 2: “Cha chung khơng ai khĩc” (Hardin 1968)
Quay trở lại ví dụ thảo luận ở chương “Ngoại tc v hng hĩa cơng”. Bi tốn cĩ thể được trình
by dưới dạng chuẩn tắc như sau:
-
Số người tham gia : n
-
Khơng gian chiến lược : {S
i
: 0 ≤ g
i
≤ G
max
}
-
Kết quả : V
i
= g
i

() '() 0vG Gv G c
n
+−=
Bây giờ giả sử quyết định về số bị chăn thả khơng phải l quyết định cá nhân của mỗi
người m l quyết định tập thể của cả lng. Khi ấy bi tốn của cả lng l chọn G để tối đa hóa V,
trong đó V = Gv(G) – Gc.
Điều kiện tối ưu l :
** ** **
() '() 0vG G v G c+−=
R rng G
*
> G
**
, tức l số bị chăn thả khi quyết định có tính cá nhân lớn hơn số bị chăn thả
khi quyết định mang tính chất tập thể. Hay nói cách khác, ti sản chung khi khơng được
quản lý đúng đắn sẽ bị lợi dụng. Đy cũng lại l một ví dụ minh họa nữa của thế lưỡng nan.
Chủ đề nâng cao: Chiến lược hỗn hợp
4

Ví dụ: Trong tình huống đá phạt đền, thường thì thủ mơn phải phán đốn hướng sút của
cầu thủ, còn cầu thủ phải phán đốn hướng bay của thủ mơn. Trong trường hợp người
chơi có thể phán đốn trước chiến lược (hành động) của những người chơi khác thì có thể
sẽ khơng có cân bằng Nash thuần túy (pure Nash strategy). Tuy nhiên trong những trường
này chúng ta vẫn ln có thể tìm được cân bằng Nash hỗn hợp (mixed strategy).
Cũng như trong bài tốn tìm cân bằng Nash bình thường (thuần túy), khi tìm cân bằng
Nash hỗn hợp chúng ta cũng phải đi tìm phản ứng tốt nhất của mỗi người chơi ứng với
phản ứng tốt nhất của những người chơi còn lại. Điểm khác biệt quan trọng là ở chỗ, khi
tìm cân bằng Nash hỗn hợp, chúng ta cần sử dụng thơng tin có tính tiên đốn của những
người chơi về ứng xử của những người chơi còn lại.
Giả sử cầu thủ đốn trước là thủ mơn sẽ

Nếu r > 1/2 => Trái
Nếu r < 1/2 => Phải
Nếu r = 1/2 => Bên nào cũng vậy
Kết hợp hai phản ứng chiến lược ta có một điểm cân bằng Nash hỗn hợp duy nhất (r=1/2,
q=1/2) được biểu diễn trong hình vẽ dưới đây:

Hình 3
: Cân bằng Nash hỗn hợp Ti liệu tham khảo
Robert Gibbons (1992). “Game theory for applied economists.” Princeton University Press.
q
r
Trái
Ph
i
1/2
1/2
Trái
Ph
i
Chương trình Giảng dạy Kinh tế Fulbright Kinh tế vi mô Nhập môn Lý thuyết trò chơi
Niên khóa 2005 – 2006 Phần 2

Vũ Thành Tự Anh 1
GIỚI THIỆU LÝ THUYẾT TRÒ CHƠI

được ra quyết đònh ở giai đoạn 2 và biết điều này chắc chắn sẽ không chọn P’ mà chọn
B
A
A
P T
P
’
T
’
T
”
P
”
2
0
1
1
3
0
2
2
Chương trình Giảng dạy Kinh tế Fulbright Kinh tế vi mô Nhập môn Lý thuyết trò chơi
Niên khóa 2005 – 2006 Phần 2

Vũ Thành Tự Anh 2
T’ (vì 1 > 0). Và ở giai đoạn 1, A dự đoán trước được những hành động kế tiếp của cả
hai người nên chắc chắn sẽ chọn T (vì 2 > 1).
1

Bây giờ chúng ta quay lại thảo luận vấn đề mức độ tin cậy của lời hứa hẹn hay đe dọa.

2
và lợi nhuận tương ứng là π
1
và π
2

π
1
(q
1
, q
2
) = q
1
[P(Q) – c] ; Q = q
1
+ q
2

π
2
(q
1
, q
2
) = q
2
[P(Q) – c] ; P(Q) = a – Q = a – (q
1
+ q

1
Để ý rằng phương pháp quy nạp ngược được sử dụng ở đây một cách dễ dàng là nhờ cấu trúc thông tin
đầy đủ và hoàn hảo của bài toán (tưởng tượng) này. Trong các bài toán thực tế, cấu trúc thông tin thường
phức tạp hơn nhiều.
2
Vì là hợp đồng miệng nên nó không thể bò chế tài nhờ trọng tài.
Chương trình Giảng dạy Kinh tế Fulbright Kinh tế vi mô Nhập môn Lý thuyết trò chơi
Niên khóa 2005 – 2006 Phần 2

Vũ Thành Tự Anh 3
Lưu ý rằng về mặt hình thức thì hàm phản ứng q
2
(q
1
*) ở đây giống như trong mô hình
Cournot. Tuy nhiên, có một điểm khác biệt quan trọng là trong mô hình Cournot, q
1
* là
một giá trò giả đònh, còn trong mô hình này, khi ra quyết đònh q
2
hãng 2 đã quan sát
được và biết giá trò của q
1
*.
Vì đây là bài toán với thông tin đầy đủ và hoàn hảo nên hãng thứ nhất có thể đặt mình
vào vò trí của hãng thứ hai và do vậy biết rằng nếu mình quyết đònh sản lượng là q
1
* thì
hãng thứ hai sẽ sản xuất q
2
Lợi nhuận tương ứng là :
9
)(
16
)(
9
)(
8
)(
2
*
2
2
*
2
2
*
1
2
*
1
caca
caca
cS
cS
−
=>
−

2
*
1
ca
q
ca
q
−
=⇒
−
=⇒
Chương trình Giảng dạy Kinh tế Fulbright Kinh tế vi mô Nhập môn Lý thuyết trò chơi
Niên khóa 2005 – 2006 Phần 2

Vũ Thành Tự Anh 4
Ví dụ 1: Thế lưỡng nan trong trò chơi lặp hai giai đoạn
Quay lại bài toán lưỡng nan của người tù được trình bày dưới dạng chuẩn tắc như trong
bảng bên.
Cân bằng Nash duy nhất là (không
hợp tác, không hợp tác) và kết cục
là (1, 1). Bây giờ giả sử trò chơi
này (gọi là trò chơi giai đoạn –
stage game) được lặp lại lần thứ
hai, bảng kết quả được trình bày
trong bảng dưới đây.
Cân bằng Nash duy nhất vẫn là
(không hợp tác, không hợp tác) và
kết cục hợp tác vẫn không đạt được
như là một điểm cân bằng
Nhận xét:

Bây giờ chúng ta sẽ chứng minh rằng ngay cả khi trò chơi giai đoạn chỉ có một cân
bằng Nash duy nhất thì vẫn có cách để buộc những người chơi duy lý hợp tác với nhau,
với điều kiện
δ đủ lớn. Cách thức để đạt được sự hợp tác này là thực hiện chiến lược
“trừng phạt” (trigger strategy) mà thực chất là một lời đe dọa trả đũa đáng tin cậy đối
với những hành vi vi phạm hợp đồng. Chiến lược trừng phạt này được thực hiện như
sau:
Người 1
Không hợp tác Hợp tác
Không hợp tác
1 , 1 5 , 0
Người
2
Hợp tác
0 , 5 4 , 4
Người 1
Không hợp tác Hợp tác
Không hợp tác
2 , 2 6 , 1
Người
2
Hợp tác
1 , 6 5 , 5
Chương trình Giảng dạy Kinh tế Fulbright Kinh tế vi mô Nhập môn Lý thuyết trò chơi
Niên khóa 2005 – 2006 Phần 2

Vũ Thành Tự Anh 5

- Trong giai đoạn 1, chọn “hợp tác”
- Trong giai đoạn t, tiếp tục chọn “hợp tác” chừng nào trong (t-1) giai đoạn trước

5
1
4
C
C
PVPV
<=> 4
≥ 5(1-δ) + δ = 5 -4δ
<=>
δ ≥ 1/4
Như vậy, nếu
δ ≥ 1/4 thì chiến lược trừng phạt là một cân bằng Nash. Nói cách khác,
với
δ đủ lớn (tức là những người chơi chiết khấu tương lai đủ ít) thì khi theo đuổi mục
tiêu vò kỉ là tối đa hóa lợi ích của mình thì tất cả người chơi đều có động cơ tôn trọng
thỏa ước hợp tác.
Ví dụ 3: Trở lại với độc quyền song phương Cournot
Chúng ta đã biết rằng trong trường hợp độc quyền song phương Cournot:
q
c1
* = q
c2
*=(a-c)/3 và do vậy Q
C
* = 2(a-c)/3 > Q
m
* = (a-c)/2 ( = mức tổng cầu khi hai
doanh nghiệp cấu kết lũng đoạn th
ị trường độc quyền). Như vậy, hai hãng này có thể
]

4.4.4.
1
11
t
C
ttt
C
PV
PV
Chương trình Giảng dạy Kinh tế Fulbright Kinh tế vi mô Nhập môn Lý thuyết trò chơi
Niên khóa 2005 – 2006 Phần 2

Vũ Thành Tự Anh 6
áp dụng chiến lược trừng phạt để đạt được sự hợp tác trong sản xuất. Để kiểm tra lại
mức độ hiểu các nội dung trình bày ở ví dụ 2, chúng ta có thể làm một bài tập nhỏ sau.
Giả sử trò chơi Cournot này được lặp lại mãi mãi, hãy tìm giá trò tối thiểu của
δ để giải
pháp hợp tác là một cân bằng Nash (SPNE)?
Chiến lược trừng phạt như sau:
- Bắt đầu chơi bằng việc chọn mức sản lượng Q
m/2
* (=(a-c)/4) trong giai đoạn 1
- Nếu trong (t-1) giai đoạn đầu tiên, bên kia chọn Q
m/2
* thì tiếp tục chọn Q
m/2
*.
Bằng không thì chuyển sang Q
c/2
* (= (a-c)/3) mãi mãi.

1
Cd
tC
π
δ
δ
πδπ
−
+=
−

Nếu hãng 2 tiếp tục chọn hợp tác trong giai đoạn t, tức là tiếp tục chọn q
2
* = Q
m/2
* = (a
- c)/4 thì q
d1
* sẽ max q
d1
[a - c - q
d1
– (a-c)/4] => q
d1
* = 3(a-c)/8 => π
d
= 9(a- c)
2
/64
- Tôn trọng thỏa ước:

Một lần nữa chúng ta lại thấy là nếu
δ đủ lớn (tức là những người chơi chiết khấu tương
lai đủ ít) thì khi theo đuổi mục tiêu vò kỉ là tối đa hóa lợi nhuận của mình thì hai công
ty cùng có động cơ tôn trọng thỏa ước hợp tác.
17
9
178164)1(8172
964
)1(9
8
1
9
)(
164
)(9
)1(8
)(
11
222
≥⇔
−=+−≥⇔
+
−

Vũ Thành Tự Anh 7
Tài liệu tham khảo
Robert Gibbons, “Game Theory for Applied Economists”, Princeton University Press, 1992

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Giới thiệu lý thuyết trò chơi và một số ứng dụng trong kinh tế học vi mô - Pdf 15

Tài liệu, ebook tham khảo khác

Học thêm