ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN ĐẶNG THỊ PHƯƠNG MAI
PHÂN TÍCH SỐ LIỆU
CỦA MỘT SỐ CÔNG TRÌNH XÂY DỰNG
BẰNG THỐNG KÊ TOÁN HỌC
LUẬN VĂN THẠC SĨ
Chuyên ngành: Lý thuyết xác suất và thống kê toán học
Người hướng dẫn khoa học: PGS. TS. Hồ Đăng Phúc
Hà Nội - 2012
MỤC LỤC
Trang
Lời cảm ơn……………………………………………………………………………
Lời mở đầu………………………………………………………………………… 1
Chương 1. Mô hình tuyến tính tổng quát……………………………………… 2
1.1. Giới thiệu mô hình tuyến tính tổng quát………………………………………2
1.1.1. Mục đích của hồi quy bội………………………………………………… …2
1.1.2. Những tính toán để giải phương trình hồi quy bội…………………… … …3
1.1.3. Mở rộng của mô hình hồi quy bội thành mô hình tuyến tính tổng quát …….6
1.2. Một số ví dụ về mô hình tuyến tính tổng quát……………………………… 9
1.2.1. Lập phương trình dạng ma trận…………………………………………… 11
1.2.2. Ước lượng tham số………………………………………………………… 12
1.2.3. Quan điểm hình học………………………………………………… …… 16
1.3. Mô hình tuyến tính tổng quát đa biến ………………………………….……18
1.3.1. Ước lượng bình phương bé nhất cho mô hình tuyến tính tổng quát……… 18
1.3.2. Tính chất của ma trận sai số…… …………… ……………… …….…….20
1.3.3. Tính chất của ma trận hệ số hồi quy……… …………… ……………… 21
1.3.4. Tổng các bình phương và tích chéo ứng với giả thuyết và ứng với sai số… 21
Giám đốc cùng các nhân viên phòng Kiểm toán đầu tư xây dựng của công ty Hợp
danh kiểm toán Việt Nam (CPA Việt Nam) vì đã cung cấp cho tôi những số liệu
chính xác, có giá trị thống kê của các công trình xây dựng mà công ty đã thực hiện
kiểm toán. Nhờ những số liệu này mà tôi đã thực hiện được phần phân tích ở
chương 2 của luận văn. Tôi cũng xin chân thành cảm ơn Ban Chủ nhiệm khoa, các
giảng viên trong Khoa Toán – Cơ – Tin học và các học viên của lớp Cao học Toán
2007 – 2009 trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội đã động
viên, khuyến khích, chia sẻ kinh nghiệm, kiến thức và hướng dẫn tôi trong suốt quá
trình học tập vừa qua.
Trong quá trình làm luận văn chắc chắn không thể tránh khỏi những thiếu sót,
tôi rất mong nhận được sự chỉ bảo tận tình của các thầy cô và bạn bè đồng nghiệp.
1
LỜI MỞ ĐẦU
Mô hình tuyến tính tổng quát đã được nhiều nhà khoa học nghiên cứu và ứng
dụng trong nhiều lĩnh vực khoa học và đời sống khác nhau. Trong luận văn này, tôi
trình bày các cơ sở lý thuyết của mô hình tuyến tính tổng quát và ứng dụng của nó
trong việc phân tích các kết quả kiểm toán của một số công trình xây dựng. Luận
tổng quát. Vì vậy chúng ta sẽ xem xét mục đích của hồi quy bội, các thuật toán tính
toán được sử dụng để giải quyết vấn đề hồi quy và làm thế nào để mở rộng mô hình
hồi quy bội thành mô hình tuyến tính tổng quát.
1.1.1. Mục đích của hồi quy bội
Mục đích chung của hồi quy bội là định lượng mối quan hệ giữa một vài biến
độc lập (còn gọi là biến dự báo) và một biến phụ thuộc (biến đáp ứng). Ví dụ, một
đại lý bất động sản có thể dựa trên kích thước của mỗi căn nhà, số lượng phòng ngủ,
thu nhập trung bình trong khu phố tương ứng theo số liệu điều tra dân số để đánh
giá chủ quan về giá bán của căn nhà. Sau khi thông tin này được tổng hợp lại nó sẽ
cho ta biết xem liệu yếu tố nào liên quan và ảnh hưởng như thế nào đến mức giá mà
một ngôi nhà được bán. Ví dụ, người ta có thể thấy rằng số lượng phòng ngủ có vai
trò dự báo tốt hơn về giá mà một ngôi nhà bán tại một khu phố cụ thể so với yếu tố
”nhà đẹp” (đánh giá chủ quan).
Các nhà quản lý nhân sự thường sử dụng phương pháp hồi quy bội để xác định
mức lương thích hợp cho nhân viên được tuyển dụng. Họ có thể xác định một số
yếu tố như "khả năng đáp ứng" (KNDU) hoặc “số người cần giám sát" (No_GS) là
một trong những đóng góp vào giá trị của công việc. Các nhà phân tích thường tiến
hành một cuộc khảo sát lương so sánh giữa các công ty trên thị trường, ghi mức
lương và những đặc điểm tương ứng (ví dụ, mức độ công việc) cho các vị trí khác
nhau. Thông tin này có thể được sử dụng trong một phân tích hồi quy bội để xây
dựng một phương trình hồi quy có dạng:
Mức lương = 0,5 * KNDU + 0.8 * No_GS 3
Khi phương trình hồi quy đã được xác định, các nhà phân tích bây giờ có thể dễ
dàng xây dựng một biểu đồ của mức lương dự kiến (dự đoán) và tiền lương thực tế
của những người đang đương chức trong công ty của họ. Vì vậy, các nhà phân tích
có thể xác định các vị trí đã trả lương thấp (dưới đường hồi quy) hoặc trả quá nhiều
(ở trên đường hồi quy), hoặc trả lương công bằng.
một sự mở rộng trực tiếp của các tính toán trong trường hợp dự báo đơn biến. Ví dụ,
nếu ngoài các yếu tố IQ chúng ta có thêm vài yếu tố để dự đoán (ví dụ: Động lực, ý
thức kỷ luật), chúng ta có thể xây dựng một phương trình tuyến tính có chứa tất cả
các biến đó. Nói chung, các phương pháp hồi quy bội sẽ ước lượng một phương
trình tuyến tính có dạng: 4
01122
kk
YXXX
bbbb
=++++
với k là số các yếu tố dự báo. Lưu ý rằng trong phương trình này, các hệ số hồi quy
(
1
, ,
k
) đại diện cho những đóng góp độc lập của mỗi biến dự báo vào giá trị của
biến phụ thuộc. Nói cách khác thì đó chính là sự tương quan của biến X
i
với biến Y,
sau khi kiểm soát tác động của tất cả các biến độc lập khác. Loại tương quan này
cũng được gọi là tương quan riêng phần. Ví dụ sau sẽ làm rõ vấn đề này.
Bình thường người ta có thể thấy sự tương quan có ý nghĩa giữa chiều dài tóc và
chiều cao con người (người thấp có mái tóc dài hơn). Tuy nhiên, nếu chúng ta thêm
biến Giới tính vào phương trình hồi quy bội, sự tương quan này sẽ biến mất. Điều
này là do tính trung bình thì phụ nữ có mái tóc dài hơn nhưng cũng thấp hơn so với
thể đại diện tương ứng cho các quan sát thứ i của biến Y, các quan sát thứ i của các
biến X, và giá trị phần dư chưa biết. Tập hợp những số hạng này đưa vào ma trận, ta
có
111
11
1
1
, ,
1
k
nnnkn
XX
Y
YX
YXX
e
e
e
éù
éùéù
êú
êúêú
êú
êúêú
êú
êúêú
===
êú
(
)
11
''''
XXXXXXXY
b
=
hay
(
)
1
''
XXXY
b
-
= .
Kết quả này đưa ra lời giải cho phương trình hồi quy trong đó chỉ có 2 ma trận X
và Y với 3 phép toán cơ bản của ma trận là: (1) chuyển vị ma trận bao gồm việc đổi
chỗ các phần tử của hàng và của cột trong một ma trận, (2) phép nhân ma trận, 6
trong đó bao gồm việc tìm tổng các tích của các phần tử cho mỗi tổ hợp hàng và cột
của hai hoặc nhiều ma trận, và (3) nghịch đảo ma trận, trong đó bao gồm việc tìm
ma trận có tính chất giống với số nghịch đảo, nghĩa là ma trận thỏa mãn
1
AAAA
-
=
giúp thấy rõ những tổ hợp nào của các biến độc lập liên quan đến các biến dự báo,
tổ hợp nào không liên quan. Một lợi thế khác là khả năng phân tích ảnh hưởng của
các nhân tố được đo lặp lại. Các thiết kế phép đo lặp lại hoặc các thiết kế nội đối
tượng thường được phân tích bằng cách sử dụng kỹ thuật phân tích phương sai
ANOVA. Các tổ hợp tuyến tính của các biến đáp ứng phản ánh hiệu quả của phép
đo lặp (biến độc lập được đo dưới những điều kiện khác nhau) có thể được thiết kế
và kiểm định ý nghĩa bằng cách tiếp cận đơn biến hoặc đa biến để phân tích các
phép đo lặp trong mô hình tuyến tính tổng quát.
Một điều quan trọng thứ hai mà mô hình tuyến tính tổng quát khác với mô hình
hồi quy bội là nó có thể cung cấp một lời giải cho các phương trình chuẩn tắc khi
các biến X không độc lập tuyến tính và nghịch đảo của X'X không tồn tại. Sự dư
thừa của các biến X có thể là không thực chất (ví dụ, có thể xảy ra hai biến dự báo
hoàn toàn tương quan trong một tập dữ liệu nhỏ), là ngẫu nhiên (ví dụ, hai bản sao
của cùng một biến có thể vô tình được sử dụng trong một phân tích) hoặc có chủ
định (ví dụ, biến chỉ thị với các giá trị đối nhau có thể được sử dụng trong phân tích,
như khi cả hai biến dự báo Nam và Nữ được sử dụng trong việc thể hiện giới tính).
Tìm nghịch đảo chính quy của một ma trận có hạng không đầy đủ cũng giống như
việc tìm nghịch đảo của số 0 trong số học thông thường. Không có nghịch đảo bởi
vì không được phép chia cho số 0. Vấn đề này được giải quyết trong mô hình tuyến
tính tổng quát bằng cách sử dụng một nghịch đảo suy rộng của ma trận X'X trong
việc giải các phương trình chuẩn tắc. Một nghịch đảo suy rộng cho một ma trận A là
ma trận
A
-
bất kỳ thỏa mãn
AAAA
-
=
.
Ma trận nghịch đảo suy rộng là không duy nhất và chỉ duy nhất khi ma trận A có
2122
0
'
0 0
A
XX
-
-
éù
=
êú
ëû
với mỗi ma trận 0 (không) gồm các số 0 và có số chiều giống như ma trận A tương
ứng.
Tuy nhiên trong thực tế, một nghịch đảo tổng quát đặc biệt của X'X để tìm một
lời giải cho các phương trình chuẩn tắc thường được tính bằng cách sử dụng toán tử
quét. Nghịch đảo suy rộng này, được gọi là nghịch đảo g2, có hai tính chất quan
trọng. Một là việc gán các phần tử 0 trong các hàng và các cột dư là không cần thiết.
Hai là sự phân vùng hoặc sắp xếp lại các cột của X'X là không cần thiết, vì vậy ma
trận có thể tự nghịch đảo “tại chỗ”.
Có vô số nghịch đảo tổng quát của một ma trận X'X không có hạng đầy đủ, do
đó có vô số nghiệm của các phương trình chuẩn tắc. Điều này có thể gây ra sự khó
hiểu về bản chất của mối quan hệ của các biến dự báo và biến phụ thuộc, bởi vì các
hệ số hồi quy có thể thay đổi tùy thuộc vào nghịch đảo suy rộng cụ thể được chọn
để giải các phương trình chuẩn tắc. Tuy nhiên, điều đó không đáng ngại vì tính chất
bất biến quan trọng của nhiều kết quả có thể thu được bằng cách sử dụng mô hình
tuyến tính tổng quát.
Sau đây là một ví dụ đơn giản để minh họa các tính chất bất biến quan trọng
nhất của việc sử dụng nghịch đảo suy rộng trong mô hình tuyến tính tổng quát. Nếu
sát chúng ta có một tập gồm K (K < J) biến giải thích hay biến độc lập x
jk
(được đo
đạc mà không có sai số), với k = 1,…,K là chỉ số của các biến độc lập (hay biến giải
thích). Các biến độc lập có thể là các hiệp biến liên tục hoặc rời rạc, các hàm của
các hiệp biến, hoặc chúng có thể là các biến hình thức chỉ thị các mức độ của một
nhân tố thực nghiệm. 10
Một mô hình tuyến tính tổng quát biểu diễn các biến đáp ứng Y
j
theo các số hạng
của một tổ hợp tuyến tính của các biến độc lập cộng với phần sai số,
11
jjjkkjKKj
Yxxx
bbbe
=+++++
. (1.1)
Ở đây β
k
là các tham số (chưa biết) tương ứng với mỗi một tập hợp K các biến
giải thích x
jk
. Các sai số ε
j
là các biến ngẫu nhiên độc lập có phân bố chuẩn giống
nhau với trung bình 0 và phương sai σ
0,
iid
j
es
N:
. Biểu thức này có thể được viết lại theo dạng mô hình tuyến
tính tổng quát bằng việc sử dụng một biến hình thức lấy giá trị x
j1
= 1 cho mọi j,
122
jjjj
Yxx
mbe
=++
mà đó là một dạng của phương trình (1.1) khi thay thế β
1
bằng µ.
b. Mô hình so sánh hai mẫu bằng phép kiểm định t.
Mô hình so sánh hai mẫu là một trường hợp đặc biệt của một mô hình tuyến tính
tổng quát, trong đó giả thiết rằng Y
j1
và Y
j2
là hai nhóm độc lập của các biến ngẫu 11
nhiên, phép so sánh
( )
qj
es
N:
. Biểu thức này có thể được viết lại sử dụng các biến hình thức x
qj1
và
x
qj2
như sau
1122
qjqjqjqj
Yxx
mme
=++
. (1.2)
Phương trình (1.2) có dạng của phương trình (1.1) sau khi đánh số lại cho qj. Ở
đây các biến hình thức cho biết nó là thành viên của nhóm nào, trong đó x
qj1
chỉ ra
khi nào quan sát Y
qj
ở nhóm thứ nhất, trong trường hợp đó nó có giá trị 1 khi q = 1,
và 0 khi q = 2. Tương tự như vậy
2
0
1
qj
x
ì
=
Hệ trên có dạng ma trận tương đương như sau
nếu q = 1
n
ếu
q
= 2
.
12
1111
111
1
1kK
jjjkjKkj
K
JJJkJKJ
xxx
Y
Yxxx
Yxxx
be
be
b
e
vector ct ca cỏc tham s
[
]
1
,,,,
T
kK
bbbb
=ẳẳ . Ma trn X cú cp J x K, vi
phn t th jk l x
jk
, c gi l ma trn thit k. Ma trn ny cú mt dũng cho mi
quan sỏt, v mt ct (bin gii thớch) cho mi tham s ca mụ hỡnh. im quan
trng v ma trn thit k ú l nú l mt mụ t gn hon chnh mụ hỡnh vi phn d
ca mụ hỡnh l cỏc s hng sai s.
1.2.2. c lng tham s
Khi mt thc nghim ó c hon tt, chỳng ta cú cỏc quan sỏt ca cỏc bin
ngu nhiờn Y
j
, c ký hiu l y
j
. Thụng thng cỏc phng trỡnh ca h biu din
mụ hỡnh tuyn tớnh tng quỏt (vi = 0) khụng th gii c vỡ s lng K cỏc tham
s thng c chn nh hn s lng J ca cỏc quan sỏt. Do ú mt s phng
phỏp c lng tham s ũi hi d liu thớch hp nht cn phi c s dng.
iu ny t c bng cỏch s dng phng phỏp bỡnh phng bộ nht thụng
thng.
Ký hiu mt tp cỏc giỏ tr c lng tham s bi
1
,,
T
J
eeeYYYX
b
==-=-
K
. Tng bỡnh phng phn d
2
1
J
T
j
j
Seee
=
==
ồ
l tng ca cỏc bỡnh phng hiu s gia cỏc giỏ tr tớnh toỏn v giỏ tr thc, v do 13
đó đo đạc mức độ phù hợp của mô hình với các ước lượng đó của các tham số. Các
ước lượng bình phương bé nhất là các ước lượng tham số làm nhỏ nhất tổng bình
phương các phần dư, với dạng đầy đủ là
°
°
xYxx
bb
b
=
¶
= =
¶
å
K
.
Phương trình này là dòng thứ k của
(
)
°
TT
XYXX
b
=
. Do đó các ước lượng
bình phương bé nhất, ký hiệu bởi
µ
b
thỏa mãn phương trình:
(
)
µ
TT
XYXX
b
=
Tương ứng, sẽ có vô hạn các ước lượng bình phương bé nhất
µ
b
thỏa mãn các
phương trình.
b. Mô hình ANOVA một nhân tố
Một ví dụ đơn giản về một mô hình như vậy là mô hình phân tích phương sai
một nhân tố cổ điển (ANOVA). Một cách tổng quát, một mô hình ANOVA xác
định biến thiên của một biến đáp ứng được quan sát chịu các ảnh hưởng của các
mức tác nhân. Phần biến thiên không giải thích còn lại được sử dụng để đánh giá
mức ý nghĩa của các tác động. Mô hình ANOVA một nhân tố được viết như sau:
qjqqj
Y
mae
=++
Trong đó Y
qj
là quan sát thứ j trong nhóm q = 1,…,Q. Các tham số của mô hình
này rõ ràng không xác định duy nhất với bất kỳ µ và α
q
nào, các tham số µ’ = µ + d
và α
q
’ = α
q
– d cho một mô hình tương đương với bất kỳ hằng số d nào. Đó chính là
mô hình là không xác định cho đến mức của một hằng số cộng giữa biểu thức hằng
số µ và các tác động nhóm α
q
êú
êú
êú
éù
êú
êú
êú
êú
êú
=
êú
êú
êú
êú
ëû
êú
êú
êú
êú
ëû
MMMM
MMMM
MMMM
15
Rõ ràng rằng ma trận này có hạng không đầy đủ: cột đầu tiên là tổng của các cột
khác. Do đó trong mô hình này, người ta không thể kiểm tra trong mô hình này tác
động của một hay nhiều nhóm. Tuy nhiên lưu ý rằng việc cộng vào hằng số µ
)
T
XX
-
thay vì
(
)
1
T
XX
-
trong phương trình (1.3). Một
tập các ước lượng bình phương bé nhất được cho bởi
µ
(
)
TT
XXXYXY
b
-
-
==
.
Điều đó cho các ước lượng tham số bình phương bé nhất với tổng các bình phương
là bé nhất (cực tiểu L
2
theo chuẩn
µ
2
||||
=-
. Chúng ta sử dụng
q
Y
·
để ký kiệu giá trị trung bình của Y trong quan
sát chỉ số j, chính là trung bình của dữ liệu trong nhóm q.
Sử dụng nghịch đảo suy rộng trong ước lượng tham số ở các mô hình với tham
số không xác định duy nhất là một giải pháp thường được sử dụng. Như đã được
giới thiệu ở trên, phương pháp này vẫn không cho phép kiểm tra các tổ hợp tuyến
tính của các tác động mà có một số lượng vô hạn các ước lượng tham số. Chú ý
rằng ràng buộc giả nghịch đảo cho ta giữ nguyên tất cả các cột của ma trận X.
1.2.3. Quan điểm hình học
Đối với một số người, quan điểm hình học cung cấp một cảm nhận trực quan
cho phương pháp phân tích.
Vector của các giá trị quan sát Y định nghĩa một điểm đơn trong không gian
J
Â
, không gian Euclide J chiều.
°
X
b
là một tổ hợp tuyến tính của các cột của ma
trận tính toán X. Các cột của ma trận X là các vector J do đó
°
X
b
với một
°
b
YX
b
=
. Bây giờ sẽ rõ ràng là
tại sao không có các ước lượng bình phương bé nhất duy nhất nếu không gian X có
hạng không đầy đủ; khi đó bất kỳ điểm nào trong không gian X có thể nhận được
bằng các tổ hợp tuyến tính vô hạn các cột của X, chính là nghiệm tồn tại trên một
siêu mặt và không phải là một điểm. 17
Nếu X có hạng đầy đủ, khi đó định nghĩa ma trận của phép chiếu là
(
)
1
TT
X
PXXXX
-
= . Khi đó
µ
X
YPY
=
, và
X
P
về mặt hình học là một phép chiếu
vào không gian X. Tương tự như vậy ma trận của các phần dư là
(
x
éù
êú
=
êú
êú
ëû
.
Cho trước các giá trị x
j
khác nhau, các cột của X hình thành nên một không gian con
hai chiều trong
3
Â
, một mặt phẳng (Hình 1.1).
Hình 1.1 18
1.3. MÔ HÌNH TUYẾN TÍNH TỔNG QUÁT ĐA BIẾN
Mô hình tuyến tính tổng quát đa biến là sự mở rộng của các trường hợp đơn
biến. Thay vì có một biến phụ thuộc trong một cột của vectơ y, chúng ta có một tập
p biến phụ thuộc trong một số cột của ma trận Y. Do đó mô hình này là
$
$
$
$$ $
$$ $
11121
bbb
bbb
éù
éù
êú
êú
êú
êú
=
êú
êú
êú
êú
êú
ëû
êú
ëû
*1*2*p
kkkp
bbb
éù
êú
êú
êú
êú
êú
ëû
, do đó
YXB
e
=+
(1.4)
1.3.1. Ước lượng bình phương bé nhất cho mô hình tuyến tính tổng quát
Làm thế nào để ước lượng được các giá trị chưa biết trong ma trận B? Khi sai số
ε của Y chỉ là một vectơ, ta có thể chọn hàm mục tiêu là
'
ee
. Mặt khác ma trận
'
ee
không là một đại lượng vô hướng mà là một tổng bình phương và tích chéo của ma
trận cấp p x p. Trong trường hợp này ta sẽ làm vết của
'
ee
đạt giá trị nhỏ nhất.
Hàm mục tiêu sẽ là 19
[']
fTr
ee
=
có thể mở rộng (theo phương trình (1.4)) thành
(
)
’
TrYXB
tương đương với Tr(BY’X).
Chúng ta có thể viết lại phương trình trên một cách đơn giản là
(')2(')('')
fTrYYTrBYXTrBXXB
=-+
Để làm cho f nhỏ nhất có thể, ta cần tìm
fB
¶¶
. Ta có
2'['(')']
f
XYXXXXB
B
¶
=-++
¶
Nhưng vì X’X đối xứng, ta có thể đơn giản hóa hơn một chút và có
2'2'
f
XYXXB
B
¶
=-+
¶
=
20
1.3.2. Các tính chất của ma trận sai số
Để nói về sự phân phối của ma trận sai số ε, chúng ta sẽ phải sắp xếp lại nó một
chút bằng cách sử dụng toán tử Vec(.) được định nghĩa như sau:
Cho ma trận A cấp m x n với các hàng a
1
’,…, a
m
’, ta định nghĩa
'
1.
'
'''
2.
1.2
'
.
() .
m
m
a
a
vecAvecaaa
a
éù
Ví dụ
11111112
11
11111211211122
21212221112112
21
21212122 abab
aB
abbabab
abbabab
aB
abab
éù
éù
êú
éùéù
êú
êú
Ä==
êúêú
êú
êú