CHƯƠNG 8: PHÂN TÍCH SỐ LIỆU
Mục đích của chương này là phải đưa ra cách thể hiện đơn
giản về việc phân tích số liệu như thế nào. Đáp ứng mục
tiêu trên, các nội dung trình bày trong chương này bao
gồm:
8.1. Mã hóa và lưu giữ các quan sát
8.2. Phân tích một biến
8.3. Lập bảng chéo trong phân tích số liệu
8.4. Phân tích hồi quy tuyến tính đơn
8.5. Phân tích hồi quy đa biến
8.6. Các biến giả trong phân tích hồi quy
8.7. Giới thiệu quy trình xử lý số liệu định lượng trong
nghiên cứu xây dựng chỉ số cạnh tranh cấp tỉnh (CPI)
8.1-Mã hóa và lưu giữ các quan sát
Thường các dữ liệu được lưu giữ theo dạng ma
trận.
Mã hóa có nghĩa là định rõ các loại và chỉ định
chữ số cho mỗi loại.
Chẳng hạn như mã số theo giới, trong đó nữ là 1,
nam là hai; hay mã số theo vùng: vùng Bắc bộ là
1, Trung bộ là 2, Nam bộ là 3…
8.1-Mã hóa và lưu giữ các quan sát
Hoặc mã số theo thang đo mức độ đồng tình có 7
mức độ: hoàn toàn đồng tình là 1, đồng tình phần
lớn là 2, đồng tình một phần là 3, không đồng
tình là 4, không đồng tình phần lớn là 5, không
đồng tình 1 phần tình là 6, rất không đồng tình là
7.
2 37 0,37 37
3 11 0,11 11
4 4 0,04 4
Tổng số 100 1,00 100
BẢNG 8.1: Sở hữu xe hơi theo hộ trong mẫu ngẫu nhiên
8.2-Phân tích một biến (tt)
Ngoài ra, từ kết quả khảo sát trên, nhờ vào máy
tính có thể tính các số trung bình, số trung vị,
phương sai, độ chênh lệch chuẩn, hệ số biến thiên.
Đây là các chỉ số kiểm định thống kê về kết quả
khảo sát để đảm bảo độ tin cậy của số liệu thu
thập.
Số trung bình:
n
x
x
i
8.2-Phân tích một biến (tt)-Các kiểm
định thống kê
Trong công thức trên, x
i
là giá trị quan sát thứ i,
n là số lần quan sát. Trung bình số học (mean)
làx là ký hiệu của số trung bình trong thí dụ này
bằng 1,68, tức trung bình có 1,68 xe hơi trên 1 hộ
dụ này =0,000; Xmax là giá trị lớn nhất của quan
sát trong thí dụ này=4,000
Như vậy khỏang biến thiên trong thí dụ này R=
4,000-0,000=4,000
8.2-Phân tích một biến (tt)-Các kiểm
định thống kê
Độ lệch chuẩn (standard deviation). Độ lệch chuẩn
là công cụ để so sánh sự đồng nhất của hai dãy
phân phối, dãy nào có độ lệch chuẩn nhỏ được
coi nhà đồng nhất hơn
Độ lệch chuẩn là căn bậc hai của phương sai của
mẫu quan sát. Phương sai của mẫu quan sát
được tính theo công thức sau:
1
)(
2
n
x
x
i
x
8.2-Phân tích một biến (tt)-Các kiểm
Giả sử chúng ta cần phải kiểm định giả thuyết H: ước
lượng số trung bình tổng thể =1,55 xe cho một hộ. Lý
do sử dụng giá trị giả thuyết giá trị 1,55 có thể được biết
qua thực tế từ dãy tổng thể tương tự
Nếu như ta không có thông tin trước chúng ta sẽ sử
dụng hai lựa chọn là khác 1,55 và lớn hơn 1,55. Xác
suất tin cậy =0,95, khoảng tin cậy tính được từ 1,5 đến
2,0, sử dụng khoảng tin cậy để kiểm định giả thuyết, giá
trị 1,55 là nằm trong khoảng tin cậy lựa chọn, như vậy
không cần phải loại bỏ giả thuyết H. Nếu giá trị giả
thuyết tìm được nằm ngoài khoảng 1,5-2,0 tức giả thuyết
H bị loại bỏ.
8.3-Lập bảng chéo
Thí dụ chúng ta cần nghiên cứu khả năng quan
hệ giữa trình độ giáo dục của khách hàng và sự
quan tâm về sản phẩm nào đó
Số liệu có thể được lập bảng chéo được trình bày
trong bảng 8.2 dưới đây. Trong đó Trình độ giáo
dục được phân theo hai mức (cao và thấp) và
mức độ quan tâm sản phẩm đã được phân thành
hai loại (cao và thấp).
Bảng 8.2: Bảng chéo thể hiện mối quan hệ
của hai biến
Mức độ quan
tâm sản
Nếu biến độc lập thứ hai được thêm vào
trong phân tích thì một bảng mới được thiết
lập và tình hình có thể khác.
Giả sử thêm vào biến độc lập là giới, kết
quả số liệu được thể hiện qua bảng 8.3 dưới
đây.
Bảng 8.3: Bảng chéo thể hiện 3 biến
Mức
độ
quan
tâm
sản
phẩm
Giới Tổng
Nữ Nam
Trình độ giáo
dục
Trình độ giáo
dục
Thấp Cao Thấp Cao
Cao
80%
(20)
80%
(20)
40%
(20)
40%
(40)
những khác biệt
Thí dụ này rất đặc biệt. Trong hầu hết các
trường hợp cả hai biến độc lập dường như có tác
động đến biến phụ thuộc. Ở đây có thể có mối
quan hệ tương tác giữa các biến độc lập
8.3-Lập bảng chéo (tt) )-Nhiều biến và
kiểm định thống kê
Bảng chéo có thể chứa nhiều biến, nhưng thường
sử dụng cho 3 đến 4 biến.
Với bất kỳ số loại dòng và cột nào chúng ta
thường được chú ý đến kiểm chứng giả thuyết, H,
rằng có hay không sự độc lập thống kê về mối
quan hệ giữa phân loại theo dòng và phân loại
theo cột. Thường được kiểm định qua ChiSq
(xem giáo trình xác suất-thống kê).
8.3-Lập bảng chéo (tt)-Nhiều biến và
kiểm định thống kê
Khi sử dụng ý nghĩa ở mức độ 0,05 (sai số), giá trị
tới hạn cho 1 độ tự do là 3,533 (tra theo bảng cho
trước về kiểm định thống kê)
Từ kết quả số liệu bảng 8.1, sử dụng công thức
tính ChiSq ta có thể tính ChiSq mối quan hệ giữa
cột và dòng, và ChiSq=0,533
So sánh với kết quả tra bảng cho thấy 0,533
Năm thứ sáu 32 15
Năm thứ bảy 33 16
Năm thứ tám 35 17
Năm thứ chín 36 18
Năm thứ mười 37 19
Số liệu biểu trên có thể biểu diễn trên đồ
thị dưới đây:
0
10
20
30
40
0 5 10 15 20
Series1
8.4-Hồi quy tuyến tính giản đơn(tt)
Sơ đồ trên thể hiện mối quan hệ giữa X và Y là
quan hệ đường thẳng (tuyến tính).
Giải phương trình hồi qui tuyến tính trên máy
tính với các số liệu bảng trên cho ta kết quả hệ số
A=1,945 và B=1,491, phương trình tuyến tính thể
hiện mối quan hệ giữa Y và X như sau:
Y= 1,945 X+1,491
Kết quả hồi qui cho biết hệ số tương quan giữa X
và Y được ký hiệu là r.