10/25/2012
1
1
Phân tích dữ liệu trong nghiên cứu
Kinh tế và Kinh doanh
TS. Phạm Cảnh Huy
Khoa Kinh tế và quản lý – ĐHBKHN
Bài giảng
2
Nội dung
Giới thiệu mục tiêu học phần:
Môn học này cung cấp các kỹ thuật phân tích dữ liệu cần thiết cho thực
hiện nghiên cứu khoa học và làm luận án/ luận văn tốt nghiệp.
Học viên tiếp cận kiến thức của môn học không chỉ từ góc độ kiến thức
nền tảng của các công thức toán học cần thiết, từ các tình huống gần gũi
trong thực tế, mà còn dưới dạng ‘ứng dụng’, ‘thực hành’ trên phần mềm
Eviews, SPSS…
Những kiến thức cơ bản được trang bị từ môn học:
1) Kỹ thuật phân tích thống kê mô tả với các loại dữ liệu khác nhau;
2) Các phương pháp kiểm định;
3) Kỹ thuật phân tích nhân tố khám phá, kiểm định độ tin cậy của thang đo;
4) Phân tích tương quan, hồi quy;
5) Sử dụng phần mềm Eviews và/hoặc SPSS.
10/25/2012
2
3
Nội dung
Tài liệu tham khảo:
Gerhard Bohm, Günter Zech, Introduction to Statistics and Data
Analysis, 2010.
Gerald Keller, Brian Warrack, Statistics for management and
Trong kinh doanh hiện đại thì kinh nghiệm còn được gọi là "dữ
liệu".
"Dữ liệu là Kinh nghiệm"
Nếu bạn không thu thập dữ liệu bạn đang lãng phí kinh nghiệm
của bạn.
Nhưng dữ liệu là "kinh nghiệm" chỉ là/ hay chỉ được mã hoá
bằng những con số.
Để dữ liệu giải mã hoặc để hiểu được nó chúng ta cần phải phân
tích (Phân tích dữ liệu).
10/25/2012
4
7
1.1. Nghiên cứu và phân tích dữ liệu
Phân tích dữ liệu thường được chia thành:
PHÂN TÍCH
DỮ LIỆU
1. Mô tả dữ liệu
2. So sánh dữ liệu
3. Liên hệ dữ liệu
8
1.2. Bản chất của phân tích dữ liệu
Bản thân dữ liệu thô không phải là tri thức.
Trình tự đi từ dữ liệu đến tri thức:
Mức độ chính xác của mô
10/25/2012
6
11
1.4. Quá trình phân tích dữ liệu
Tổng quát
Thu thập và
Chuẩn bị dữ liệu
Thu thập dữ liệu
Mã hóa dữ liệu
Thiết lập cấu trúc dữ liệu
Nhập dữ liệu
Kiểm tra, hiệu chỉnh
Khám phá dữ liệu
Thống kê mô tả
Bảng biểu, đồ thị
Phân tích
So sánh các nhóm Mối quan hệ giữa
các biến
12
1.4. Quá trình phân tích dữ liệu
Thu thập và Chuẩn bị dữ liệu
Thu thập dữ liệu
Mã hóa dữ liệu
Thiết lập cấu trúc
Line graphs
Thống kê mô tả
Bảng biểu,
đồ thị
14
1.4. Quá trình phân tích dữ liệu
Phân tích dữ liệu
Non-parametric statistics
T-tests
One-way analysis of variance ANOVA
Two-way between groups ANOVA
Multivariate analysis of variance MANOVA
Crosstabulation/Chi Square
Correlation
Regression/Multiple regression
Factor analysis
So sánh
các nhóm
Mối quan hệ
giữa các biến
10/25/2012
8
15
EXCEL
SPSS
EVIEWS
lệ
18
2.1. Phân loại dữ liệu
Thang đo danh nghĩa (biểu danh)/ nominal scale
Thang đo biểu danh là thang đo đơn giản nhất để phân biệt sự vật
hay hiện tượng này với cái khác nó, nhiều khi người ta dùng các
con số để mã hoá hay chỉ (biểu danh) một sự vật, ngoài ra không
có ý nghĩ gì khác.
Ví dụ 1:
- Khách hàng: Nam Nữ;
- Đối tượng: Người bán sỉ Người bán lẻ;
- Thái độ: Thích Không thích
Giữa các biểu danh: Nam/ Nữ; Thích/ Không thích hoàn
toàn không có quan hệ thứ bậc nào cả.
10/25/2012
10
19
2.1. Phân loại dữ liệu
Thang đo danh nghĩa (biểu danh)/ nominal scale
Ví dụ 2: Hỏi “Xin vui lòng cho biết tình trạng hôn nhân của bạn
hiện nay?”
Độc thân 1
Đang có gia đình 2
Goá bụa 3
Đã ly hôn 4
Những con số này mang tính định danh vì rõ ràng ta
không thể cộng chúng lại hoặc tính ra giá trị trung bình của
tình trạng hôn nhân”.
20
3. >5 trđ
Ví dụ 2: Xếp hạng TOPTEN hàng tiêu dùng Việt Nam tuỳ theo số
lượng thư khách hàng bình chọn nhiều hay ít từ hạng nhất đến hạng 10
(không nói rõ hạng nào được bao nhiêu thư). Hoặc theo mức độ ưa
chuộng của khách hàng ở 3 mức:
1. Không thích;
2. Hơi thích;
3. Rất thích.
Ta biết là “hơi thích” là hơn “không thích” nhưng không đo lường
được khoảng cách giữa hai cấp độ đó là bao nhiêu.
10/25/2012
12
23
2.1. Phân loại dữ liệu
Thang đo khoảng/ interval scale
Là loại thang cung cấp định lượng về
quan hệ thứ tự giữa các sự vật và hiện
tượng;
là một dạng đặc biệt của thang đo xếp
hạng theo thứ bậc;
Trong việc đo lường thái độ hay ý
kiến thì thang đo khoảng cách cung
cấp nhiều thông tin hơn so với thang
đo xếp hạng theo thứ tự
THANG ĐO KHOẢNG CÁCH
nó nói lên được khoảng cách giữa hai
cấp bậc thứ tự (đã được lượng hoá).
24
2.1. Phân loại dữ liệu
Thang đo khoảng/ interval scale
26
2.1. Phân loại dữ liệu
Thang đo khoảng/ interval scale
Các phép toán thống kê có thể sử dụng thêm cho loại thang đo
này (so với 2 loại thang đo trên) là:
Tính khoảng biến thiên;
Số trung bình;
Độ lệch chuẩn.
Cần chú ý là thang đo khoảng cách tự nó không có điểm 0 tuyệt đối,
do đó bạn chỉ có thể thực hiện được phép tính công hay trừ (+/-),
nếu dùng phép chia (/) thì kết quả sẽ không có ý nghĩa. 10/25/2012
14
27
2.1. Phân loại dữ liệu
Thang đo tỷ lệ/ ratio scale
Đây là những loại thang đo lường cho phép đánh giá và so sánh
các sự vật hiện tượng một cách tuyệt đối, cung cấp thông tin định
lượng một cách đầy đủ nhất và được áp dụng rộng rãi nhất.
Nhiều thang đo tỉ lệ cho thấy những ý nghiã sâu sắc hơn là ba
loại thang đo trước.
Đây là thang đo dùng cho tiêu thức số lượng.
Ví dụ: Mức độ chi tiêu cho tiền học của con cái chiếm 30%
thu nhập của tôi.
thực hiện, do người thực hiện gây nên như: ghi nhầm; chọn sai ô
lựa chọn;… Các sai lệch ngẫu nhiên có thể do mệt mỏi, nóng
giận, buồn chán, sự hiện diện của người khác,… gây ra.
10/25/2012
15
29
2.2. Đánh giá đo lường
Giá trị và độ tin cậy của đo lường
Một đo lường được gọi là có giá trị (Validity) nếu nó đo lường
được đúng cái cần đo lường. Nói cách khác do lường được coi là
“lý tưởng” khi Sai lệch trong đo lường bằng 0 (є
m
= 0 Khi є
s
= 0;
є
r
= 0). Thật vậy, nếu X là số đo được của một thuộc tính nào đó
và X
0
là số đo thật của nó thì:
X = X
0
+ є
m
= X
0
+ є
s
Chuẩn bị dữ liệu Nhập dữ liệu và lưu trữ
Giai đọan này gổm 3 bước:
Kiểm tra và hiệu chỉnh
dữ liệu;
Định biến dữ liệu;
Mã hóa dữ liệu.
Giai đọan này cũng gồm 3
bước:
Nhập dữ liệu vào máy
tính;
Làm sạch dữ liệu;
Lưu trữ dữ liệu.
32
2.3. Xử lý dữ liệu
Các giai đoạn xử lý dữ liệu/ Kiểm tra và hiệu chỉnh
Đây là bước kiểm tra chất lượng thông tin, ví dụ thông tin trong
bảng câu hỏi nhằm đảm bảo không có bảng câu hỏi nào bị thiếu
hoặc chứa đựng những thông tin sai sót theo yêu cầu thiết kế ban
đầu. Người kiểm tra phải bảo đảm tính toàn vẹn và tính chính xác
của từng bảng câu hỏi. Thông thường ở bước này các nhà nghiên
cứu sẽ tiến hành kiểm tra các đặc tính cơ bản của bảng câu hỏi.
Quá trình kiểm tra, rà soát lại nhằm mục đích kiểm tra, phát hiện,
sửa chữa và thông báo kịp thời cho người thu thập dữ liệu để
tránh những sai sót tương tự. Để xử lý các sai sót phát hiện được
qua kiểm tra, ta có thể chọn cách xử lý tuỳ thuộc vào mức độ sai
sót. 10/25/2012
17
10/25/2012
18
35
2.3. Xử lý dữ liệu
Các giai đoạn xử lý dữ liệu/ Mã hóa dữ liệu
Mã hoá giúp giảm số biểu hiện của một biến định tính chỉ còn 2 hay 3 biểu
hiện cơ bản hoặc khi biến định lượng có quá nhiều giá trị chúng ta muốn
nhóm lại giúp cho việc trình bày gọn hơn. Mã hoá dữ liệu làm cơ sở cho việc
thống kê phân tích dữ liệu.
Mã hoá dữ liệu (Coding) là quá trình chuyển đổi thành dạng mã số để nhập và
xử lý dữ liệu.
Trong nghiên cứu Marketing, mục đích của việc mã hoá là tạo nhãn (labels)
cho các câu trả lời, thường là bằng các con số, hay ký hiệu. Một trả lời khi mã
hoá thường sẽ thể hiện bằng 1ký tự chỉ số trả lời (số đo).
Thí dụ: Với câu hỏi “ Xin vui lòng cho biết sở thích của bạn đối với sữa chua
Vinamilk?
Code: 1 2 3 4 5
Rất ghét Ghét Tạm được Thích Rất thích
36
2.3. Xử lý dữ liệu
Các giai đoạn xử lý dữ liệu/ Mã hóa dữ liệu
TT
Câu hỏi nghiên cứu
Biến quan sát
Mã trả lời
Trả lời
1
Vui lòng cho biết giới tính của
3
4
5
Rất ghét
Ghét
Tạm được
Thích
Rất thích
…
10/25/2012
19
37
2.3. Xử lý dữ liệu
Các giai đoạn xử lý dữ liệu/ Làm sạch và lưu trữ
Nhập dữ liệu vào máy tính
(Inputing data into computer)
Làm sạch dữ liệu
(Data cleaning)
CÁC BƯỚC CÔNG ViỆC
Lưu trữ dữ liệu
(Data saving)
38
2.3. Xử lý dữ liệu
Giới thiệu về màn hình quản lý dữ liệu trên SPSS
Cột (Column): Đại diện
cho biến quan sát.
Là nơi lưu trữ dữ
liệu nghiên cứu
với một cấu trúc
cơ sở dữ liệu bao
hỏi cần khảo sát (biến) và một đối tượng trả
lời cụ thể (trường hợp quan sát). Ô là sự kết
hợp của đối tượng và biến. Các ô chỉ chứa
các trị số biến.
10/25/2012
21
41
2.3. Xử lý dữ liệu
Giới thiệu về màn hình quản lý dữ liệu trên SPSS
Là nơi quản lý
các biến cùng
với các thông số
liên quan đến
biến. Trong màn
hình này mỗi
hàng trên màn
hình quản lý một
biến, và mỗi cột
thể hiện các
thông số liên
quan đến biến đó
Tên biến (name): Là tên đại diện
cho biến, tên biến này sẽ được hiễn
thị trên đầu mỗi cột trong màn hình
dữ liệu
42
2.3. Xử lý dữ liệu
Giới thiệu về màn hình quản lý dữ liệu trên SPSS
Là nơi quản lý
các biến cùng
Số lượng con số hiễn thị cho giá
trị (Width): Giá trị dạng số được
phép hiễn thị bao nhiêu con số
44
2.3. Xử lý dữ liệu
Giới thiệu về màn hình quản lý dữ liệu trên SPSS
Là nơi quản lý
các biến cùng
với các thông số
liên quan đến
biến. Trong màn
hình này mỗi
hàng trên màn
hình quản lý một
biến, và mỗi cột
thể hiện các
thông số liên
quan đến biến đó
Decimals: Số lượng con số sau
dấu phẩy được hiễn thị
10/25/2012
23
45
2.3. Xử lý dữ liệu
Giới thiệu về màn hình quản lý dữ liệu trên SPSS
Là nơi quản lý
các biến cùng
với các thông số
liên quan đến
biến. Trong màn
thể (nhãn giá trị)
10/25/2012
24
47
2.3. Xử lý dữ liệu
Giới thiệu về màn hình quản lý dữ liệu trên SPSS
Là nơi quản lý
các biến cùng
với các thông số
liên quan đến
biến. Trong màn
hình này mỗi
hàng trên màn
hình quản lý một
biến, và mỗi cột
thể hiện các
thông số liên
quan đến biến đó
Giá trị khuyết (Missing): Do thiết kế
bảng câu hỏi có một số giá trị chỉ mang
tính chất quản lý, không có ý nghĩa phân
tích, để loại bỏ các biến này ta cần khai
báo nó như là giá trị khuyết (user
missing). SPSS mặc định giá trị khuyết
(system missing) là một dấu chấm và tự
động loại bỏ các giá trị này ra khỏi các
phân tích thống kê.
48
2.3. Xử lý dữ liệu
Giới thiệu về màn hình quản lý dữ liệu trên SPSS
thể hiện các
thông số liên
quan đến biến đó
Ví trí (align): Vị
trí hiễn thị các giá
trị trong cột (phải,
trái, giữa)
50
2.3. Xử lý dữ liệu
Giới thiệu về màn hình quản lý dữ liệu trên SPSS
Là nơi quản lý
các biến cùng
với các thông số
liên quan đến
biến. Trong màn
hình này mỗi
hàng trên màn
hình quản lý một
biến, và mỗi cột
thể hiện các
thông số liên
quan đến biến đó
Dạng thang đo
(measures): Hiễn thị
dạng thang đo của giá trị
trong biến