98
CHƯƠNG BẢY
7
CHUẨN BỊ DỮ LIỆU VÀ XỬ LÍ DỮ LIỆ
U NỘI DUNG CHÍNH Chương này đề cập đến các nội dung chính sau:
- Chuẩn bị dữ liệu để xử lý
- Các phương pháp và nguyên tắc mã hoá dữ liệu
- Một số vấn đề liên quan đến xử lý và diễn giải dữ liệu
- Bảng phân phối tần suất và bảng so sánh
- Ước lượng tham số
- Ứng dụng tin học vào phân tích dữ liệu nghiên cứu Marketing
- Phân tích thống kê mô tả
- Những câu trả lời không đọc được.
Có 3 cách tiếp cận được sử dụng để xử lí các dữ liệu ''xấu'' từ các tình huống đó.
Quay trở lại người đi phỏng vấn hay người trả lời câu hỏi để làm sáng tỏ vấn đề
Việc liên hệ với các cá nhân để tìm câu trả lời đúng làm nảy sinh hai vấn đề:
- Làm tăng chi phí và sẽ quá đắt nếu cuộc khảo sát có quy mô vì chi phí phỏng vấn này đã được
tính trong dự án nghiên cứu. Theo kinh nghiệm, ngwời nghiên cứu có thể không cần tìm cách
thu thập thêm dữ liệu nếu tỉ lệ các câu hỏi nghi vấn tương đối nhỏ và / hoặc quy mô của mẫu
tương đối lớn (tỉ lệ các câu hỏi nghi vấn nhỏ hơn 20% và mẫu lớn hơn 500).
- Nếu quyết định đi ngược trở lại để thu thập dữ liệu, những dữ liệu mới có thể sẽ khác với dữ
liệu đã được thu thập trong cuộc phỏng vấn đầu tiên do các cá nhân có thể không nhớ thông tin
cần thiết, cũng như có thể do sử dụng phương pháp khác và điều này ảnh hưởng rất lớn đến kết
quả của câu trả lời (liên quan đến độ tin cậy của cuộc điều tra).
Suy luận từ những câu trả lời khác
Theo cách này, người hiệu chỉnh phỏng đoán từ các dữ liệu khác để làm rõ câu trả lời nào đúng.
Nhưng đây là cách làm đầy rủi ro. Khó có thể minh định được các quy luật để suy luận các câu
trả lời. Do đó để an toàn khi hiệu chỉnh dữ liệu, người nghiên cứu cần hết sức thận trọng với
phương pháp này, và không nên suy luận một câu trả lời trừ phi biết tương đối chắc chắn về ý
định của người trả lời.
Loại toàn bộ câu trả lời
100
Đây là việc dễ thực hiện nhất. Theo cách này, người hiệu chỉnh chỉ việc loại đi những câu trả lời
có nghi vấn. Trong trường hợp quy mô của mẫu tương đối lớn, người hiệu chỉnh có thể loại bỏ
toàn bộ các câu trả lời nếu thông tin thiếu nhất quán và người hiệu chỉnh không thể giải quyết vấn
đề thiếu nhất quán đó trong các dữ liệu được thu thập từ các đối tượng phỏng vấn. Tuy nhiên,
khuyết điểm trong cách tiếp cận này là sự thiên vị trong kết quả nếu những người trả lời thiếu
nhất quán đó bị loại ra khỏi cuộc nghiên cứu, khi đó kết quả đạt được sẽ bị lệch nếu ý kiến những
người trả lời bị loại này khác với những người còn được giữ lại trong mẫu điều tra.
Một cách giải quyết khác là tập hợp một báo cáo riêng các loại dữ liệu bị thiếu hoặc không nhất
quán, không rầng nếu người nghiên cứu thật sự tin rằng các dữ liệu đó có thể có ích cho việc ra
Q2a. Bà/ cô thường bao lâu xem TV một lần ?
Mỗi ngày/ hầu như mỗi ngày
(1)
4-5 ngày/ tuần
(2)
2-3 ngày/tuần
(3)
1 lần/ tuần
(4)
2-3 ngày/ tháng
(5)
1 lần/ tháng
(6)
Không thường xuyên
Từ 1 đến 3 giờ
(2)
Từ 3 đến 5 giờ
(3)
Từ 5 đến 7 giờ
(4)
Từ 7 đến 9 giờ
(5)
Trên 9 giờ
(6)
Q2d. Ngày cuối tuần (thứ bảy, chủ nhật) thì bà/cô xem TV bao lâu ?
Ít hơn 1 giờ
(1)
Từ 1 đến 3 giờ
(2)
Từ 3 đến 5 giờ
(3)
Từ 5 đến 7 giờ
quát.
- Những thông tin trả lời được sắp xếp trong cùng một “ loại mã hóa” thì phải tương tự nhau về
đặc trưng nghiên cứu.
- Ranh giới rõ ràng giữa các “loại mã hóa”
Với các đặc trưng đang được nghiên cứu, những sự khác biệt về thông tin trả lời giữa các “loại
mã” phải không giống nhau đến mức đủ xếp vào cùng một “loại mã”.
Ví dụ: Chúng ta đang nghiên cứu đặc trưng về tuổi tác của người được hỏi, giả sử cần tiến hành
mã hóa các tình huống trả lời như sau:
102
- Nhỏ hơn 20 tuổi
- Từ 21 tuổi đến 30 tuổi.
- Trên 30 tuổi
Nếu có một câu trả lời là 20 tuổi 4 tháng thì sẽ không rõ phải được xếp vào loại nào vì ở khoảng
thứ nhất phải là 20 tuổi và thứ 2 phải là từ 21 tuổi đến 30 tuổi. Khi đó người nghiên cứu phải
làm tròn theo nguyên tắc là 20 tuổi như vậy được xếp vào loại thứ 1.
- Nguyên tắc loại trừ giữa các loại mã hóa: các loại mã hóa phải không được chồng chéo lên
nhau, cần phải thiết lập chúng như thế nào để bất cứ tình huống trả lời nào cũng chỉ được xếp
vào một loại mã hóa thôi. (đã được xếp vào loại mã này thì không xếp vào mã khác)
- Nguyên tắc toàn diện: theo nguyên tắc này, cấu trúc của một loại mã phải bao quát được tất cả
các tình huống trả lời nhằm đảm bảo tất cả các tình huống đều được mã hóa.
- Nguyên tắc “đóng kín” những khoảng cách lớp: theo nguyên tắc này, không được “để mở”
khoảng cách lớp của mã hóa, bởi vì việc không chỉ rõ những giới hạn về khoảng cách lớp sẽ
làm lu mờ đi những giá trị phân tán ở hai đầu mút của dãy phân phối và do đó sẽ không cho
phép tính toán được giá trị trung bình của những quan sát trong mỗi khoảng cách lớp.
Ví dụ, xem xét việc mã hóa câu hỏi về thu nhập bình quân đầu người của những người được
phỏng vấn:
Mức thu nhập Mã hóa
Từ 100USD - 200USD 1
Trên 200USD - 300USD 2
chúng ta có phải quan tâm đến những mối liên hệ bên trong giữa các biến hay không?
- Chúng ta có muốn thăm dò cấu trúc bên trong của một hiện tượng bề ngoài về phản ứng của
người tiêu dùng, qua đó tìm hiểu được hoặc chứng minh cho các nguyên nhân bên trong hay
không ?
- Nếu dùng mô hình thử nghiệm thì (1) có những biến thiên cùng chiều nào giữa các biến thích
hợp? (2) các biến đặc biệt nào là nguồn nhập cho từng phương pháp hay cho các bảng tính, (3)
việc tính toán được thực hiện theo trình tự nào?
- Những tính toán nào phụ thuộc vào kết quả tính toán của các bước trước?
- Những tính toán nào phải chờ đợi những kết quả của các tính toán khác thì mới đi đến quyết
định kết quả của chúng có ý nghĩa hay không?
- Những câu trả lời cho câu hỏi thứ (3) đòi hỏi những phép toán thống kê phải được lập thành
một trình tự logic nhất định. Khi thiết lập những trình tự như thế cần nêu rõ những thứ tự ưu
tiên tính toán và những gì còn đang nghi vấn đối với kết quả đưa ra.
Ví dụ, có thể lập một danh bạ mã hóa cho mẫu phỏng vấn sản phẩm tivi như sau:
Q1. Có hoặc không xem tivi
Không 0
Có
1
Q2a. Số lần xem tivi
Mỗi ngày/ hầu như mỗi ngày 1
4-5 ngày/ tuần 2
- Tóm lược các phương pháp phân tích để làm rõ mối quan hệ hỗ tương và các ý nghĩa định
lượng giữa các dữ liệu (trong các nội dung sau chúng ta sẽ tìm hiểu một số phương pháp phân
tích dữ liệu dựa trên cơ sở sử dụng các thành tựu của khoa học thống kê)
Vấn đề hiệu quả của công tác xử lí dữ liệu
Nguy cơ làm cho phí tổn và thời gian xử lý lâu là những nguyên nhân khiến cho các nhà nghiên
cứu phải quan tâm đến tính hiệu quả của công tác dữ liệu. Để đảm bảo tính hiệu quả của công tác
xử lý dữ liệu cần phải chú ý đến một số vấn đề sau:
- Việc chuẩn bị các dữ liệu để xử lý phải làm sẵn trước khi đưa dữ liệu đến bộ phận computer.
Việc này sẽ tiết kiệm được thời gian và tránh được những sai sót đáng tiếc do tình trạng các dữ
liệu thô đổ dồn về trung tâm tính toán.
- Tiên đoán trước các dữ liệu nào là cần thiết đưa vào xử lý và phân tích. Không được tùy tiện
cắt xén dữ liệu vì việc bổ sung dữ liệu trong quá trình xử lý sẽ rất phức tạp và tốn nhiều công
sức, tiền bạc. Nhưng cũng không nên đưa quá nhiều dữ liệu “râu ria” vào xử lý làm tăng khối
lượng tính toán không cần thiết, kết quả phân tích sẽ phức tạp và nhiều khi vô dụng.
Tóm lại phải đưa và chỉ nên đưa đủ những dữ liệu cần thiết cho mục đích nghiên cứu vào xử lý.
Bản chất của sự diễn giải
Định nghĩa
Diễn giải là làm nổi bật ý nghĩa của dữ liệu, hay nói cách khác diễn giải là quá trình chuyển đổi
các dữ liệu thuần túy thành thông tin. Người nghiên cứu sẽ đạt đến mục tiêu của quá trình nghiên
cứu khi rút ra kết luận từ những dữ liệu để phân tích. Có hai giai đoạn về suy nghĩ lôgíc dùng để
rút ra các suy luận từ dữ liệu và cả hai giai đoạn đều được ta thực hiện dù có ý thức hay không:
đó là quy nạp và diễn giải.
Boveridge đã định nghĩa các giai đoạn này như sau: “Các nhà lôgíc học phân biệt rõ giữa suy
luận qui nạp (từ những ví dụ đặc biệt dẫn đến các qui tắc chung, từ dữ kiện cho đến lý thuyết) và
suy luận diễn giải (từ cái chung đến cái đặc biệt, áp dụng lý thuyết vào một trường hợp nào đó).
Ở quy nạp, người ta bắt đầu từ các dữ kiện, quan sát chúng và tiến đến một sự khái quát hóa để
giải thích mối quan hệ giữa các đối tượng được quan sát. Ngược lại, ở phương pháp diễn giải,
người ta bắt đầu từ các qui luật chung và áp dụng chúng vào một trường hợp cụ thể”.
Các yêu cầu của việc diễn giải
Để diễn giải tốt, cần phải lưu ý các vấn đề sau:
- Phương pháp biến số đơn: trong đó chỉ có một biến số duy nhất được phân tích.
- Phương pháp biến số kép: được sử dụng để tìm hiểu sự liên hệ giữa hai biến số.
- Phương pháp đa biến: được sử dụng để tìm hiểu sự liên hệ giữa các biến số với nhau.
Tính độc lập và phụ thuộc lẫn nhau
Liên quan đến số lượng biến số được phân tích là sự liên hệ giữa các biến số với nhau. Từ “liên
hệ” được sử dụng để ám chỉ sự biến thiên của hai (hay nhiều) biến số sẽ có ảnh hưởng giữa chúng
với nhau. Sẽ có hai trường hợp phân tích:
(1) Trường hợp trong đó chỉ có một biến số được kiểm nghiệm về tính phụ thuộc của nó với
những biến số độc lập khác.
(2) Trường hợp người nghiên cứu tìm kiếm những mối liên hệ hay phụ thuộc lẫn nhau giữa tất cả
các biến số.
106
LẬP BẢNG PHÂN PHỐI TẦN SUẤT VÀ LẬP BẢNG SO SÁNH
Lập bảng phân phối tần suất (lập bảng theo thứ tự ABC)
Hình thức đơn giản nhất trong xử lý dữ liệu là sắp xếp chúng theo chuỗi số (hoặc theo hướng
tăng dần từ thấp đến cao, hoặc giảm dần từ cao xuống thấp), sau đó phân chia thành từng lớp
(theo nguyên tắc phân tổ trong thống kê). Ở loại bảng đơn giản này, các dạng dữ liệu được thể
hiện bao gồm:
- Đại lượng nghiên cứu đã được phân tổ.
- Tần số quan sát ứng với từng lớp.
- Tần số tích lũy.
Chẳng hạn, sau khi thu thập các dữ liệu về thu nhập, ta có thể sắp xếp chúng như sau:
Thu thập hàng tháng (triệu đồng) Số người (Tần số) Tần số lũy tích
Dưới 500.000 đồng
Từ 500.000 đồng đến 1.000.000 đồng
Từ 1.000.000 đồng đến 1.500.000 đồng
Từ 1.500.000 đồng đến 2.000.000 đồng
Từ 2.000.000 đồng đến 2.500.000 đồng
Trên 2.500.000 đồng
Trình độ
học vấn
Dưới 1,0 1,0-2,0 2,0-3,0 Trên 3,0
Nam
-Tiểu học
-Trung học
- Đại học
- Thạc sĩ
- Tiến sĩ
Nữ
-Tiểu học
-Trung học
- Đại học
- Thạc sĩ
- Tiến sĩ
Để kiểm tra sự phân bố dữ liệu có thể tuân theo quy luật phân phối chuẩn hay không, hai tham số
mà chúng ta đề cập là tham số skewness và kurtosis, hai tham số này biểu hiện độ "nhọn" của
phân phối tần suất.
Hệ số skewness
Skewness là thước đo mức độ không đối xứng của phân phối tần suất, các giá trị trung bình (
X
),
số mode (M
0
), số trung vị (M
d
) đều tham gia vào quá trình xem xét. Trong một dãy phân phối có
dạng đối xứng hoàn toàn các tham số trung bình, trung vị và mode có cùng giá trị (
x
: Số trung bình mẫu
Hệ số kurtosis
Hệ số Kurtosis là thước đo mức độ phẳng của phân phối tần suất, nếu dữ liệu tuân theo phân phối
chuẩn thì thông số này bằng 0. Tính hệ số Kurtose từ
n
Kurtose
Z
24
=
ĐO LƯỜNG KHUYNH HƯỚNG HỘI TỤ CỦA DỮ LIỆU
Có 3 tham số cơ bản để đó lường khuynh hướng hội tụ của dữ liệu là mốt (mode), trung vị
(median) và số trung bình.
Mode:
Mode là giá trị trung tâm xảy ra thường xuyên nhất trong dãy phân phối tần suất. Nó được
tính ra dễ dàng khi xếp dữ liệu và các lớp trong một bảng tần suất phân phối vì “mode” là lớp
chứa số lần quan sát lớn nhất.
Số mode được tính theo công thức sau:
i
dd
d
LM
Mo
*
21
1
0
+
-
Mode có thể tiêu biểu cho dãy phân phối nếu những quan sát được tập trung vào một giá trị
hoặc một lớp.
Trung vị:
Trung vị (medial) thể hiện giá trị trung bình tiêu biểu nhất của các giá trị trong dãy
phân phối, vì nó bằng đúng ngay giữa giá trị cao nhất và giá trị thấp nhất. Trước khi xác định giá
trị trung vị, cần phải sắp xếp các dữ liệu theo thứ tự dưới lên hoặc từ trên xuống. Đối với những
dữ liệu không được phân nhóm mà số quan sát là lẻ thì chọn giá trị trung vị rất dễ dàng.
Giá trị trung vị được xác định theo công thức:
i
f
f
n
LM
Md
c
Mdd
*
2
−
+=
Trong đó: M
d
- Giá trị trung vị
L
Md
- Giới hạn dưới của lớp chứa trung vị.
n - Tổng tần suất trong dãy phân phối
f
c
∑
=
=
i
i
x
n
x
1
1
n
.
Nếu các giá trị x
1
,x
2
,......,x
n
lần lượt có các tần suất n
1
,n
2
,.....,n
k
,
thì
)(
1
1
nnnx
nên chọn tham số nào để ước lượng.
Ngoài ra, để lựa chọn ước lượng thích hợp, có thể sử dụng các tiêu chuẩn do các nhà thống kê
đưa ra mà một khi một ước lượng thỏa mãn được chúng thì đó sẽ là một ước lượng tốt.
-
Tính không chệch: Khi kỳ vọng toán của tham số đó gần trùng với tham số tổng thể thì ước
lượng được xem là không chệch.
-
Tính phù hợp: Khi kích thước mẫu tăng lên mà một ước lượng rút ra từ mẫu đó cũng tiếp cận
đến tham số tổng thể (giá trị thực sự của tổng thể) thì ước lượng đó gọi là một ước lượng phù
hợp của tham số tổng thể.
-
Tính đầy đủ: Một ước lượng thống kê được xem là mang tính đẩy đủ nếu nó sử dụng hết các
thông tin về tham số mẫu mà mẫu nó chứa, nghĩa là không có mẫu nào khác có thể có thể cho
thêm thông tin về tham số.
ĐO LƯỜNG ĐỘ PHÂN TÁN CỦA DỮ LIỆU
Các tham số đo lường khuynh hướng hội tụ của dữ liệu đã không nói gì về khả năng mở rộng hay
chia nhỏ các dữ liệu quan sát. Vì thế, cần nghiên cứu độ phân tán để so sánh “sự mở rộng” của
hai tập dữ liệu và tính đặc trưng của các giá trị trung bình. Ví dụ, nếu các dữ liệu được “mở rộng"
109
nhiều quá thì việc sử dụng giá trị trung bình để quan sát tính hội tụ sẽ không thể biểu trưng cho
các dữ liệu đang nghiên cứu.
Khoảng biến thiên:
Khoảng biến thiên là đặc trưng phân tán đơn giản nhất. Nó là sự sai biệt giữa giá trị cao nhất và
thấp nhất trong một dãy hay bảng phân phối. Nó chỉ làm nổi bật khoảng cách của dữ liệu mà
không so sánh với giá trị trung bình. Vì vậy các giá trị tiêu biểu của dữ liệu có thể không được đề
cập đến và đặc trưng này có thể làm méo mó đi hình ảnh của dãy phân phối.
Phương sai và độ lệch chuẩn:
Phương sai và độ lệch chuẩn dựa trên mức độ sai lệch của các quan sát với giá trị trung bình.
Phương sai được định nghĩa như là số trung bình của bình phương các độ lệch giữa giá trị quan
−=
k
i
ii
nxx
n
s
1
22
)(
1
Độ lệch chuẩn
∑
=
−==
n
i
i
xx
n
ss
1
22
)(
1
hoặc
∑
=
nxx
nn
n
s
n
n
s
1
2
1
22
)(
1
1
)(
1
*
11
'
Một số đặc trưng quan trọng của độ lệch chuẩn:
-
Sự thay đổi của bất kỳ giá trị quan sát nào thì làm sẽ làm thay đổi giá trị của độ lệch chuẩn.
-
Cũng như giá trị trung bình, độ lệch chuẩn có thể mất tính đại diện nếu dãy phân phối quá lệch.
-
Không thể tính được độ lệch chuẩn đối với các dãy phân phối mở.
Hệ số biến thiên: (Coefficient of variation)
Nếu cần phải so sánh sự phân tán của nhiều hơn một dãy phân phối có các đơn vị đo lường khác
nhau, ta có thể dùng một đặc trưng phân tán tương đối được gọi là “hệ số biến thiên”, công thức