slide bài giảng bai 7. nhập và xử lý dữ liệu - Pdf 24

Bài 7.
Nhập và xử lý dữ liệu
Môn học: Phương pháp nghiên cứu kinh tế
Khoa Kinh tế Phát triển
Đại học Kinh Tế TP. Hồ Chí Minh
2
7.1 Giới thiệu
Nhằm hướng dẫn sinh viên cách:

Cách nhập liệu, xử lý và phân tích dữ liệu.

Các kỹ thuật phân tích dữ liệu mang tính
khám phá (exploratory data analysis).

Cách sử dụng bảng chéo (cross-tabulation)
để trắc nghiệm mối quan hệ giữa các biến
phân loại (categorical variables).

Cách sử dụng các thống kê phân tích trắc
nghiệm giả thiết.
TS. Trần Tiến Khai, UEH
3
7.2 Quy trình phân tích dữ liệu
Lập đề cương NC
Thu thập và chuẩn
bị dữ liệu
Phân tích và diễn giải dữ liệu
Phân tích mô tả các biến số
Lập bảng chéo cho các biến số
Trình bày dữ liệu
(histogram, boxplots, Pareto, stem-and-

Thực hiện:

Nguyên tắc chung: đặt tên biến ngắn gọn, viết
tắt (tiếng Việt không dấu hoặc tiếng Anh). Tên
biến nên được đặt theo quy định.

Dùng Excel: dễ thao tác và chỉnh sửa, không
gian lưu trữ hạn chế, công cụ thống kê và kinh
tế lượng không đủ cho phân tích.

Dùng SPSS: không gian lưu trữ gần như không
hạn chế, công cụ thống kê và kinh tế lượng phát
triển đầy đủ cho nhu cầu phân tích. Khai báo dữ
liệu bắt buộc, mất thời gian.
TS. Trần Tiến Khai, UEH
6
7.3 Nhập số liệu
Hình 5. 2 Cách
nhập dữ liệu vào
bảng tính SPSS
TS. Trần Tiến Khai, UEH
7
7.3 Nhập số liệu
Hình 8.3 Cách định nghĩa các thuộc tính của các biến số định tính và
định lượng
TS. Trần Tiến Khai, UEH
8
Định nghĩa kiểu biến
TS. Trần Tiến Khai, UEH
9

A g e o f m otorbike user
80
70
60
50
40
30
20
10
Motobike Names
Others
Honda @
Honda Dream
SYM Attila
Yamaha Cygnus
Honda Wave
Yamaha Jupiter
Yamaha Sirius
Honda Future Neo
Honda AirBlade
TS. Trần Tiến Khai, UEH
16
7.4 Làm sạch dữ liệu
b. Sử dụng SPSS: công cụ Frequency, Explore
Hình 8.6 Công cụ Frequency và Explore trong SPSS
TS. Trần Tiến Khai, UEH
17
7.4 Làm sạch dữ liệu
b. Sử dụng SPSS: công cụ Frequency
Frequency Percent %Valid Cumulative

Yamaha Cygnus
Honda Wave
Yamaha Jupiter
Yamaha Sirius
Honda Future Neo
Honda AirBlade
Motobike Names
P e rce nt
30
20
10
0
TS. Trần Tiến Khai, UEH
19
7.4 Làm sạch dữ liệu

Biểu đồ histogram là một giải pháp quy ước
dùng để thể hiện các dữ liệu tỷ lệ hoặc
khoảng cách.

Biểu đồ histogram được sử dụng để phân
nhóm các giá trị dữ liệu của các biến số
(variable) thành các khoảng cách.

Biểu đồ histogram được xây dựng dưới
dạng các thanh thể hiện giá trị dữ liệu.
b. Sử dụng SPSS: công cụ Histogram
TS. Trần Tiến Khai, UEH
20
7.4 Làm sạch dữ liệu


Mỗi dòng của biểu đồ được gọi là một
thân; và mỗi số liệu thể hiện trên
một thân gọi là một lá.

Khi biểu đồ thân-và-lá được quay trái
90
0
, nó sẽ có dạng hình tương tự như
biểu đồ histogram.
b. Sử dụng SPSS: biểu đồ Thân-và-Lá (Stem-and-Leaf Displays)
TS. Trần Tiến Khai, UEH
23
7.4 Làm sạch dữ liệu
b. Sử dụng SPSS: biểu đồ Thân-và-Lá (Stem-and-Leaf Displays)
Age of motorbike user Stem-and-Leaf Plot
Frequency Stem & Leaf
6.00 1 . 889999
18.00 2 . 000111122222233344
8.00 2 . 55677788
13.00 3 . 0012233334444
4.00 3 . 5556
12.00 4 . 123333334444
13.00 4 . 5555566777789
10.00 5 . 0123344444
9.00 5 . 566667779
2.00 6 . 03
4.00 6 . 5567
.00 7 .
1.00 7 . 6

thứ 3 (tương ứng với giá trị thứ 25% (25th percentile)
và giá trị thứ 75% (75th percentile) của dãy số liệu.

Các “râu” kéo dài từ lề phía trên và phía dưới của hộp
thể hiện giá trị lớn nhất và nhỏ nhất. Các giá trị này
nằm trong khoảng tối đa 1,5 lần khoảng cách giữa các
tứ phân vị tính từ lề của hộp.
b. Sử dụng SPSS: biểu đồ hộp (Box-Plots)
TS. Trần Tiến Khai, UEH


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status