BÀI GIẢNG LÝ THUYẾT THỐNG KÊ
Đoàn Hồng Chương
1
1
Bộ môn Toán - TKKT, Đại học Kinh Tế - Luật
Lý t huyết t hống kê
GIỚI THIỆU MÔN HỌC
1. Giới thiệu đề cương
• Thống kê mô tả
• Hướng dẫn sử dụng SPSS
• Ước lượng
• Kiểm định tham số
• Kiểm định phi tham số
2. Kiểm tra đánh giá
• Kiểm tra cuối kì: Trắc nghiệm (20 câu hỏi - 60 phút) - Tỉ lệ 100%
• Đề mẫu sẽ gửi vào tuần học cuối.
3. Thông tin liên lạc
• Email:
• Blog: www.chuongdh.wordpress.com
Trang 1
Lý t huyết t hống kê
Chương 1
CÁC KHÁI NIỆM CƠ BẢN VỀ THỐNG KÊ
1.1 Thống kê là gì?
Định nghĩa 1.1 (STATISTICS). Thống kê là khoa học về việc thu thập, tổ chức,
trình bày, phân tích và diễn giải các dữ liệu nhằm đưa ra những quyết định hiệu
quả.
Về mặt lịch sử, khoa học t hống kê ra đời và phát triển nhờ:
1. Nhu cầu của nhà nước về việc thu thập, xử lý và giải thích các dữ liệu.
2. Sự phát triển của lý thuyết xác suất trong Toán học.
Phân loại:
Định nghĩa 1.7 (ORDINAL LEVEL DATA). Dữ liệu thứ bậc là loại dữ liệu có
các đặc tính sau:
• các giá trị được chia thành nhóm hoặc phạm trù.
• giữa các nhóm hoặc phạm trù có thể sắp thứ tự và do đó có thể xếp hạng các
nhóm hoặc phạm trù.
Ví dụ 1.3. Student rating of a Prof. Finance
1
.
1
Doughlas A. Lind, William G. Marchal, and Samuel A. Wathen., "Basic Statistics for Business & Economics", McGraw Hill, Singapore, 2008.
Trang 4
Lý t huyết t hống kê
Rating Superior Good Average Poor Inferior
Frequency 6 28 25 12 3
Định nghĩa 1.8 (INTERVAL LEVEL DATA) . Dữ liệu khoảng là loại dữ liệu có
các đặc tính sau:
• các giá trị có thể so sánh và thực hiện được các phép tính số học.
• điểm gốc 0 của loại dữ liệu này chỉ mang tính tương đối.
Ví dụ 1.4. Nhiệt độ, cỡ giày, cỡ quần áo là các dữ liệu khoảng.
Định nghĩa 1.9 (RATIO LEVEL DATA). Dữ liệu tỉ lệ là loại dữ liệu có các đặc
tính sau:
• các giá trị có thể so sánh và thực hiện được các phép tính số học
• điểm gốc 0 và tỉ lệ giữa các giá trị của loại dữ liệu này thực sự có ý nghĩa.
Ví dụ 1.5. Father-son income combinations
2
2
Doughlas A. Lind, William G. Marchal, and Samuel A. Wathen., "Basic Statistics for Business & Economics", McGraw Hill, Singapore, 2008.
Trang 5
Lý t huyết t hống kê
Name Father Son
N
n
+ 1, nếu
N
n
≥ 0, 5.
• Trong k phần tử đầu tiên của tổng thể, chọn ngẫu nhiên 1 phần tử.
Phần tử được chọn tiếp theo cách phần tử đầu tiên k vị trí và cứ thế
tiếp tục chọn đến phần tử cuối cùng của mẫu.
Ví dụ 1.6. Giả sử tổng thể bao gồm N=13, kích thước mẫu n=4. Vì
N
n
= 3, 25
nên k = 3. Khi đó ta chọn mẫu theo tắc:
• Chọn ngẫu nhiên một phần tử trong 3 phần tử đầu tiên.
• Phần tử tiếp theo được chọn cách phần tử đầu tiên 3 vị trí.
Công việc trên được mô tả qua sơ đồ sau (ô vuông màu đen thể hiện phần tử
được chọn của mẫu)
Trang 7
Lý t huyết t hống kê
Ví dụ 1.7. Giả sử tổng thể bao gồm N=10, kích thước mẫu n=6. Vì
N
n
= 1, 67
nên k = 2. Khi đó ta chọn mẫu theo tắc:
F ) tại một vùng:
Nhiệt độ X
i
(
0
F ) Tần số n
i
Tần suất f
i
12 2 11,11%
15 3 16,67%
17 4 22,22%
18 4 22,22%
20 3 16,67%
21 2 11,11%
Trang 9
Lý t huyết t hống kê
Định nghĩa 2.2 (CUMULATIVE FREQUNECY). Tần số tích lũy S
i
được xác
định bởi công thức
S
i
= n
1
+ n
2
+ . . . + n
i
(2.1)
20 3 16,67% 16 88,89%
21 2 11,11% 18 100,0%
Trang 10
Lý t huyết t hống kê
Ví dụ 2.3. Năng suất lúa (tạ/ha) của 50 hộ dân tại một địa phương được cho như
sau
35 41 32 44 33 41 38 44 43 42
30 35 35 43 48 46 48 49 39 49
46 42 41 51 36 42 44 34 46 34
36 47 42 41 37 47 49 38 41 39
40 44 48 42 46 52 43 41 52 43
Hãy lập bảng phân phối tần số, tần suất, tần số tích lũy, tần suất tích lũy của dữ
liệu trên.
2.2 Biểu đồ cột
Trang 11
Lý t huyết t hống kê
2.3 Histogram
Định nghĩa 2.4. Đồ thị phân phối tần số (Histogram) là một dạng biểu đồ cột
trong đó diện tích của mỗi cột tỉ lệ với tần số của các giá trị X
i
.
Ví dụ 2.4. Cho bảng tần số về nhiệt độ của một vùng như sau:
Nhiệt độ X
i
(
0
F ) 12-15 15-18 18-24 24-27
Tần số n
i
2 5 12 2
X
max
− X
min
k
. (2.4)
Trang 14
Lý t huyết t hống kê
Nhận xét 2.1. Các điều kiện phân tổ
• Các tổ phải rời nhau.
• Các tổ được phân chia phải đầy đủ (nghĩa là phủ hết toàn bộ các giá trị của dữ
liệu).
• Không được có tổ là tập rỗng.
Ví dụ 2.6. Hãy thực hiện phân tổ cho ví dụ (2.3) và lập bảng tần số tương ứng.
Đáp số.
Vì
3
√
100 = 4, 64 nên số tổ k = 5.
Độ rộng mỗi tổ: h =
X
max
− X
min
k
= 4, 4 5
Năng suất lúa (tấn/ha) Tần số
≤35 8
35-40 8
40-45 19
Trang 16
Lý t huyết t hống kê
Tuổi 19 23 25 30 45
Tần số 2 4 5 3 2
Giải.
X =
19.2 + 23.4 + 25.5 + 30.3 + 45.2
2 + 4 + 5 + 3 + 2
= 27, 1875
Ví dụ 3.2. Tính giá trị trung bình của mẫu số liệu được cho như sau
Năng suất lúa (tấn/ha) 30-35 35-40 40-45 45-50 50-55
Tần số 8 8 19 12 3
Giải.
Trước tiên chúng ta tính các giá trị đại diện của mỗi nhóm t heo công thức
a
i
=
x
α
+ x
β
2
. (3.3)
Khi đó ta có bảng tần số
Năng suất lúa (tấn/ha) 32,5 37,5 42,5 47,5 52,5
Tần số 8 8 19 12 3
Trang 17
Lý t huyết t hống kê
Khi đó giá trị trung bình mẫu
X =
Mo+1
)
, (3.4)
Trang 18
Lý t huyết t hống kê
trong đó
L là giới hạn dưới của nhóm chứa Mode,
h là khoảng cách của nhóm chứa Mode,
f
Mo
là tần số của nhóm chứa Mode,
f
Mo−1
, f
Mo+1
là tần số của nhóm đứng trước và đứng sau nhóm chứa Mode.
Ví dụ 3.4. Cho bảng số liệu về nhiệt độ trung bình trong ngày ở một vùng trong
60 ngày.
Nhiệt độ x
i
(
0
C) 15-18 18-21 21-24 24-27 27-30 30-33 ≥ 33
Tần số n
i
5 7 8 10 14 11 5
Khi đó nhóm chứa Mode là nhóm có nhiệt độ trung bình trong khoảng 27 −30
0
C.
Giá trị gần đúng của
10 11 13 15 16 18 30 45.
Khi đó MedX =
15 + 16
2
= 15, 5.
Định nghĩa 3.6. Giả sử mẫu số liệu gồm n phần tử được cho dưới dạng phân tổ
đều nhau. Khi đó trung vị MedX được xác định gần đúng như sau
1. Tính tần số tích lũy.
Trang 20
Lý t huyết t hống kê
2. Xác định nhóm chứa trung vị Med, là nhóm có tần số tích lũy ≥
n + 1
2
.
3. Áp dụng công thức
MedX = L + h.
n
2
− S
Me−1
f
Me
, trong đó (3.5)
L là giới hạn dưới của nhóm chứa Med,
h là khoảng cách của nhóm chứa Med,
S
Me−1
là tần số tích lũy của nhóm đứng trước nhóm chứa Med,
f
Me
được gọi là tứ phân vị thứ hai và chính là trung vị.
• Q
3
được gọi là tứ phân vị thứ ba và là giá trị ở vị trí thứ
3(n + 1)
4
.
Ví dụ 3.8. Tìm tứ phân vị của dữ liệu sau
6 12 21 22 24 35 41.
10 11 13 15 16 18 30 45.
Định nghĩa 3.8. Nếu dữ liệu được cho dưới dạng phân tổ đều nhau thì
Trang 22
Lý t huyết t hống kê
• Tứ phân vị thứ nhất
Q
1
= L + h.
n
4
− S
Q
1
−1
f
Q
1
, trong đó (3.6)
L là giới hạn dưới của nhóm chứa Q
1
,
L là giới hạn dưới của nhóm chứa Q
3
,
h là khoảng cách của nhóm chứa Q
3
,
S
Q
3
−1
là tần số tích lũy của nhóm đứng trước nhóm chứa Q
3
,
f
Q
3
là tần số của nhóm chứa Q
3
.
Trang 23
Lý t huyết t hống kê
Ví dụ 3.9. Tìm các tứ phân vị của dữ liệu
Trọng lượng (gram) 484-490 490-496 496-502 502-508 508-514
Tần số n
i
5 10 15 13 7
Tần số tích lũy S
i
5 15 30 43 50
3.5 Khoảng biến thiên - Range