ĐẠI HỌC QUỐC GIA HÀ NỘI
VIỆN ĐẢM BẢO CHẤT LƯỢNG GIÁO DỤC
Lê Thị Hoàng Hà
NGHIÊN CỨU MỨC ĐỘ ĐÁP ỨNG CỦA HỌC SINH CÁC NƯỚC KHÔNG
THUỘC KHỐI OECD VÀ HỌC SINH VIỆT NAM VỚI CHƯƠNG TRÌNH
ĐÁNH GIÁ QUỐC TẾ PISA
Chuyên ngành: Đo lường và đánh giá trong giáo dục
(Chuyên ngành đào tạo thí điểm)
LUẬN VĂN THẠC SĨ
3. Giới hạn nghiên cứu của đề tài 11
4. Câu hỏi nghiên cứu 12
5. Khách thể và đối tượng nghiên cứu 13
6. Phương pháp tiếp cận nghiên cứu 13
7. Phạm vi nghiên cứu 14
8. CẤU TRÚC CỦA LUẬN VĂN 14
Chương I: TỔNG QUAN NGHIÊN CỨU 16
1.1. Các chương trình đánh giá quốc tế 16
1.1.1. TIMSS và PIRLS 16
1.1.2. Chương trình đánh giá học sinh quốc tế PISA 17
1.2. Tổng quan các nghiên cứu liên quan 23
Chương II: LÝ THUYẾT ĐÁNH GIÁ 30
Mở đầu 30
2.1. Khái niệm đánh giá trong giáo dục 31
2.2. Các dạng thức đánh giá 35
2.2.1. Đánh giá tổng kết và đánh giá quá trình 35
4
2.2.2. Đánh giá tham chiếu tiêu chí và đánh giá tham chiếu nhóm chuẩn
37
2.2.3. Đánh giá dựa trên chương trình và Đánh giá dựa trên năng lực 39
2.2.4. Hệ thống đánh giá và vai trò, vị trí của khảo sát/đánh giá năng lực
trên diện rộng 41
2.3. Lý thuyết khảo thí cổ điển và Lý thuyết trả lời câu hỏi 43
2.3.1. Lý thuyết khảo thí cổ điển 44
2.3.2. Lý thuyết trả lời câu hỏi và Mô hình RASCH 46
2.4. Ứng dụng Lý thuyết trả lời câu hỏi trong thiết kế công cụ khảo thí 50
2.5. Độ giá trị của đề thi và tính thiên kiến của câu hỏi thi 53
2.5.1. Độ giá trị 53
2.5.2. Tính thiên kiến của câu hỏi thi và phát hiện câu hỏi thiên kiến 54
đầy căng thẳng với hàng chục đầu công việc đã được lên kế hoạch chặt chẽ,
nằm trong kế hoạch chung và kiểm soát chất lượng của Ban điều hành PISA
của OECD. Một trong những khâu chuẩn bị quan trọng và nhiều thử thách nhất,
có thời gian chuẩn bị trải dài nhất là công tác dịch thuật và thích nghi hóa đề thi
và các bảng hỏi thu thập dữ liệu. Kinh nghiệm các nước cho thấy, mặc dù quy
trình dịch thuật và thích nghi hóa tài liệu thi đã được OECD quy định, hướng
dẫn và kiểm soát chặt chẽ, thực tế vẫn không tránh khỏi sai sót mà hậu quả của
nó là gây nên một số câu hỏi trong đề thi có thiên kiến ở một số nhóm đối tượng
thí sinh nhất định.
Việc phát hiện những thiên kiến có thể có của câu hỏi thi PISA trên các
nhóm học sinh quốc tế chia theo khu vực địa lý và trên đối tượng học sinh Việt
Nam sẽ làm tiền đề cho việc nghiên cứu tìm hiểu nguyên nhân của hiện tượng
sai biệt này, là cơ sở cho những giải pháp mà Việt Nam và các nước tham gia
có thể thực hiện trong quá trình tham gia dịch thuật và thích nghi hóa đề thi để
đề thi PISA đạt được độ tin cậy và độ giá trị cao nhất với học sinh tất cả các
nước, không phân biệt điều kiện địa lý hay những vấn đề về chính trị, tôn giáo,
ngôn ngữ
2. Mục đích nghiên cứu của đề tài
Dựa trên kết quả thi PISA, đề tài sẽ đi tìm những câu hỏi có nguy cơ gây
thiên kiến cho các nhóm học sinh các nước ngoài khối OECD và nhóm học sinh
quốc tế có điều kiện kinh tế - văn hóa – xã hội tương đối tương đồng với Việt
Nam, làm tiền đề cho việc tiên lượng tính đáp ứng của học sinh Việt Nam với
câu hỏi thi PISA. Đề tài cũng đi tìm sự khác biệt về sự đáp ứng của các nhóm
học sinh Việt Nam với điều kiện kinh tế - văn hóa – xã hội khác nhau, với câu
hỏi thi PISA, để từ đó có những nhận định về khả năng các yếu tố ngôn ngữ,
văn hóa có thể làm cho câu hỏi PISA thiên kiến.
Thực hiện nghiên cứu này cũng giúp học viên hiểu biết sâu sắc về những
lý thuyết đánh giá liên quan đến câu hỏi thực hiện chức năng khác biệt
(differential item functioning – DIF) và quy trình phân tích phát hiện DIF (điều
kiện cần để kết luận câu hỏi thiên kiến), một quy trình quan trọng trong xây
tương đồng với Việt Nam đáp ứng câu hỏi thi PISA 2006 như thế nào? Tìm kiếm
nguy cơ câu hỏi thiên kiến đối với nhóm học sinh này và tiên lượng mức độ ảnh
hưởng của nguy cơ câu hỏi thiên kiến đối với học sinh Việt Nam khi tham gia
PISA?
Câu hỏi nghiên cứu 3: Điều kiện địa lý, văn hóa, ngôn ngữ vùng miền ở Việt Nam
có thể là yếu tố làm xuất hiện nguy cơ thiên kiến của câu hỏi thi PISA không? Mức
độ của các nguy cơ thiên kiến này?
5. Khách thể và đối tượng nghiên cứu
Khách thể nghiên cứu:
- Câu hỏi thi PISA.
Đối tượng nghiên cứu:
- Tính chất thực hiện chức năng khác biệt của câu hỏi thi (differential
item functioning – DIF).
6. Phương pháp tiếp cận nghiên cứu
Đề tài sử dụng tiếp cận nghiên cứu định lượng. Kết quả thi PISA năm
2006 của các nước và thi thử PISA ở Việt Nam năm 2010, sử dụng đề thi năm
2009 đã được dịch sang tiếng Việt sẽ được phân tích định lượng để xác định
mức độ đáp ứng của học sinh tham dự kỳ thi đối với câu hỏi thi, so sánh giữa
các nhóm học sinh theo các tiêu chí phân tầng khác nhau. Phân tích sẽ sử dụng
các phần mềm phân tích số liệu SPSS và CONQUEST.
Dữ liệu thu thập được bao gồm:
Cơ sở dữ liệu về chương trình đánh giá quốc tế PISA (sự ra đời và phát
triển, cơ sở khoa học xây dựng đề thi, phân tích và sử dụng kết quả đánh
giá…); sử dụng phương pháp hồi cứu tài liệu;
Các cơ sở lý thuyết liên quan: Lý thuyết về đánh giá và xây dựng đề thi
chuẩn hóa, Lý thuyết hồi đáp và mô hình Rasch, Lý thuyết về phân tích
DIF (Differential Item Functioning) như một cơ sở để phát hiện thiên kiến
của công cụ đo lường tâm lý; sử dụng phương pháp tổng quan tài liệu;
Tổng quan các nghiên cứu về câu hỏi/đề thi thiên kiến, công cụ khảo sát
đánh giá thiên kiến trong các chương trình khảo sát/đánh giá năng lực
Chương I: TỔNG QUAN NGHIÊN CỨU
1.1. Các chương trình đánh giá quốc tế
1.1.1. TIMSS và PIRLS
TIMSS và PIRLS là hai chương trình nghiên cứu đánh giá học sinh quốc
tế với nhiều nét tương đồng. TIMSS (Trends in International Mathematics and
Science Study) tập trung nghiên cứu năng lực toán học và khoa học của học sinh
quốc tế hai khối lớp 4 và lớp 8; trong khi PIRLS (Progress in International
Reading Literacy Study) đánh giá năng lực đọc hiểu của học sinh khối lớp 4.
TIMSS và PIRLS là các cuộc đánh giá trên diện rộng, được thiết kế nhằm
mang lại một bức tranh toàn cảnh về giảng dạy và học tập các môn toán học,
khoa học và đọc hiểu, cung cấp những thông tin hữu ích phục vụ hoạch định
chính sách giáo dục và xây dựng, triển khai các chương trình giáo dục. Để đạt
được mục đích này, bên cạnh những thông tin về thành tích giáo dục trên các
lĩnh vực toán, khoa học và đọc hiểu, trong các kỳ thi TIMSS và PIRLS, các
thông tin liên quan về đất nước, trường học, chương trình giảng dạy, môi
trường học tập có khả năng ảnh hưởng đến sự phát triển năng lực và thành tích
học tập của học sinh cũng được thu thập.
1.1.2. Chương trình đánh giá học sinh quốc tế PISA
a. OECD và Chương trình đánh giá học sinh quốc tế PISA
Chương trình đánh giá học sinh quốc tế PISA là một sản phẩm do các
nước thành viên OECD hợp tác xây dựng và phát triển, dưới sự điều phối của
Ban Giáo dục - OECD (Directorate of Education). Mục tiêu của Chương trình
PISA là đánh giá mức độ tiếp thu kiến thức và kỹ năng cần thiết cho việc gia
nhập xã hội tri thức của học sinh độ tuổi chuẩn bị kết thúc giáo dục bắt buộc.
1
Chương trình PISA đánh giá sự thể hiện năng lực của học sinh ở 3 lĩnh
vực trọng yếu là Toán học, Các môn khoa học và Đọc hiểu. Bên cạnh bài thi,
thông qua bảng hỏi và một số câu hỏi đánh giá thái độ trong đề thi, PISA còn
khảo sát động cơ học tập của học sinh, những quan điểm, nhận thức của học
thuật đặc biệt: quy trình thí nghiệm nhận thức (cognitive laboratory
procedure)
2
. Dạng thức câu hỏi trong đề thi PISA cũng rất đa dạng, không dừng
lại ở những câu trắc nghiệm khách quan mà còn có cả những câu hỏi mở với kỹ
thuật cho điểm từng phần. Câu hỏi của đề thi PISA chính thức là kết quả của cả
sự rà soát bằng phương pháp chuyên gia (đóng góp ý kiến về nội dung, cấu trúc
câu hỏi, những vấn đề tiềm ẩn liên quan đến dịch thuật hay văn hóa …), và
đánh giá chất lượng câu hỏi thi thông qua thử nghiệm, sẽ đảm bảo thu thập
thông tin khá chính xác về năng lực của học sinh.
c. Chọn mẫu trong Chương trình đánh giá PISA
Học sinh dự thi PISA là một mẫu ngẫu nhiên trong toàn bộ học sinh đủ
điều kiện dự thi PISA của một nước. Chương trình PISA sử dụng phương pháp
chọn mẫu hai giai đoạn: giai đoạn 1 là chọn trường và giai đoạn 2 là chọn học
sinh trong từng trường đã được chọn. Ở giai đoạn 1, tất cả các trường có học
sinh đủ điều kiện dự thi PISA (15 tuổi, từ lớp 7 trở lên) được chọn theo xác suất
lựa chọn tỷ lệ với tổng số học sinh đủ điều kiện dự thi trong trường. Khoảng
150 trường sẽ được chọn trong một quốc gia. Giai đoạn 2 là lựa chọn ngẫu
nhiên khoảng 30 học sinh từ mỗi trường đã chọn ở giai đoạn 1.
d. Phân tích số liệu kết quả thi PISA và sử dụng kết quả phân tích
Turner (2009) mô tả vắn tắt bản chất của việc phân tích số liệu kết quả thi
PISA như sau: 2
Turner, R. (2009) PISA: An introduction and overview. In R. Bybee & B. McCrae (Eds), PISA Science 2006: Implications for
Science Teachers and Teaching, pp. 3-14. Arlington, VA: NSTA Press.
Kỹ thuật đưa dữ liệu lên một thang đo đóng vai trò quan trọng hàng đầu,
làm nòng cốt cho hầu hết các phân tích sử dụng dữ liệu kết quả thi PISA. Sử
dụng kỹ thuật này, người ta đặt một số giả thiết sau: mỗi năng lực mà chúng ta
kết quả thi PISA năm 2000 – lĩnh vực đọc hiểu nhằm đo lường sự tương đương
giữa 47 phiên bản (theo 47 ngôn ngữ) của đề thi. Theo tác giả, sự tương đồng
của các câu hỏi thi giữa các phiên bản có thể bị ảnh hưởng nặng nề từ công tác
dịch thuật. Khi đó, một câu hỏi có thể là khó hơn hoặc dễ hơn với một nhóm thí
sinh này hay nhóm thí sinh khác, trong khi cấp độ năng lực đọc hiểu giữa các
nước đó có thể không chênh nhau. Khi có quá nhiều trường hợp như thế xuất
hiện trong một chương trình đánh giá quốc tế, các quốc gia sẽ gánh hậu quả
nặng nề khi sử dụng những kết quả đánh giá không chính xác, độ khó của câu 3
Grisay, A. & Monseur, C. (2007). Measuring equivalence of item difficulties in the various versions of an
international test. Studies in Educational Evaluation, 33(1), 69-86.
hỏi lúc này không phản ánh chính xác năng lực đọc hiểu của thí sinh trên thang
năng lực.
Sử dụng các phép phân tích hồi quy logit của Lý thuyết trả lời câu hỏi
(Item Response Theory – IRT) để đánh giá độ khó của câu hỏi, dựa trên số liệu
kết quả thi PISA, Grisay và Monseur (2007) đã chỉ ra một tỉ lệ nhất định các
câu hỏi có tính chất DIF (câu hỏi thực hiện chức năng khác biệt) tồn tại giữa
các quốc gia/nhóm quốc gia (phân chia theo tiêu chí của tác giả).
Từ những kết quả nghiên cứu, nhóm tác giả đưa ra một số đề xuất nhằm
cải thiện, nâng cao tính tương đương của đề thi trong những kỳ thi tới, đặc biệt
lưu ý tới công tác tổ chức dịch thuật và thích nghi hóa đề thi ở các quốc gia sử
dụng chung một ngôn ngữ.
Bên cạnh tác động của công tác dịch thuật, những nhân tố về văn hóa và
thói quen sử dụng ngôn ngữ (một cách diễn đạt quen thuộc ở ngôn ngữ này
nhưng lại không quen thuộc ở ngôn ngữ khác) cũng đã được phát hiện có thể là
nguyên nhân làm cho câu hỏi thi PISA có độ khó khác nhau giữa một số quốc
gia tham gia. Wu (2009)
4
and PISA reading assessment. IERI monograph series: Issues and methodologies in large-scale assessment, Vol.2, 63-
83.
quả thi PIRLS
6
, các tác giả đã chỉ ra một kết quả tương tự như các câu hỏi thi
đọc hiểu thuộc chương trình PISA: độ khó câu hỏi giữa các phiên bản không
khác biệt nhau nhiều. Tỷ lệ khác biệt còn lại gắn liền với ngôn ngữ sử dụng cho
công cụ khảo sát. Từ các lý giải liên quan đến ngôn ngữ và văn hóa được cho là
nguyên nhân dẫn đến độ khó câu hỏi khác nhau giữa các nhóm quốc gia, các tác
giả cho rằng các công cụ đánh giá trong các cuộc khảo sát trên diện rộng mang
tầm quốc tế như PIRLS hay PISA vẫn cần tiếp tục hoàn thiện về phương diện
nhạy cảm văn hóa và quy trình dịch thuật, đặc biệt đối với các phiên bản thuộc
các nhóm ngôn ngữ khác biệt hoàn toàn so với ngôn ngữ gốc của công cụ đánh
giá.
Tại Hội đồng nghiên cứu giáo dục Úc – tổ chức chịu trách nhiệm xây
dựng đề thi và phân tích kết quả đánh giá trong liên danh các nhà thầu quốc tế
thực hiện Chương trình đánh giá quốc tế PISA, nhà nghiên cứu, TS. Luc T. Le
đã có những nghiên cứu và công bố khoa học quan trọng về câu hỏi thực hiện
chức năng khác biệt - nguy cơ tiềm ẩn câu hỏi thi thiên kiến đối với một nhóm
đối tượng nhất định, và tạo thuận lợi ghi điểm cho nhóm đối tượng khác. Một
trong số đó là nghiên cứu phát hiện câu hỏi trong lĩnh vực khoa học thực hiện
chức năng khác biệt giữa hai giới ở một số nước và một số ngôn ngữ đánh giá
7
.
Tác giả tính toán giá trị DIF giữa các hai nhóm nam và nữ của từng quốc
gia và từng ngôn ngữ, tìm kiếm các câu hỏi có giá trị DIF đủ lớn và so sánh tỷ
lệ các câu hỏi có DIF đủ lớn giữa các nhóm ngôn ngữ và nhóm quốc gia. Với
các nhóm ngôn ngữ, nghiên cứu chỉ ra rằng: trung bình có 5,6% số câu hỏi khoa
học ưu ái nhóm học sinh nam và 2,8% câu hỏi ưu ái nhóm học sinh nữ. Đi vào
từng ngôn ngữ, tỷ lệ câu hỏi ưu ái nhóm học sinh nam hơn, hoặc ưu ái nhóm
hóa dùng trong các chương trình đánh giá năng lực học sinh quốc tế như
TIMSS, PIRLS, PISA vẫn không thể không tránh khỏi nguy cơ gây nên hiện
tượng thiên kiến, có thể dẫn tới kết quả đánh giá không phản ánh hoàn toàn
chính xác năng lực của học sinh. Hiện tượng này đặc biệt dễ xảy ra với các
chương trình đánh giá quốc tế bởi sự tham gia của nhiều nước, nhiều vùng lãnh
thổ, có các điều kiện kinh tế, chính trị, xã hội, văn hóa rất khác nhau, và hơn cả
là bởi công cụ đo được dịch thuật từ ngôn ngữ gốc sang các ngôn ngữ giảng dạy
ở các nước.
Việt Nam năm 2012 lần đầu tiên tham gia Chương trình đánh giá học sinh
quốc tế PISA. Là một nước đang phát triển có chỉ số phát triển con người ở
mức trung bình (theo số liệu thống kê của Chương trình phát triển Liên hợp
quốc – UNDP), không thuộc khối OECD, và có nền văn hóa với nhiều đặc
trưng khác biệt so với các nước phương Tây, một vấn đề cần quan tâm liên
quan đến việc Việt Nam tham gia Chương trình PISA là liệu câu hỏi thi PISA
có tiềm ẩn những nguy cơ thiên kiến với các nhóm nước có điều kiện kinh tế -
xã hội, văn hóa, ngôn ngữ tương đồng với Việt Nam.
Ở phạm vi thực hiện luận văn tốt nghiệp chương trình đào tạo Thạc sĩ
chuyên ngành Đo lường và Đánh giá trong Giáo dục, Đề tài có tên “Nghiên
cứu mức độ đáp ứng của học sinh các nước không thuộc khối OECD và
học sinh Việt Nam với Chương trình đánh giá quốc tế PISA” sẽ bước đầu
chỉ ra những dẫn chứng thống kê, chứng minh cho khả năng tồn tại hoặc không
tồn tại những nguy cơ tiềm ẩn gây nên tính thiên kiến của các câu hỏi thi PISA
với học sinh Việt Nam. Kết quả nghiên cứu sẽ là cơ sở cho những nghiên cứu
sâu và rộng hơn về tình trạng thiên kiến, nguyên nhân và giải pháp khắc phục,
đặc biệt trong giai đoạn dịch thuật và thích nghi hóa tài liệu thi PISA.
Chương II: LÝ THUYẾT ĐÁNH GIÁ
2.1. Khái niệm đánh giá trong giáo dục
Theo Griffin (1993)
9
ra tiếp theo”. Định nghĩa không đề cập bản chất của quá trình đánh giá là xử lý
thông tin thu thập được, nhưng đã cho một khái niệm cụ thể, theo đó mục tiêu
cuối cùng, cao nhất của hoạt động đánh giá đã được nêu rõ: nâng cao chất
lượng học tập.
Định nghĩa sau được cho là khá hoàn chỉnh khi đề cập tương đối đầy đủ
những ý nghĩa trên của hoạt động đánh giá:
Đánh giá trong giáo dục được định nghĩa là quá trình thu thập thông tin để đưa ra
những quyết định giáo dục liên quan tới học sinh, để phản hồi cho học sinh về sự
tiến bộ, những điểm mạnh và điểm tồn tại trong học tập của chúng, để đưa ra
phán quyết về hiệu quả của công tác giảng dạy và sự phù hợp của chương trình
đào tạo, và cuối cùng là để cung cấp thông tin xây dựng chính sách. (AFT,
NCME, NEA, 1990: 1)
12
2.2. Các dạng thức đánh giá
2.2.1. Đánh giá tổng kết và đánh giá quá trình
Michael Scriven (1967) đưa ra các khái niệm đánh giá quá trình
(formative assessment) và đánh giá tổng kết (summative assessment). Từ kinh
nghiệm nghiên cứu về tâm lý học, Scriven nhận thấy cốt lõi của hoạt động đánh
giá đúng là đo lường, nhận xét về giá trị của một con người, một sự kiện, hiện
tượng … Tuy nhiên, cách người ta sử dụng kết quả đánh giá thì hoàn toàn
không giống nhau. Gắn với hoạt động đánh giá trong dạy học, sau này nhiều
nhà nghiên cứu khác như Reedy (1995)
13
; Raths and Lyman (2003)
14
; Stiggins 10
Lịch sử ngành khoa học đánh giá chứng kiến một cách phân loại các bài
kiểm tra/thi đánh giá năng lực người học dựa trên sự tham chiếu nội dung khi
thiết kế đề thi/kiểm tra, đó là: đề thi/kiểm tra tham chiếu nhóm chuẩn (norm-
referenced tests) và đề thi/kiểm tra tham chiếu tiêu chí (criterion-referenced
tests).
Theo Kubiszyn & Borich (2003)
18
, một bài thi tham chiếu nhóm chuẩn sẽ
cung cấp cho ta thông tin về vị trí của một thí sinh so với các thí sinh khác, tức
là cho ta thông tin về thứ hạng của thí sinh.
Với bài thi tham chiếu theo tiêu chí, kết quả đánh giá sẽ cho ta thông tin
về cấp độ một thí sinh làm chủ những kiến thức, kỹ năng nhất định mà cuộc
đánh giá quan tâm. Ở đây, năng lực của thí sinh không được so sánh với mức
độ trung bình của mẫu đánh giá mà so sánh với một chuẩn đã xác định – gọi là
tiêu chí.
2.2.3. Đánh giá dựa trên chương trình và Đánh giá dựa trên năng lực
Đánh giá dựa trên chương trình (CBA – Curriculum Based Assessment),
theo Deno (1987) là “một tập hợp các quy trình đo lường, trong đó hoạt động
học tập của học sinh trong một chương trình đào tạo được trực tiếp quan sát và
ghi chép lại, và được sử dụng làm cơ sở để giáo viên đưa ra những quyết định
trong quá trình dạy học” (in Hall & Mengel, 2002)
19
. Đánh giá dựa trên chương 14
Raths, J. & Lyman, F. (2003). Summative Evaluation of Student Teachers: An Enduring Problem. Journal of Teacher Education.
54: 206-216.
15
Stiggins, R. (December 2005). From Formative Assessment to Assessment FOR Learning: A Path to Success in Standards- Bases
phần đều lấy việc thu thập và sử dụng thông tin minh chứng làm trung tâm.
Đánh giá trên diện rộng không tập trung tìm kiếm thông tin về năng lực
của từng thí sinh mà dựa trên kết quả đánh giá của toàn thể thí sinh trong mẫu
đại diện, cuộc đánh giá cung cấp thông tin về trình độ năng lực hay kết quả học
tập của cả một hệ thống (hay một bộ phận của hệ thống) giáo dục. Kết quả
những cuộc khảo sát/ đánh giá trên diện rộng như PISA, TIMSS, PIRLS,
FASEC, SACMEQ
21
là cơ sở quan trọng để chính phủ xem xét điều chỉnh,
hoạch định chính sách giáo dục cho phù hợp.
2.3. Lý thuyết khảo thí cổ điển và Lý thuyết trả lời câu hỏi
2.3.1. Lý thuyết khảo thí cổ điển
Lý thuyết khảo thí cổ điển giới thiệu ba khái niệm cơ bản: điểm đánh giá
(là điểm số thu được căn cứ trên kết quả làm bài thi của một cá nhân), điểm
thực (là điểm phản ánh năng lực của cá nhân) và điểm sai số (là một giá trị sai
số ngẫu nhiên, không liên quan đến năng lực của cá nhân). Với ba khái niệm về
điểm số như trên, những mô hình lý thuyết khác nhau đã được phát triển, trong
đó có một mô hình phổ biến nhất, vẫn thường được gọi là “mô hình khảo thí cổ
điển”. Mô hình này giả định: điểm đánh giá (điểm thô, điểm mà ta quan sát
được, ký hiệu X) bao gồm hai cấu phần: điểm thực (ký hiệu T) và điểm sai số
(ký hiệu E):
X = T + E (II.3-1)
Như vậy, với mỗi thí sinh, điểm thực (T) và điểm sai số (E) là các thành
phần không thể xác định. Để xác định T và E, người ta đặt ra ba giả thiết quan
trọng:
- Điểm thực và điểm sai số không tương quan với nhau; 20
TS. Anil Kanjee, chuyên gia đánh giá thuộc nhóm tư vấn kỹ thuật Chương trình READ. Báo cáo tại cuộc họp READ toàn cầu năm
sự can thiệp của chỉ số về độ phân biệt của câu hỏi. Thông số thứ ba trong mô
hình 3 thông số, có ảnh hưởng đến xác suất trả lời đúng P(β) là một chỉ số cho
phép những thí sinh thậm chí với năng lực thấp vẫn có cơ hội trả lời đúng
những câu hỏi có độ khó trung bình trở lên (chẳng hạn: có dấu hiệu gợi ý hoặc
khuyến khích đoán mò).
Mô hình Lý thuyết trả lời câu hỏi 1 thông số mà ta nhắc đến trên đây
được Georg Rasch giới thiệu năm 1960, và cũng được gọi là Mô hình Rasch.
Mô hình Rasch
Mô hình Rasch biểu diễn dưới hình thức một hàm số toán học có dạng
như sau:
Với một cá nhân v có năng lực , tham gia trả lời câu hỏi i có độ khó
và là một câu hỏi có kiểu cho điểm đúng hoặc sai, thì xác suất để cá nhân v trả
lời đúng câu hỏi i là: 22
Harris, D. (1989). Comparison of 1-, 2-, and 3-paramater ITR models. A module in NCME Series of Instructional Topics in
Educational Measurement. NCME Journal of Educational Measurement: Issues and Practices. p.35-41.
23
Wu, M. & Adams, R. (2007). Applying the Rasch Model to Psycho-social Measurement: A Practical Approach. Tài liệu tập huấn
Thiết kế công cụ đánh giá do Ngân hàng thế giới phối hợp với ACER tổ chức năm 2007-2008 tại Việt Nam.
II.3-2
Công thức II.3-2 cho thấy xác suất trả lời đúng một câu hỏi về bản chất
phụ thuộc sự khác biệt giữa năng lực của thí sinh và độ khó của câu hỏi. Khi
năng lực của thí sinh trùng với độ khó của câu hỏi, thì xác suất trả lời đúng là
0.5.
nhất là nhờ ưu thế không phụ thuộc mẫu của mô hình Rasch. Tuy nhiên, cũng
cần lưu ý mẫu thử nghiệm phải đủ lớn và tương đối đồng nhất để đảm bảo
mang lại những thông số kỹ thuật tin cậy về từng câu hỏi.
2.5. Độ giá trị của đề thi và tính thiên kiến của câu hỏi thi
2.5.1. Độ giá trị
Độ giá trị của đề thi, theo Wiersma & Jurs (1990) là đặc tính cho phép đề
thi đo được những nét năng lực ẩn mà ta dự định đo và đáp ứng hiệu quả mục
đích đã đề ra của cuộc đánh giá. Chẳng hạn, từ kết quả thi ta có thể đọc
được/mô tả được kỹ năng của người dự thi, hoặc dự đoán được những thành tựu
trong tương lai của người dự thi.
Theo một cách phân loại độ giá trị đã được chấp nhận rộng rãi từ 1974
của Hiệp hội Tâm lý Hoa Kỳ, có 3 loại độ giá trị của công cụ đo lường: giá trị
nội dung (mức độ đại diện của nội dung đề thi cho một khối kiến thức/kỹ năng),
giá trị theo tiêu chí (khả năng dự đoán năng lực trong tương lai của thí sinh
hoặc giải thích những năng lực khác có liên quan ở thời điểm hiện tại của thí
sinh), và giá trị cấu trúc (các câu hỏi dự định để đo cùng một nét năng lực thì
cần đảm bảo những đặc tính tâm lý học nhất định) (Gronlund, 1982)
24
.
2.5.2. Tính thiên kiến của câu hỏi thi và phát hiện câu hỏi thiên kiến
Trước hết, cần làm rõ một số khái niệm liên quan khi phân tích tìm kiếm
tính thiên kiến câu hỏi thi: tính thiên kiến của câu hỏi (item bias), câu hỏi thực
hiện chức năng khác biệt (differential item functioning – DIF), tác động của
câu hỏi (item impact). Những khái niệm này được tổng hợp từ Zumbo (1999),
Clauser và Mazor (1998), Pedrajita và Talisayon (2009)
25
.
- Tính thiên kiến của câu hỏi: xảy ra khi một nhóm thí sinh này ít khả năng
trả lời đúng câu hỏi hơn một nhóm thí sinh khác bởi vì câu hỏi hoặc điều
kiện tổ chức thi có một đặc điểm nào đó không phù hợp với mục đích của
thì đường ICC của hai nhóm phải hoàn toàn trùng nhau (về mặt lý thuyết).
Những kết quả khác biệt giữa hai nhóm, chỉ một trong ba thông số trên (hoặc
2/3, hoặc cả 3) đều dẫn đến hai đường ICC của hai nhóm không còn trùng nhau.
Như vậy, phân tích sử dụng các mô hình lý thuyết hồi đáp (hay trong một
số tài liệu khác: phân tích hồi quy logit) đã dễ dàng sơ đồ hóa các đường ICC,
giúp các nhà nghiên cứu dễ dàng phát hiện một câu hỏi có tính chất DIF hay
không. Đây cũng là lý thuyết trọng tâm mà đề tài sử dụng để phát hiện hiện
tượng DIF của câu hỏi thi PISA giữa các nhóm thí sinh, phân theo chủ đích
nhằm hướng tới, làm tiền đề cho việc nghiên cứu sự phù hợp của Chương trình
PISA với học sinh Việt Nam.
Chương III. KẾT QUẢ NGHIÊN CỨU VÀ BÀN LUẬN
3.1. Mô tả phương pháp và các quy trình, thủ tục nghiên cứu
3.1.1. Mô tả các bộ số liệu
Kỳ thi PISA năm 2006 có 57 nước/vùng lãnh thổ tham gia, trong đó 30
nước/vùng lãnh thổ thuộc khối OECD; 44 quốc gia/vùng lãnh thổ có chỉ số phát
triển con người (Human Development Index – HDI) cao và 9 quốc gia có HDI
trung bình, không có quốc gia nào có HDI thuộc nhóm thấp (thống kê năm
2005)
26
. Một điều cần đặc biệt lưu ý là tất cả các nước thuộc khối OECD đều có
HDI cao. Cũng trong 57 thành viên tham gia PISA 2006 có 13 quốc gia/vùng
lãnh thổ đến từ châu Á, tuy nhiên 3/13 không có thống kê HDI.
Lĩnh vực khảo sát chỉnh của kỳ thi PISA 2006 là khoa học. Đề thi có tổng
cộng 341 câu hỏi cho cả 3 lĩnh vực: khoa học, toán và đọc hiểu. Các hình thức
câu hỏi phổ biến là câu hỏi trả lời Đúng/Sai, lựa chọn trả lời đúng, lựa chọn trả
lời đúng phức hợp (ghép đôi), câu hỏi yêu cầu viết câu trả lời ngắn. Bên cạnh
bộ dữ liệu là bảng mã hóa để chấm điểm. Tất cả các kiểu trả lời của thí sinh đều
được số hóa khi nhập vào file dữ liệu. Tổng số trường hợp trên file dữ liệu gốc
là 398.750 và số biến là 337.
Bộ số liệu thi thử PISA ở Việt Nam năm 2010 bao gồm 1866 trường hợp
chọn
Ghi chú
Khối OECD
251.278
664
Không thuộc khối OECD
147.472
663
Chỉ số HDI cao
323.087
664
Không bao gồm các
trường hợp không có
thống kê HDI
Chỉ số HDI trung bình
52.835
657
Không thuộc khối OECD
và chỉ số HDI trung bình
47.893
657
Không thuộc khối OECD,
chỉ số HDI trung bình và
thuộc châu Á
34.436
653
1 1 2 1 -0.064*
2 2 2 1 -0.083*
3 3 2 1 -0.087*
4 4 2 1 0.160*
5 5 2 1 -0.123*
6 6 2 1 0.143*
7 7 2 1 0.199*
8 8 2 1 0.057*
9 9 2 1 -0.039*
10 10 2 1 -0.252*
11 11 2 1 -0.200*
12 12 2 1 0.290*
An asterisk next to a parameter estimate indicates that it is constrained
Separation Reliability = 0.690
Chi-square test of parameter equality = 32.62, df = 11, Sig Level = 0.001
Bảng 3.4: So sánh năng lực học sinh giữa hai nhóm OECD và ngoài OECD thể hiện qua 12
câu hỏi MC thuộc lĩnh vực toán học
Bảng 3.5 cho thấy các câu hỏi 4, 5, 6, 7, 10, 11, 12 có sự chênh lệch đáng
kể về độ khó qua thể hiện của hai nhóm học sinh. Nói cách khác, vấn đề cùng
khối hay ngoài khối OECD có thể có ảnh hưởng đến sự thể hiện của học sinh ở
các câu hỏi này. Với các câu hỏi 5, 10 và 11, học sinh thuộc khối OECD thể
hiện tốt hơn học sinh ngoài khối OECD. Tuy nhiên, với các câu hỏi 4, 6, 7 và
12, học sinh ngoài khối OECD lại thấy dễ hơn học sinh các nước thuộc khối
OECD. Các câu hỏi còn lại có sự khác biệt không quá lớn, hay học sinh ở cả hai
khối cảm nhận như nhau về độ khó của câu hỏi (khoảng cách độ khó chỉ
khoảng 0.08 đến 0.17 giá trị logit). Hệ số Chi bình phương (32.62, với số bậc tự
do là 11, p-value = 0.001) cũng cho thấy giữa hai biến càng khẳng định có sự
tồn tại của câu hỏi mang tính chất DIF (nhóm học sinh và câu hỏi không hoàn
toàn độc lập với nhau.
6 6 2 1 -0.091*
7 7 2 1 0.063*
8 8 2 1 0.016*
9 9 2 1 0.155*
10 10 2 1 0.055*
11 11 2 1 -0.527*
12 12 2 1 0.195*
An asterisk next to a parameter estimate indicates that it is constrained
Separation Reliability = 0.755
Chi-square test of parameter equality = 25.22, df = 11, Sig Level = 0.008
===============================================================================
Bảng 4.5. So sánh năng lực học sinh giữa hai nhóm HDI cao và HDI trung bình, thể hiện
qua 12 câu hỏi MC thuộc lĩnh vực toán học
Chỉ số HDI của quốc gia có thể ảnh hưởng đến năng lực của học sinh thể
hiện qua các câu hỏi số 5, 9, 11 và 12. Học sinh các nước có chỉ số HDI cao sẽ
thấy câu các câu 5, 9 và 12 dễ hơn, trong khi học sinh đến từ các nước có chỉ số
HDI trung bình lại làm tốt câu 11 hơn. Khoảng khác biệt giữa hai nhóm ở câu
hỏi 11 là rất lớn, hơn 1 giá trị logit. Vì vậy, rất cần lật lại câu hỏi để tìm hiểu
nguyên nhân của giá trị DIF này. Xem đồ thị minh họa bên dưới đây để thấy rõ
hơn: Câu 11 với khoảng khác biệt xấp xỉ 1.5 giá trị logit.
Hình 4.1. DIF ở câu hỏi 11, giữa hai nhóm HDI cao và HDI trung bình
Với đường cong đậm thể hiện kết quả làm bài của học sinh các nước có
chỉ số HDI trung bình, và đường cong nhạt – học sinh các nước có chỉ số HDI
cao, Hình 4.1 cho ta thấy, tại hầu hết các giá trị năng lực, xác suất để học sinh
các nước có chỉ số HDI cao trả lời đúng câu hỏi luôn thấp hơn xác suất để học
sinh các nước có HDI trung bình trả lời đúng câu hỏi.
Chỉ số Chi bình phương (25.22, số bậc tự do 11, p-value = 0.008) càng
khẳng định hai biến nhóm học sinh chia theo HDI và câu hỏi không độc lập với
4 4 1 0 0.015 0.105
5 5 1 0 0.000 0.072
6 6 1 0 -0.131 0.081
7 7 1 0 -0.221 0.079
8 8 1 0 -0.069 0.090
9 9 1 0 0.016 0.085
10 10 1 0 0.082 0.087
11 11 1 0 0.555 0.138
12 12 1 0 -0.416*
1 1 2 1 -0.001*
2 2 2 1 -0.102*
3 3 2 1 -0.066*
4 4 2 1 -0.015*
5 5 2 1 -0.000*
6 6 2 1 0.131*
7 7 2 1 0.221*
8 8 2 1 0.069*
9 9 2 1 -0.016*
10 10 2 1 -0.082*
11 11 2 1 -0.555*
12 12 2 1 0.416*