TỔNG CỤC THỐNG KÊ
BÁO CÁO CHUYÊN ĐỀ
“Thực trạng công tác quản lý dữ liệu vi mô của một số cuộc điều tra
trong Tổng cục Thống kê” Đề tài: “Nghiên cứu ứng dụng phần mềm quản lý dữ liệu vi mô
(Microdata management) vào việc lưu trữ, khai thác dữ liệu các cuộc
điều tra thống kê”
Đơn vị chủ trì: Đoàn TNCSHCM-TCTK
Chủ nhiện đề tài: Nguyễn Quang Phương
Người viết chuyên đề: Cao Quang Thành
HÀ NỘI, NĂM 2008 2
Mục lục
trò to lớn trong việc thúc đẩy sự phát triển của nền kinh tế Quốc gia. Do
vậy việc xây dựng CSDL tập trung là hết sức quan trọng và cần thiết. Nằm
trong khuôn khổ xây dựng các CSDL Quốc gia của nhà nước, CSDL vi mô
của các cuộc điều tra trở thành một công cụ rất hữu hiệu trong hỗ trợ công
tác quản lý, điều hành, ra quyết định của các cấp lãnh đạo, các nhà hoạch
định chính sách trong ngành Thống kê và các cơ quan đơn vị liên quan.
Cơ sở dữ liệu vi mô là CSDL lưu trữ và tạo các công cụ khai thác
thông tin từ các phiếu điều tra, chế độ ban đầu phát sinh từ đơn vị kinh tế
cơ sở
Cơ sở dữ liệu vi mô mới được triển khai cho các cuộc Tổng điều tra và
điều tra do Tổng cục tổ chức ở tầm quốc gia (tổng điều tra dân số năm
1999, Tổng điều tra nông thôn, nông nghiệp và thủy sản năm 2001, Tổng
điều tra cơ sở kinh tế - hành chính sự nghiệp năm 2002, Điều tra doanh
nghiệp từ 2002-2005, Điều tra biến động dân số hàng năm, Điều tra khảo
sát mức sống hộ gia đình…) Các cuộc điều tra này có được nguồn thông tin
đầy đủ, có hệ thống và đã được tin học hóa nên đã xây dựng được CSDL vi
mô.
4
Tuy nhiên, thông tin về các cuộc điều tra nói trên mới phản ánh được
một số linh vực kinh tế -xã hội ở thời điểm nhất định (thời điểm điều tra).
Nhưng những thông tin thường xuyên phục vụ việc lập các báo cáo thống
kê hàng tháng, quý, năm về các hoạt động kinh tế-xã hội phục vụ các nhu
cầu của người dùng tin thì chưa được tin học hóa cả ở hệ thống thống kê
tập trung (Hệ thống thống kê do Tổng cục Thống kê thực hiện) và hệ thống
thống kê do các Bộ, ngành thực hiện do vậy chưa xây dựng được các
CSDL (từ năm 2005, Tổng cục mới giao cho các Trung tâm Tin học phối
hợp với các Vụ triển khai tin học hóa hệ thống này ở hệ thống thống kê tập
trung)
Trong khuôn khổ của chuyên đề này, chúng tôi chỉ đề cập đến việc
3
IBM X255
4CPU x Xeon 2.4GHz 400MHz,
Cache 512, DDR 2GB, HDD 6 x
73GB
1
4
IBM X253
2CPU x Xeon 2.8GHz 400MHz,
Cache 512, DDR 1GB, HDD 6 x
73GB
1
5
IBM X253
2CPU x Xeon 2.8GHz 400MHz,
Cache 512, DDR 1GB, HDD 4 x
73GB
1
6
IBM X253
2CPU x Xeon 2.8GHz 400MHz,
Cache 512, DDR 1GB, HDD 4 x
143GB
3
- Máy trạm
STT
Tên máy
Cấu hình
Số lượng
24
6
Fpt Elead
19
7
Compag 5100
6
- Đường truyền Internet tốc độ cao:
Tổng cục Thống kê có 2 đường truyền internet tốc độ cao đó là:
đường cáp quang và đường SHSL 2M được thuê từ nhà cung cấp dịch vụ
Cục bưu điện Trung ương.
- Phần mềm hệ thống:
Máy chủ : Microsoft Windows Server 2003 64bit
Máy trạm: Microsoft Windows XP và Microsoft Windows Vista
- Phần mềm văn phòng: Microsoft Office 2003 và Microsoft Office XP
- Phần mềm diệt virus: Symantec Antivirus 10.1 Net
- Hệ thống thư tín điện tử (E-Mail): MDeamon
- Hệ thống truyền và nhận file (Ftp): ServerU và Ftp của Microsoft
b. Ứng dụng CNTT trong việc truyền số liệu
Việc tin học hoá công tác xử lý và truyền đưa số liệu của một số lĩnh
vực công tác thống kê được duy trì, hoàn thiện và phát triển đã góp phần
7
nâng cao hiệu quả công tác, chất lượng số liệu và rút ngắn thời gian báo
cáo. Mạng GSO phát huy tác dụng trong việc truyền đưa số liệu, phổ biến
nhanh các văn bản, tài liệu hướng dẫn của Tổng cục đến các địa phương.
phương.
Cùng với báo cáo tổng hợp được xuất bản dưới dạng ấn phẩm, Tổng
cục Thống kê cũng như các Cục Thống kê đã sản xuất các đĩa CD-ROM về
niên giám, kết quả các cuộc tổng điều tra, điều tra của cả nước và của các
địa phương. Đã có nhiều số liệu được đưa lên mạng intranet để sử dụng.
2. Hiện trạng việc thu thập số liệu và việc quản lý CSDL vi mô của một
số cuộc điều tra tại ngành Thống kê
Nguồn số liệu:
Thông tin thống kê định kỳ: tháng, quí, năm tổng hợp từ hệ thống
báo cáo thống kê. Tại TCTK, các thông tin này được tổng hợp từ hệ thống
báo cáo thống kê của các Cục Thống kê tỉnh/thành phố và báo cáo thống kê
thu thập được từ các Bộ, ngành
Thông tin tổng hợp, phân tích, dự báo từ các cuộc điều tra thống kê hoặc từ
một số hệ cơ sở dữ liệu vi mô của một vài ngành khác (số liệu thuế của Bộ
Tài chính, số liệu xuất nhập khẩu của Hải quan…).
a. Số liệu tổng điều tra dân số và nhà ở 1999
Tổng điều tra Dân số và nhà ở (TĐTDS&NƠ) 1-4-1999 thu thập số
liệu của gần 17 triệu hộ với trên 76 triệu nhân khẩu. Phiếu điều tra gồm 26
câu hỏi cho phiếu dài (điều tra mẫu) và 18 câu hỏi cho phiếu ngắn (điều tra
toàn bộ).
Việc xử lý số liệu được thực hiện trên các hệ thống máy tính PC nối
mạng nội bộ. Chương trình nhập, kiểm tra và sửa dữ liệu được phát triển
bằng phần mềm ISSA, chương trình hiệu đính và tổng hợp phát triển trong
phần mềm IMPS (CONCOR và CENTS). Các chương trình này được tích
9
hợp chung trong một hệ thống thống nhất quản lý toàn bộ luồng dữ liệu,
công việc, người dùng. Dữ liệu vi mô là các tệp ký tự ASCII với nhiều loại
bản ghi trong cùng một tệp. Hiện tại các tệp dữ liệu này vẫn được tiếp tục
lưu giữ và sử dụng để tổng hợp các biểu, chỉ tiêu đặc biệt khi có các yêu
kết quả toàn diện cho cấp toàn quốc, đĩa số liệu và kết quả mẫu cấp toàn
quốc và các đĩa CD-ROM cấp tỉnh (chung cả dữ liệu vi mô và vĩ mô), đĩa
CD-ROM với hệ thống thông tin địa địa lý (GIS) với bản đồ và các thông
tin tổng hợp đến cấp huyện. Trên các đĩa CD-ROM này có cả các siêu dữ
liệu tham chiếu (reference metadata) như: các tài liệu, văn bản liên quan
đến cuộc tổng điều tra, mẫu phiếu điều tra, sổ tay hướng dẫn điều tra, báo
cáo phân tích,…
Danh sách các đầu biểu tổng hợp trong TĐTDS 1999:
STT
Tên biểu
1
Dân số chia theo giới tính và đơn vị hành chính
2
Dân số chia theo loại quan hệ với chủ hộ và đơn vị hành chính
3
Số hộ chia theo số người trong hộ và đơn vị hành chính
4
Dân số chia theo độ tuổi và giới tính
5
Dân số chia theo nhóm tuổi và giới tính
6
Dân số chia theo dân tộc và giới tính
7
Dân số chia theo dân tộc, nhóm tuổi và giới tính
8
Dân số chia theo tôn giáo và giới tính
9
Dân số từ 5 tuổi trở lên chia theo nơi thực tế thường trú tại 31/03/1994 và
31/03/1999 và giới tính
Dân số từ 5 tuổi trở lên chia theo trình độ học vấn, nhóm tuổi và giới tính
22
Dân số từ 5 tuổi trở lên chia theo đơn vị hành chính, trình độ học vấn và
giới tính
23
Dân số từ 5 tuổi trở lên chia theo dân tộc, giới tính và trình độ học vấn
12
24
Dân số từ 5 tuổi trở lên chia theo tôn giáo, giới tính và trình độ học vấn
25
Dân số từ 13 tuổi trở lên làm việc trong 12 tháng qua chia theo trình độ
học vấn, giới tính và nghề nghiệp
26
Dân số từ 13 tuổi trở lên chia theo trình độ học vấn, giới tính và loại hoạt
động
27
Dân số từ 13 tuổi trở lên chia theo loại hoạt động, nhóm tuổi và giới tính
28
Dân số từ 13 tuổi trở lên chia theo loại hoạt động, dân tộc, tôn giáo và giới
tính
29
Dân số trong độ tuổi lao động chia theo đơn vị hành chính loại hoạt động
và giới tính
30
Dân số từ 13 tuổi trở lên làm việc trong 12 tháng qua chia ngành kinh tế
quốc dân, giới tính và thành phần kinh tế
31
Dân số từ 13 tuổi trở lên làm việc trong 12 tháng qua chia ngành kinh tế
quốc dân và giới tính
42
Số hộ chia theo tình trạng nhà ở, loại nhà đang ở và đơn vị hành chính
43
Số hộ có nhà ở thuộc loại nhà kiên cố, bán kiên cố, khung gỗ chia theo loại
nhà và hình thức sở hữu
44
Số hộ có nhà ở thuộc loại nhà kiên cố, bán kiên cố, khung gỗ chia theo loại
nhà và diện tích ở
45
Số hộ có nhà ở chia theo thời gian xây dựng, loại nhà, hình thức sở hữu,
diện tích ở và tiện nghi sử dụng
46
Số hộ có nhà ở chia theo trình độ chuyên môn kỹ thuật của chủ hộ, loại
nhà, hình thức sở hữu, diện tích ở và tiện nghi sử dụng
47
Số hộ có nhà ở chia theo nghề nghiệp của chủ hộ, loại nhà, hình thức sở
hữu, diện tích ở và tiện nghi sử dụng
48
Số hộ có nhà ở chia theo thành phần kinh tế của chủ hộ, loại nhà, hình
thức sở hữu, diện tích ở và tiện nghi sử dụng
14
49
Số hộ có nhà ở thuộc loại nhà kiên cố, bán kiên cố, khung gỗ chia theo
diện tích ở bình quân đầu người và nghề nghiệp của chủ hộ
50
Dân số chia theo nơi có mặt vào đêm 31/03/1999 và giới tính
51
Số người có mặt ở ngoài tỉnh vào đêm 31/03/1999 chia theo tỉnh/thành phố
nơi họ có mặt và giới tính
CSDL kết quả vĩ mô
b. Số liệu TĐT nông thôn nông nghiệp và thủy sản năm 2001
TĐTNTNN&TS có thể coi là một nguồn dữ liệu phong phú và chi tiết cho
thống kê xã hội với những thông tin về cơ sở hạ tầng kinh tế xã hội khu vực
nông thôn, điều kiện môi trường sống, mức sống, lao động nông nghiệp.
Dữ liệu vi mô và vĩ mô của hai cuộc TĐTNTNN&TS các năm 2001 và
2006 được lưu giữ đầy đủ với nhiều dạng khuôn mẫu, vật lưu tin khác
nhau.
Dữ liệu TĐTNTNN&TS năm 2001 hiện có các dang lưu giữ sau:
Các tệp dữ liệu vi mô ngay sau nhập tin, hiệu chỉnh dạng FoxPro của
tất cả các loại phiếu điều tra;
Đĩa CD-ROM dữ liệu vi mô phiếu “Cơ sở hạ tầng xã” toàn quốc
dạng tệp ký tự ASCII có kèm theo công cụ chuyển đổi sang các dạng
phổ biến khác như ACCESS, tệp phẳng;
Đĩa CD-ROM kết quả tổng hợp gồm hệ thống các biểu tổng hợp các
cấp;
Đĩa CD-ROM cấp tỉnh (mỗi tỉnh một đĩa) dữ liệu và kết quả
TĐTNTNN&TS có chứa dữ liệu vi mô của hai loại phiếu điều tra:
phiếu hộ và phiếu xã có thể chuyển đổi dang các khuôn dạng khác,
hệ biểu tống hợp kết quả của tỉnh;
CSDL dạng SQL Server toàn quốc lưu giữ dữ liệu vi mô của hai loại
phiếu điều tra hộ và xã.
16
Dữ liệu TĐTNTNN&TS năm 2006 cũng được lưu giữ, phân phát dưới
các dạng tương tự như năm 2001 như; các tệp dữ liệu gốc FoxPro, các tệp
dữ liệu ký tự ASCII, các loại đĩa CD-ROM dữ liệu và kết quả, CSDL dạng
SQL Server quản lý tại TTTHDL TCTK. Khác biệt chính giữa dữ liệu của
hai cuộc tổng điều tra này là: nếu năm 2001 các sản phẩm CD-ROM và
CSDL vi mô chỉ được phát triển cho hai loại phiếu hộ và xã thì năm 2006,
tra, mã số hộ không thay đổi. Vòng cơ bản điều tra đầy đủ các chỉ tiêu
thuộc phạm vi, các vòng tiếp theo thực hiện ba tháng một lần, vẫn sử dụng
phiếu cũ và thu thập tiếp các thông tin cấp nhật: thay đổi tình trạng hôn
nhân, mang thai, sinh chết, di chuyển đi và đến, sử dụng / ngừng sử dụng
các biện pháp tránh thai. Hệ thống được phát triển với cơ sở dữ liệu
FoxPro. Tuy nhiên dữ liệu trước đây lưu giữ trên các đĩa mềm hiện tại cũng
ít có khả năng sử dụng được.
Từ năm 2000, điều tra dân số nhiều vòng được chuyển thành điều tra
Biến động dân số thực hiện vào 1-4 hàng năm. Đây là điều tra có cỡ mẫu
khá lớn, khoảng 400 nghìn hộ với trên 1,6 triệu dân số (năm 2007 là 402
nghìn hộ, 1,63 triệu dân số, năm 2008 là trên 378 nghìn hộ với 1,47 trệu
dân số). Thiết kế phiếu và các câu hỏi có sự thay đổi nhất định theo từng
năm. Những số liệu thu thập chủ yếu về giới tính, tuổi, hình hình đi học,
trình độ văn hóa và chuyên môn kỹ thuật, hôn nhân, di cư, hoạt động kinh
tế, sinh, chết, kế hoạch hóa gia đình, nạo phá thai. Một vài năm điều tra này
được kết hợp cùng với điều tra về lao động việc làm với mức độ khác nhau
như các năm 2006 và 2008.
Các chương trình nhập tin và kiểm tra, hiệu đính số liệu được thiết
kế bằng phần mềm ISSA (năm 2000 và 2001) và sau đó chuyển sang phần
mềm CSPro, còn phần mềm IMPS (CENTS) được sử dụng để lập trình tính
toán các biểu tổng hợp. Dữ liệu vi mô là các tệp ký tự ASCII “không
18
phẳng”, nghĩa là một tệp dữ liệu chứa tất cả các loại bản ghi (tương tự như
cấu trúc của dữ liệu vi mô TĐTDS 1989), được lưu trữ theo từng năm, mỗi
năm một tệp gồm nhiều loại bản ghi. Dung lượng dữ liệu mỗi năm trên
dưới 100 MB. Loại dữ liệu vẫn lưu trữ tại TTTH Thống kê và tiếp tục phục
vụ cho các nhu cầu lập biểu tổng hợp đặc biệt khi có yêu cầu phát sinh.
Hàng năm, sau khi xử lý xong điều tra BĐDS&KHHGĐ, dữ liệu vi
mô đều được chuyển đổi sang dạng SPSS và gửi đến Vụ TK DSLD và các
lần. Đây là một điều tra có cỡ mẫu không lớn, khoảng 46000 hộ mỗi năm
nhưng có lượng câu hỏi rất lớn và phức tạp và do đó cấu trúc dữ liệu vi mô
cũng cực kỳ phức tạp.
Các điều tra 2002 được xử lý bằng phần mềm FoxPro và do vậy, dữ
liệu vi mô cũng dưới dạng CSDL FoxPro. Từ năm 2004 (2004, 2006 và
2008) phần mềm xử lý được chọn là CSPro và dữ liệu là các tệp ký tự
20
ASCII. Các tệp ASCII này là tệp ký tự “không phẳng”, có cấu trúc gồm rất
nhiều bản ghi khác nhau. Ví dụ: năm 2006 có 5 loại phiếu điều tra: phiếu
phỏng vấn hộ Thu nhập và chi tiêu, phiếu phỏng vấn hộ Thu nhập, phiếu
Xã, phiếu trường hoc và phiếu Trạm Y tế. Chỉ riêng phiếu phỏng vấn hộ
Thu nhập và chi tiêu thì tệp dữ liệu ban đầu (tệp dữ liệu nhập tin gốc) đã có
tới 76 loại bản ghi với tổng số biến lên tới 1186 biến (câu). Dung lượng dữ
liệu vi mô mỗi năm khoảng trên 300 MB.
Dữ liệu vi mô của mỗi điều tra đều được chuyển đổi dưới dạng Stata
phục vụ cho việc kiểm tra, tổng hợp chi tiết của vụ TK XHMT và các CTK.
Các biểu tổng hợp các cấp dưới dạng EXCEL cũng được cung cấp cho
những người dùng khác nhau và lưu giữ tại TTTHTK và vụ TK XHMT.
f. Số liệu điều tra Doanh nghiệp:
Đây là điều tra mà TCTK tiến hành hàng năm, số liệu của cuộc điều tra
được rất nhiều tổ chức và cá nhân quan tâm. Số liệu vi mô của điều tra này
được lưu giữ dưới các dạng sau:
Các tệp dữ liệu vi mô ngay sau nhập tin, hiệu chỉnh dạng FoxPro của
tất cả các loại phiếu điều tra;
Đĩa CD-ROM dữ liệu vi mô toàn quốc dạng tệp ký tự ASCII có kèm
theo công cụ chuyển đổi sang các dạng phổ biến khác như ACCESS,
tệp phẳng;
Đĩa CD-ROM kết quả tổng hợp gồm hệ thống các biểu tổng hợp các
cấp;
mức rất hạn chế, nhất là kinh phí điều tra và duy trì hoạt động của công
nghệ thông tin. Hệ thống cơ sở hạ tầng về công nghệ thông tin nói chung
chưa đồng bộ và chưa đủ để đáp ứng yêu cầu về tác nghiệp công tác thống
kê. Nhiều chỉ tiêu thống kê, biểu mẫu báo cáo, điều tra chưa được chuẩn
hoá đã hạn chế tin học hoá công tác thống kê.
Chất lượng truyền thông qua modem và đường điện thoại không thể
đáp ứng được nhu cầu xử lý, lưu trữ và cung cấp thông tin thống kê. Hiện
22
nay máy tính ở các Cục Thống kê, Phòng Thống kê cấp huyện cấu hình kỹ
thuật thấp nên không triển khai được các ứng dụng khi cài đặt đòi hỏi cấu
hình máy và hệ điều hành mạnh.
b. Xây dựng và quản lý các CSDL
Đối tượng sử dụng dữ liệu vi mô các điều tra này là các vụ nghiệp vụ thuộc
thống kê xã hội hoặc một số tổ chức, cá nhân tiến hành các nghiên cứu sâu.
Công cụ để tiến hành phân tích sâu hoặc tạo lập những biểu tổng hợp,
thống kê đặc biệt là những phần mềm phân tích thống kê như SPSS, Stata,
SAS. Do vậy cách lưu trữ và cung cấp số liệu vi mô dạng này nói chung
đáp ứng yêu cầu thực tế của người sử dụng.
Các hệ thống tác nghiệp hiện tại đang đáp ứng tốt các yêu cầu nghiệp
vụ đặt ra đối với ngành, tuy nhiên nhiều hệ thống đang xây dựng nghiệp vụ
còn chồng chéo, các hệ thống còn rời rạc chưa có sự tích hợp thông tin. Các
dữ liệu còn phân tán, không tập trung, nếu có tập trung dữ liệu tại trung
ương phần lớn là các số liệu tổng hợp, rất ít các số liệu chi tiết.
Các CSDL đã xây dựng nói trên, về mặt thiết kế cơ bản đã đáp ứng
được lưu trữ và khai thác thông tin đặt ra, tuy nhiên đến nay khi đưa vào
vận hành còn một số tồn tại sau:
Các CSDL xây dựng vẫn mang tính chất đơn lẻ, chưa được tích hợp.
Cần tích hợp để cung cấp các thông tin hiệu quả hơn.
quốc, mọi quy định cần được áp dụng đồng bộ, thống nhất trong
toàn bộ ngành.
Việc chuẩn hóa các khuôn dạng, mẫu biểu của các loại báo cáo, cần
được nghiên cứu ngay khi bắt tay xây dựng hệ thống. Đây là một
công việc quan trọng cần có sự hợp tác giữa các cán bộ nghiệp vụ
24
và các cán bộ tin học.
Chuẩn hoá các bộ mã
CSDL là nơi lưu trữ các sự kiện lịch sử, nhất thiết không bị thay đổi
trong quá trình phát triển hệ thống. Do vậy việc chuẩn hóa các bộ
mã và sử dụng thống nhất trong toàn bộ hệ thống phải được nghiên
cứu ngay từ khi bắt tay xây dựng hệ thống tác nghiệp. Khi thay đổi
bộ mã phải được áp dụng trong toàn ngành
Tuy đến nay việc chuẩn hoá về cơ bản đã đạt được một kết qủa khả
quan, tuy nhiên vẫn chưa chuẩn hoà và áp dụng triệt để một số bộ
mã. Do đó cần tiếp tục hoàn thiện và chuẩn hoá các bộ mã trong
phần giải pháp về chất lượng dữ liệu đã nêu trên
Chuẩn hoá các định dạng dữ liệu thu thập
Việc chuẩn hoá định dạng dữ liệu thu thập cho các CSDL sẽ làm
giảm công sức cho việc thu thập và tăng tính chính xác của dữ liệu
thu thập. Cần có quy chế nhằm thống nhất nội dung dữ liệu, khuôn
dạng dữ liệu cung cấp cho các CSDL.
Yếu tố về công nghệ, kỹ thuật
Hoàn thiện mạng tin học diện rộng trong ngành Thống kê nhằm kết
nối máy tính của các Phòng Thống kê huyện, quận với mạng máy tính của
Cục Thống kê tỉnh, thành phố trực thuộc trung ương và kết nối tất cả các
mạng máy tính của các Cục Thống kê tỉnh, thành phố với mạng máy tính
của Tổng cục Thống kê. Thực hiện việc trao đổi thông tin trong toàn
ngành Thống kê qua mạng.
xử lý, tính toán, phân tích thống kê. Bảo đảm phục vụ hiệu quả việc xử lý
số liệu đầu vào của các cuộc điều tra và báo cáo thống kê. Tăng cường việc
truyền số liệu qua mạng. Nghiên cứu và phát triển các phần mềm chuyên
dùng cho các chế độ báo cáo và điều tra thống kê đã ban hành.