BỘ KẾ HOẠCH VÀ ĐẦU TƯ
TỔNG CỤC THỐNG KÊ CHUYÊN ĐỀ KHOA HỌC
THỬ NGHIỆM PHẦN MỀM QUẢN LÝ DỮ LIỆU VI MÔ VÀO
LƯU TRỮ VÀ QUẢN LÝ DỮ LIỆU CỦA TỔNG ĐIỀU TRA
NÔNG THÔN, NÔNG NGHIỆP VÀ THUỶ SẢN NĂM 2006
Người thực hiện: CN. Lê Trung Hiếu
Ths. Đặng Văn Phẩm
Đơn vị công tác: Vụ TK Nông, lâm nghiệp và thủy sản
nghiệp và thủy sản cùng cuộc tổng điều tra các cơ sở kinh tế được tiến
hành theo chu kỳ 5 năm 1 lần. Với số lượng lớn các cuộc điều tra, cùng rất
nhiều các chỉ tiêu thống kê của mỗi cuộc điều tra như vậy thì công tác xử
lý, lưu trữ và quản lý số liệu là đặc biệt quan trọng, đòi hỏi phải có các
phần mềm chuyên dụng cũng như chương trình quản trị dữ liệu thống nhất
giữa các cuộc điều tra để giúp cho người dùng tin dễ dàng truy cập, khai
thác, sử dụng số liệu ở cấp vĩ mô cũng như vi mô.
Công tác lưu trữ và quản lý số liệu thống kê là một hoạt động khá
quan trọng của công tác thống kê, kết quả của các cuộc điều tra thống kê
rất cần được lưu trữ theo thời gian để giúp cho việc thiết kế các cuộc điều
tra khác tốt hơn đồng thời cũng cho phép so sánh kết quả thu được của các
cuộc điều tra ở các thời điểm khác nhau. Hiện nay trên thế giới có rất nhiều
các phần mềm được xây dựng để phục vụ cho công tác lưu trữ và quản lý
số liệu, trong chuyên đề này chúng tôi xin được giới thiệu một công cụ
quản lý số liệu vi mô mới được phát triển bởi bộ phận dữ liệu của Ngân
hàng Thế giới cho hệ thống các cuộc điều tra hộ gia đình quốc tế. Phần
mềm này nhằm mục đích thúc đẩy các ứng dụng của tiêu chuẩn quốc tế vào
việc lập các tài liệu hướng dẫn, phổ biến và lưu trữ dữ liệu giúp cho người
sử dụng thông tin có thể biết rõ về cuộc điều tra cũng như hiểu rõ nội dung
các chỉ tiêu thống kê của cuộc điều tra.
2
I. Tiếp cận phần mềm quản lý số liệu vi mô (Microdata Management
toolkit)
Để thiết lập và quản lý các bản siêu dữ liệu, bộ phận dữ liệu của Ngân
hàng Thế giới cho hệ thống các cuộc điều tra hộ gia đình quốc tế đã nghiên
cứu, phát triển phần mềm quản lý dữ siêu dữ liệu. Phần mềm này được viết
không thể xử lý được một cách thủ công. Để xử lý được hết tài liệu điện tử
phân tán, người ta phải áp dụng các phương pháp tự động, sử dụng các chương
3
trình đặc biệt. Do tài liệu điện tử được tạo ra, thông thường không tuân thủ
những quy định xuất bản truyền thống, không có những quy tắc nhất định giúp
cho phép nhận dạng tự động được các yếu tố mô tả thông thường như tác giả,
địa chỉ về xuất bản, thông tin về khối lượng nên cần thiết phải có những quy
định thống nhất để các chương trình tự động nhận dạng và xử lý chúng theo các
yêu cầu nghiệp vụ. Những quy định như vậy được gọi là những quy định về
siêu dữ liệu. Có thể thấy hiện nay, do nhiều chương trình máy tính chỉ định chỉ
số dựa vào một số thành phần hạn chế như nhan đề hoặc toàn văn nên không
hỗ trợ những tìm kiếm đặc thù (ví dụ theo tác giả, theo chủ đề, theo lĩnh vực ).
Vì thế để tạo điều kiện cho các chương trình có thể đinh chỉ số tự động theo
một số yếu tố xác định, người ta phải đưa thêm vào tài liệu điện tử những thuộc
tính bổ sung để tăng cường mô tả tài nguyên thông tin. Các công cụ định chỉ số
tự động sẽ được lập trình để nhận dạng các thuộc tính này và định chỉ số chúng,
từ đó hỗ trợ tìm kiếm những thuộc tính đặc thù. Như vậy một bản ghi metadata
bao gồm một tập hợp những thuộc tính hoặc tập hợp những phần tử cần thiết để
mô tả các tài nguyên thông tin theo yêu cầu nghiệp vụ. Thông thường trong
hoạt động nghiệp vụ thông tin, thư viện bao gồm các yếu tố như: Nhan đề tài
liệu, tác giả, thông tin về xuất bản, nơi/vị trí lưu giữ, kiểu/dạng tài liệu Công
cụ Metadata Editor được sử dụng để tạo ra các bảng siêu dữ liệu cùng với các
khai báo, các tài liệu có liên quan đã được chuẩn hóa theo tiêu chuẩn quốc tế về
dữ liệu vi mô, như Data Documentation Initiative và Dublin Core (DDI và
DC). Đây là hai sơ đồ chuẩn về siêu dữ liệu hiện nay trên thế giới trong việc
thiết lập các siêu dữ liệu chuẩn. Nội dung của việc chuẩn hóa các siêu dữ liệu
theo tiêu chuẩn quốc tế có những ưu điểm sau:
+ Tạo lập và sử dụng dễ dàng: cho phép những người không chuyên
nghiệp có thể tạo các bản ghi mô tả đơn giản cho các tài nguyên thông tin và
loại/ (Khung phân loại).
4. Tóm tắt (Description): Tóm tắt, mô tả nội dung tài liệu. Có thể bao
gồm tóm tắt, chú thích, mục lục, đoạn văn bản để làm rõ nội dung
5. Nhà xuất bản (Publisher): Nhà xuất bản, nơi ban hành tài liệu có thể
là tên cá nhân, tên cơ quan, tổ chức, dịch vụ
6. Tác giả phụ (Contributor): Tên những người cùng tham gia cộng tác
đóng góp vào nội dung tài liệu, có thể là cá nhân, tổ chức
7. Ngày tháng (Date): Ngày, tháng ban hành tài liệu. Có thể dùng
chuẩn ISO 8601
8. Loại (kiểu) (Type): Mô tả bản chất của tài liệu. Dùng các thuật ngữ
mô tả phạm trù kiểu: trang chủ, bài báo, báo cáo, từ điển
9. Khổ mẫu (Format): Mô tả sự trình bày vật lý của tài liệu, có thể bao
gồm; vật mang tin, kích cỡ độ dài, kiểu dữ liệu (.doc, .html, .jpg,
xls, phần mềm )
10. Định danh (Identifier): Các thông tin về định danh tài liệu, các
nguồn tham chiếu đến, hoặc chuỗi ký tự để định vị tài nguyên: URL
(Uniform Resource Locators) (bắt đầu bằng http://), URN (Uniform
Resource Name), ISBN (International Standard Book Number),
5
ISSN (International Standard Serial Number), SICI (Serial Item &
Contribution Identifier),
11. Nguồn (Resource): Các thông tin về xuất xứ của tài liệu, tham chiếu
đến nguồn mà tài liệu hiện mô tả được trích ra/tạo ra, nguồn cũng có
thể là: đường dẫn (URL), URN, ISBN, ISSN
12. Ngôn ngữ (Language): Các thông tin về ngôn ngữ, mô tả ngôn ngữ
chính của tài liệu
13. Liên kết (Relation): Mô tả các thông tin liên quan đến tài liệu khác.
có thể dùng đường dẫn (URL), URN, ISBN, ISSN
14. Diện bao quát (Coverage): Các thông tin liên quan đến phạm vi, quy
có được sử dụng hay không, hay người dùng tin chỉ biết đưa ra yêu cầu đòi
hỏi phải được đáp ứng mà không cần biết khả năng và điều kiện hiện có
của người sản xuất. Thông tin thống kê trở thành một loại hàng hoá công
cộng, có cung và cầu xác định. Do đó, chất lượng thông tin được xác định
bởi mức độ phù hợp, tính chính xác, tính kịp thời, tính đầy đủ, tính chặt
chẽ, sự minh bạch và khả năng tiếp cận thông tin. Để có những thông tin
thống kê có chất lượng, phục vụ tốt cho đa dạng các đối tượng dùng tin thì
đòi hỏi Tổng cục Thống kê cần cải thiện và nâng cao chất lượng, hiệu quả
của việc cung cấp thông tin cho người sử dụng trên phạm vi toàn quốc.
Những năm gần đây, Tổng cục thống kê đã có những bước đi quan
trọng theo hướng đẩy mạnh ứng dụng các kỹ thuật tin học vào việc xây
dựng các cơ sở dữ liệu (CSDL) cho ngành ở các lĩnh vực và từng bước đưa
các CSDL này phục vụ cho các yêu cầu về thông tin thống kê đang ngày
một đa dạng của các đối tượng dùng tin.
Từ năm 1997, Trung tâm Tin học thống kê đã phối hợp với các đơn vị
thuộc Tổng cục Thống kê từng bước xây dựng và phát triển các cơ sở dữ
liệu thống kê chạy trong mạng LAN thuộc mạng GSOnet. Hiện tại trên
GSOnet có 2 loại cơ sở dữ liệu vi mô là:
1. Cơ sở dữ liệu vi mô của các cuộc tổng điều tra: Cơ sở này sẽ lưu trữ
dữ liệu gốc của các cuộc Tổng điều tra sau khi thông tin đã được làm sạch,
hiện tại các CSDL này được lưu trữ trên mạng nội bộ của Tổng cục Thống
kê, bao gồm:
- Số liệu mẫu 3% tổng điều tra dân số và nhà ở thời điểm 1-4 - 1999
- Số liệu tổng điều tra dân số và nhà ở thời điểm 1-4 - 1999
- Số liệu tổng điều tra nông thôn nông nghiệp và thủy sản năm 2001
- Số liệu tổng điều tra cơ sở kinh tế-hành chính sự nghiệp năm 2002
2. Cơ sở dữ liệu ban đầu từ một số cuộc điều tra được lưu trữ ở Tổng
cục hoặc các vụ dưới dạng file SPSS hoặc STATA, như dữ liệu của các
cuộc điều tra:
- Điều tra Y tế Quốc gia 2001-2002
sâu vào số liệu gốc. Mặt khác CSDL các cuộc điều tra do Tổng cục xây
dựng chung cho toàn quốc thì lại chỉ lưu trữ trên mạng nội bộ của Tổng
cục, các Cục thống kê chưa thể tiếp cận, khai thác được.
Thực trạng quản lý dữ liệu vi mô của cuộc Tổng điều tra Nông
thôn, nông nghiệ và thủy sản năm 2006:
Cuộc tổng điều tra Nông nghiệp, Nông thôn và Thủy sản năm 2006
được tiến hành nhằm thu thập những thông tin cơ bản về Nông nghiệp,
Nông thôn và Thủy sản, nhằm phục vụ yêu cầu của các ngành, các cấp
8
trong việc đánh giá thực trạng, xu hướng biến đổi trong những năm qua và
xây dựng chỉ đạo chiến lược, kế hoạch phát triển Nông nghiệp, Nông thôn
và Thủy sản của cả nước cũng như từng địa phương. Kết quả Tổng điều tra
còn là căn cứ để đánh giá tình hình thực hiện các chương trình mục tiêu
quốc gia trong quá trình đẩy mạnh công nghiệp hóa hiện và đại hóa Nông
nghiệp, Nông thôn.
Để phục vụ các thuận tiện cho mọi đối tượng dùng tin trong và ngoài
ngành có thể khai thác hiệu hiệu quả số liệu Tổng điều tra NT, NN và TS
năm 2006. Được Tổng cục giao nhiệm vụ, Trung tâm tin học Thống kê đã
phối hợp với Vụ Thống kê Nông, lâm và thuỷ sản, xây dựng các CSDL vi
mô như sau :
- Đĩa CD Rom vi mô dữ liệu điều tra;
- CSDL vi mô dữ liệu điều tra: Gồm CSDL đầy đủ và CSDL rút gọn.
1. Đĩa CD Rom vi mô số liệu điều tra.
Đây là đĩa CD Rom lưu giữ toàn bộ các chỉ tiêu điều tra của 13 loại
phiếu cho từng tỉnh, cùng với ứng dụng khai thác số liệu thông qua phần
mềm IMPS, cho phép người dùng tin tự động chiết suất lập các biểu tổng
hợp chéo giữa các chỉ tiêu theo lựa chọn của người dùng tin mà không phụ
thuộc vào mẫu biểu tổng hợp cố định.
113 699 Trang trại
3. Phiếu 3
9 073 Xã
4. Phiếu 4
7 237 Hợp tác xã NLTS
5. Phiếu 5a
2 136 Doanh nghiệp
6. Phiếu 5b
588 Cơ sở doanh nghiệp
7. Phiếu 6
64 631 Hộ mẫu điều tra kinh tế
8. Phiếu 7
5 500 Hộ mẫu điều tra chi phí
Nội dung của CSDL được xây dựng trên hệ quản trị CSDL SQL server
và cài đặt trên mạng của Tổng cục Thống kê. Dữ liệu trong CDSL là dữ liệu
gốc các chỉ tiêu điều tra của các hộ, các cơ sở Nông, lâm, thuỷ sản trong cả
nước bao gồm các chỉ tiêu định danh (tên chủ cơ sở, địa chỉ) và các chỉ tiêu số
liệu về tình hình hoạt động trong lĩnh vực Nông, lâm, thuỷ sản.
Dung lượng thông tin được lưu giữ trong CSDL (khoảng 15 GB).
10
Trung tâm Tin học Thống kê đã xây dựng thành 2 CSDL nhằm phục
vụ người dùng tin khai thác CSDL thuận tiện, đồng thời bảo đảm tính bảo
mật thông tin các cơ sở điều tra theo luật Thống kê đã ban hành: CSDL đầy
đủ và CSDL rút gọn
- CSDL đầy đủ được lưu giữ toàn bộ các chỉ tiêu điều tra từ 14,5 triệu
cơ sở (bao gồm cả các chỉ tiêu định danh). CSDL này được cài đặt trên
mạng GSO và chỉ phân quyền khai thác CSDL này cho Lãnh đạo Tông cục
Thống kê và Vụ Thống kê Nông, lâm và thuỷ sản.
- CSDL rút gọn được lưu giữ toàn bộ các chỉ tiêu điều tra từ 14,5 triệu
dữ liệu thông qua dấu phép toán như: dấu = , > , < , hoặc các quan hệ của
dữ liệu thông qua phép toán Logic OR, AND).
+ Kết quả khai thác hoặc lập bảng biểu tổng hợp sẽ hiện trên màn hình.
+ Chiết xuất kết quả khai thác hoặc lập bảng biểu tổng hợp ra file
Excel.
Từ thực trạng việc quản lý, lưu trữ, khai thác dữ liệu các cuộc điều tra
thống kê hàng năm hiện nay tại Tổng cục Thống kê và các cục thống kê địa
phương. Với yêu cầu ngày càng cao về thông tin thu thập từ các cuộc điều
tra ở nhiều các lĩnh vực khác nhau của Chính phủ và các Bộ, ban ngành,
các địa phương, các đối tượng dùng tin khác, cùng việc phục vụ trực tiếp
các công việc chuyên môn của các đơn vị trong Tổng cục ở các thời điểm
khác nhau. Thực tế khi thực hiện các công việc chuyên sâu của các chuyên
ngành trong Tổng cục đã đòi hỏi các cán bộ của Tổng cục phải hiểu rõ về
bộ số liệu như: các chỉ tiêu, cách thức, phạm vi thu thập để có thể tự lập
các bảng biểu tổng hợp từ số liệu gốc trong thời gian ngắn nhất.
III. Thử nghiệm phần mềm quản lý dữ liệu vi mô cho cuộc Tổng điều
tra nông thôn, nông nghiệp và thuỷ sản năm 2006
Phần mềm quản lý dữ liệu vi mô (Microdata Management toolkit)
được phát triển bởi bộ phận dữ liệu của Ngân hàng Thế giới cho hệ thống
các cuộc điều tra hộ gia đình quốc tế. Ưu điểm của phần mềm này các dữ
liệu vi mô của cuộc điều tra có thể được lưu trữ một cách khoa học trên
mạng và có thể khai thác qua Internet hoặc cũng có thể lưu trữ trên các sản
phẩm đĩa CD, DVD Các sản phẩm được dữ liệu đầu ra tạo ra từ phần
mềm cơ bản đã đáp ứng yêu cầu của các đối tượng sử dụng. Các sản phẩm
này đã được chuẩn hóa và đây là cơ sở cho việc xác định đầu vào thể hiện
trên các chỉ tiêu thống kê cần thu thập. Việc chuẩn hóa sản phẩm đầu ra là
một biện pháp tích cực nhằm nâng cao hiệu quả của việc thu thập thông tin
tránh được tình trạng phổ biến hiện nay trong ngành Thống kê là không
khai thác hết thông tin đầu vào qua các cuộc điều tra gây nên một sự lãng
phí quá lớn do không căn cứ vào yêu cầu của thông tin đầu ra nhưng lại
study hoặc kích chuột vào biểu tượng add new study
ta sẽ tạo được một
nghiên cứu mới.
Thực tế ứng dụng: Kích chuột và biểu tượng add group ta tạo ra một
nhóm với tên Agricultural data, dưới nhóm ta tạo ra một nghiên cứu với tên
AC2006_V1.0 bằng cách kích chuột vào biểu tượng add new study. Trong
13
nghiên cứu AC2006_V1.0 sẽ bao gồm các thông tin về mô tả dữ liệu, mô tả
nghiên cứu, đưa số liệu vào lưu trữ, nhóm các biến (các chỉ tiêu đã thu
thập), và các nguồn tài liệu có liên quan khác. Nghiên cứu này sẽ lưu trữ tất
cả các thông tin liên quan đến cuộc tổng điều tra Nông thôn, nông nghiệp
và thuỷ sản 2006.
Trong mỗi nghiên cứu, những nhà lập trình đã đưa ra một khung chuẩn các
mục cần khai báo cho mỗi cuộc điều tra. Để khai báo các tài liệu của cuộc Tổng
điều tra Nông thôn, nông nghiệp và thủy sản năm 2006, trước hết ta phải chuẩn
bị hết các tài liệu có liên quan đến cuộc điều tra như: bộ số liệu, các phương án,
biểu mẫu, phiếu điều tra, giải thích phiếu điều tra, các chỉ tiêu điều tra, qui trình
thực hiện điều tra và các tài liệu khác có liên quan. Khi đã có đầy đủ các thông
tin liên quan đến cuộc Tổng điều tra ta sẽ thực hiện các bước khai báo theo
khung khai báo chuẩn của phần mềm theo các chủ đề với nội dung như sau:
1. Mô tả tài liệu (Document description): Phần này dùng để khai
báo các thông tin liên quan đến bộ dữ liệu. Mô tả tài liệu giúp cho người dùng
tin có cái nhìn tổng thể về cuộc điều tra từ nội dung, phương pháp và hình
thức để thu thập số liệu giúp cho người dùng tin có thể nhận dạng được loại
thông tin họ đang đọc. Trong phần mô tả tài liệu này ta phải khai báo các nội
dung như:
- Tên của cuộc điều tra (bộ dữ liệu): The Vietnam Rural, Agriculture
and Fishery Census in 2006 (Tổng điều tra Nông thôn, nông nghiệp
các nhóm chỉ tiêu điều tra.
Mục đích: Cuộc điều tra thu thập những thông tin cơ bản về nông thôn,
nông nghiệp (bao gồm cả lâm nghiệp) và thuỷ sản nhằm: phục vụ công tác kế
hoạch, hoạch định chính sách và chiến lược phát triển kinh tế- xã hội của cả
nước cũng như là của từng địa phương; nghiên cứu, đánh giá tình hình thực
hiện một số nội dung của chương trình mục tiêu quốc gia trong nông thôn,
nông nghiệp; phục vụ so sánh quốc tế các chỉ tiêu nông thôn, nông nghiệp và
thuỷ sản; xây dựng cơ sở dữ liệu về nông nghiệp, thuỷ sản và nông thôn phục
vụ công tác nghiên cứu chuyên sâu, lập dàn chọn mẫu cho các cuộc điều tra
mẫu.
Nội dung điều tra: Cuộc Tổng điều tra thu thập các thông tin về nhận
dạng các đơn vị điều tra; các thông tin về sản xuất nông, lâm nghiệp và thuỷ
sản; nhóm thông tin về nông thôn:
+ Nhóm thông tin nhận dạng đơn vị điều tra
- Tên đơn vị;
- Địa chỉ;
- Loại hình tổ chức;
- Ngành hoạt động.
+ Nhóm thông tin về sản xuất nông, lâm nghiệp và thuỷ sản
* Các thông tin về điều kiện sản xuất
15
- Số đơn vị sản xuất (hộ, trang trại, hợp tác xã, doanh nghiệp); lao
động và cơ cấu lao động phân theo giới tính, tuổi, trình độ chuyên môn kỹ
thụât và ngành nghề, hình thức làm việc;
- Đất nông, lâm nghiệp và thuỷ sản đơn vị đang sử dụng phân theo
nguồn, loại đất; đất trồng cây hàng năm được cơ giới hóa, tưới, tiêu chủ động;
diện tích gieo trồng một số cây trồng chủ yếu, diện tích nuôi trồng thuỷ sản
phân theo loại thuỷ sản chính, loại nước và phương thức nuôi; số lượng và thể
tích lồng bè nuôi thủy sản, …;
16
- Kết quả thực hiện một số chương trình mục tiêu quốc gia về hỗ trợ
người nghèo, sử dụng nước sạch, vệ sinh môi trường, xử lý chất thải trên địa
bàn nông thôn,…;
- Các thông tin cơ bản khác về nông thôn: Cơ sở chế biến sản phẩm
nông, lâm nghiệp, thủy sản; hợp tác xã, tổ hợp tác và làng nghề; cơ sở vật
chất, điều kiện làm việc của UBND xã; tuổi, giới tính, trình độ học vấn của
một số chức vụ lãnh đạo xã,…
Đối tượng và đơn vị điều tra: các hộ ở nông thôn; các hộ nông, lâm
nghiệp và thuỷ sản ở thành thị; các xã; các trang trại; các HTX nông, lâm
nghiệp và thuỷ sản; Các doanh nghiệp nông, lâm nghiệp và thuỷ sản.
Hệ thống phiếu điều tra:
(1). Phiếu số 1/ĐTH – Phiếu thu thập thông tin về tình hình cơ bản của
hộ (Áp dụng cho toàn bộ các hộ ở nông thôn và hộ nông, lâm nghiệp thuỷ sản
ở thành thị).
(2). Phiếu số 2/ĐTTT – Phiếu thu thập thông tin về trang trại (Áp dụng
cho toàn bộ các trang trại).
(3). Phiếu số 3/ĐTX – Tình hình cơ bản và cơ sở hạ tầng của xã (Áp
dụng cho toàn bộ các xã).
(4). Phiếu số 4/ĐTHTX – Phiếu thu thập thông tin về hợp tác xã nông,
lâm nghiệp và thuỷ sản (Áp dụng cho toàn bộ các hợp tác xã nông, lâm
nghiệp và thuỷ sản).
(5). Phiếu số 5A/ĐTDN – Phiếu thu thập thông tin về doanh nghiệp
nông, lâm nghiệp và thuỷ sản (Áp dụng cho toàn bộ các doanh nghiệp nông,
lâm nghiệp và thuỷ sản).
(6). Phiếu số 5B/ĐTCSTT – Phiếu thu thập thông tin về cơ sở nông,
lâm nghiệp và thuỷ sản trực thuộc (Áp dụng cho toàn bộ các cơ sở nông, lâm
nghiệp và thuỷ sản là đơn vị trực thuộc của các doanh nghiệp phi nông, lâm
nghiệp và thuỷ sản).
(7). Phiếu số 6/ĐTHM – Phiếu thu thập thông tin về kinh tế hộ nông
lâm nghiệp và thuỷ sản; cơ sở hạ tầng nông thôn; thực trạng kinh tế trang trại,
hợp tác xã, doanh nghiệp nông, lâm nghiệp và thuỷ sản;
- Điều tra chọn mẫu đối với các nội dung: Vốn đầu tư trong năm 2005,
vốn tích luỹ và khả năng huy động vốn của hộ ở nông thôn; hiệu quả sản xuất
một số cây, con chủ yếu; an ninh lương thực,… (được qui định cụ thể trong
các loại phiếu điều tra);
- Điều tra lồng ghép: các thông tin về cơ cấu nguồn thu của hộ ở nông
thôn được lồng ghép trong cuộc điều tra “Khảo sát mức sống hộ gia đình năm
2006” của Tổng cục Thống kê.
2.5. Mức độ bao phủ (Coverage): Nhập vào tên nước, thậm chí cả trường
hợp nơi cuộc điều tra không bao phủ toàn bộ đất nước. Trong phần
"Abbreviation" (chữ viết tắt) chúng ta được khuyến cáo vào 3 ký tự theo mã
chuẩn ISO của đất nước (Như Việt Nam ký hiệu theo chuẩn ISO là VNM).
Nếu như bộ số liệu được dẫn chứng bằng tài liệu bao phủ ngoài một quốc gia
(ở nhiều đất nước) thì ta có thể vào bằng nhiều dòng riêng biệt; Mức độ bao
phủ về mặt địa lý; phạm vi điều tra về dân số như đối tượng ở độ tuổi nào thì
điều tra, độ tuổi nào không điều tra…
18
2.6. Nhà sản xuất và người bảo đảm (Producers and sponsors) bao gồm:
người chịu trách nhiệm điều tra chính của cuộc Tổng điều tra là Ban chỉ đạo
Tổng Điều tra nông thôn, nông nghiệp và thuỷ sản; nhà đồng tổ chức hoặc
chịu trách nhiệm hoặc có các công việc liên quan; chi phí cho cuộc Tổng điều
tra, nguồn chi phí lấy từ đâu trong nước hay quốc tế; các đơn vị khác có liên
quan. Chi phí của cuộc Tổng điều tra Nông thôn, nông nghiệp và thuỷ sản lấy
từ kinh phí của Chính Phủ Việt Nam.
2.7. Sự lấy mẫu (Sampling): Phần này cần đưa vào các thông tin về cách
chọn mẫu, cỡ mẫu; sai số của thiết kế mẫu; xác định số lượng mẫu theo lý
thuyết chọn mẫu; thông số suy rộng của từng chỉ tiêu. Trong chuyên đề này
chính thức, bao gồm:
+ Hiệu chỉnh bằng tay và mã hóa
+ Hiệu chỉnh trong suốt quá trình vào số liệu
+ Kiểm tra cấu trúc tập tin và sự đầy đủ của thông tin
+ Hiệu chỉnh thứ cấp
2.10. Đánh giá số liệu (Data appraisal): Các cuộc điều tra mẫu cần có
tính toán, ước lượng, công bố sai số chọn mẫu
2.11. Truy cập số liệu (Data access): Phần này cần cung cấp một loạt
những thông tin, địa chỉ của người có trách nhiệm về số liệu cũng như những
quyền được truy cập số liệu bao gồm tên, người hoặc tổ chức có trách nhiệm,
email, chuỗi định danh tài nguyên trên Internet (URI); bảo mật số liệu, cung
cấp những điều kiện của người sử dụng được truy cập vào sử dụng số liệu,
còn số liệu không cần bảo mật thì phần này có thể để trống; truy cập số liệu,
mỗi bộ số liệu nên có một chính sách truy cập đính kèm nó, IHSN khuyến
nghị nên có 3 mức độ truy cập số liệu gồm: (1) Mức độ thứ nhất là loại số liệu
có thể truy cập rộng rãi với mọi người sử dụng, (2) Mức độ thứ hai là bộ số
liệu có bản quyền, nếu muốn truy cập phải được phép của người quản lý số
liệu, (3) Mức độ thứ ba là những bộ số liệu chỉ có thể truy cập ở số liệu thứ
cấp, dùng cho những loại số liệu mật và số liệu không công bố; yêu cầu trích
dẫn cần được được ra đối với người sử dụng số liệu, mỗi người dùng số liệu
cần trích dẫn số liệu được điều tra từ cơ quan, tổ chức nào là người chịu trách
nhiệm về số liệu.
2.12. Quyền lợi và bản quyền (Disclaimer and copyright): Phần này nhà
sản xuất dữ liệu muốn khuyến nghị các nhà cung cấp dữ liệu chỉ chịu trách
nhiệm về dữ liệu chứ không chịu trách nhiệm với những báo cáo phân tích
dữ liệu của người sử dụng và bản quyền của các báo cáo phân tích số liệu đó.
20
2.13. Thông tin liên hệ (Contacts): Người sử dụng dữ liệu nhiều khi cần
các giải thích chi tiết và các thông tin khác mà không được lưu trữ trong cơ sở
(2) Nesstar Explor: Đây là công cụ được phát triển để đọc file Nesstar
do công cụ Metadata Editor tạo ra.
(3) CD-ROM Builder: Đây là công cụ dùng tạo ra một sản phẩm dữ liệu
khi đã tạo ra được tập tin Nesstar hoàn chỉnh của một cuộc điều tra. Để tạo
sản phẩm kết quả của cuộc Tổng điều tra Nông thôn, nông nghiệp và thủy sản
khi đã làm xong công việc thiết kế cho bộ dữ liệu và đã có tập tin
AC2006_V1.0 ta làm theo các bước sau:
- Mở ứng dụng CD-ROM Builder, kích chuột vào nút new CD-Rom
project màn hình hiển thị có dạng sau:
22
Tiếp theo vào thư mục chứa tệp tin AC2006_V1.0 lựa chọn và đưa vào
chương trình, chọn nhãn và ngôn ngữ cho sản phẩm, kích chuột vào nút kết
thúc khi đó màn hình xuất hiện toàn bộ những thông tin về cuộc Tổng điều tra
được khai báo ở công cụ Metadata Editor sẽ hiện ra và tại đây người sử dụng
cũng có thể sửa chữa nội dung cho phù hợp, màn hình hiển thị có dạng:
Trên màn hình hiển thị cho ta thấy tổng quan về cuộc điều tra như:
thông tin nhận dạng; quốc gia thực hiện cuộc Tổng điều tra; tên cuộc Tổng
điều tra; tên viết tắt của cuộc Tổng điều tra; Tên dịch theo tiếng Việt Nam;
loại điều tra (Tổng điều tra- điều tra toàn bộ)… Những thông tin này giúp
người sử dụng tin hiểu về cuộc Tổng điều tra.
23
Tiếp theo ta kích chuột vào nút tạo đĩa CD-Rom, lựa chọn một thư
mục để ghi toàn bộ thông tin, dữ liệu của cuộc tổng điều tra. Những thông
tin trong thư mục là sản phẩm cuối cùng của cuộc Tổng điều tra, có thể
phân phát các sản phẩm này đến tay người dùng tin bằng nhiều các như ghi
và quản lý dữ liệu của Tổng điều tra Nông thôn, Nông nghiệp và Thuỷ sản
năm 2006, và tham khảo hiệu quả thử nghiệm phần mềm này vào việc lưu
trữ các cuộc điều tra của các Vụ khác như Vụ Xã hội và Môi trường, Vụ
Thống kê Dân số và Lao động chúng tôi xin có một số những đánh giá của
phần mềm này vào việc lưu trữ thông tin các cuộc điều tra của Tổng cục
Thống kê như sau:
- Hiện tại phần mềm chưa có phiên bản tiếng Việt, các thông tin khai
báo cũng không chấp nhận tiếng Việt nên rất khó cho những người không
biết tiếng Anh khi sử dụng phần mềm, mặt khác do sử dụng tiếng Anh để
khai báo nên sản phẩm cũng chỉ phù hợp cho các tổ chức quốc tế, đơn vị
nghiên cứu trong và ngoài nước có sử dụng tiếng Anh. Tuy nhiên, đầu
tháng 12 vừa qua ESCAP đã cử một chuyên gia sang công tác tại Việt Nam
để tiếp tục hỗ trợ kỹ thuật trong việc tư liệu hoá các cuộc điều tra và tổng
điều tra và đã cam kết phần mềm phiên bản tiếng Việt sẽ đưa vào sử dụng
được trong 6 tháng tới.
- Phần mềm phù hợp với những cuộc điều tra mẫu hơn, còn đối với các
cuộc tổng điều tra lớn, dung lượng thông tin quá nhiều thì khó quản lý
được, nếu muốn sử dụng phải chia nhỏ theo từng tỉnh. Việc chia nhỏ theo
từng tỉnh sẽ phức tạp trong việc quản lý. Tuy nhiên, các cuộc tổng điều tra
lớn việc tổng hợp và lưu trữ số liệu được thực hiện bởi Trung Tâm tin học
Thống kê, Bởi vậy, những khó khăn phức tạp không phải là vấn đề lớn đối
với những cán bộ làm nhiệm vụ chuyên trách về tin học và công nghệ
thông tin.
- Phần mền này có thể áp dụng được rộng rãi với những cuộc điều tra
mà thông tin không cần phải bảo mật. Với việc lưu trữ bằng công cụ quản
lý dữ liệu vi mô sẽ dần hình thành nên chính sách phổ biến thông tin thân