ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THỐNG THÔNG TIN
KHOÁ LUẬN TỐT NGHIỆP Đề tài:
ĐÁNH GIÁ NĂNG LỰC NGHIÊN CỨU CỦA
CÁ NHÂN, TỔ CHỨC DỰA TRÊN PHÂN TÍCH,
TÍNH TOÁN CÁC CHỈ SỐ KHOA HỌC
Giảng viên hướng dẫn:
TH.S HUỲNH NGỌC TÍN
Cơ quan công tác: ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
T.S LƯƠNG PHÚC HIỆP
Cơ quan công tác: ĐẠI HỌC ARKANSAS, HOA KỲ
Sinh viên thực hiện:
TRẦN HƯNG NGHIỆP
MSSV: 07520245
Lớp: HTTT02
Khóa: 2007 – 2012
Tp. HCM, tháng 12 năm 2011
MỞ ĐẦU
Khoa học hiện nay đang phát triển rất mạnh, cùng với đó là số lượng bài
báo khoa học ngày càng tăng lên. Việc quản lý và khai thác các bài báo khoa
cô.
Tp. Hồ Chí Minh, tháng 12 năm 2011
Sinh viên thực hiện
Trần Hưng Nghiệp
NHẬN XÉT
(Của giảng viên hướng dẫn)
(Của hội đồng)
MỤC LỤC
MỞ ĐẦU i
LỜI CẢM ƠN ii
MỤC LỤC vi
DANH MỤC CÁC BẢNG ix
DANH MỤC CÁC BIỂU ĐỒ xi
DANH MỤC CÁC HÌNH xii
3.2 Thảo luận về các chỉ số xếp hạng 56
3.3 Thảo luận về các phương pháp xếp hạng 57
3.4 Phân tích cải tiến các hệ thống thư viện điện tử 58
3.5 Cách tiếp cận của đề tài 60
Chương 4: HIỆN THỰC HỆ THỐNG 62
4.1 Mở đầu 62
4.2 Chương trình thu thập dữ liệu 62
4.2.1 Khảo sát hiện trạng 62
4.2.2 Phân tích thiết kế 63
4.2.3 Cài đặt 82
4.2.4 Kết quả 86
4.3 Chương trình tính toán các chỉ số xếp hạng 87
4.3.1 Khảo sát hiện trạng 87
4.3.2 Phân tích thiết kế 87
4.3.3 Cài đặt 96
4.3.4 Kết quả 97
4.4 Hệ thống thư viện điện tử 102
4.4.1 Khảo sát hiện trạng 102
4.4.2 Phân tích thiết kế 102
4.4.3 Cài đặt 104
4.4.4 Kết quả 107
Chương 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ 110
5.1 Mở đầu 110
5.2 Thu thập danh sách giảng viên 110
5.3 Chuẩn hóa dữ liệu giảng viên và nhập liệu 113
5.4 Chương trình thu thập dữ liệu chỉ mục 114
5.4.1 Khảo sát hiện trạng 114
5.4.2 Phân tích thiết kế 115
5.4.3 Cài đặt 122
Bảng 4.6 – Các chỉ số được cài đặt cho các loại đối tượng. 87
Bảng 4.7 – Mô tả chi tiết các bảng lưu dữ liệu tính toán các chỉ số. 91
Bảng 4.8 – Dữ liệu mẫu 1 dùng để tính toán các chỉ số đánh giá. 97
Bảng 4.9 – Dữ liệu mẫu 2 dùng để tính toán các chỉ số đánh giá. 98
Bảng 4.10 – Cấu hình phần cứng 1 98
Bảng 4.11 – Cấu hình phần cứng 2 99
Bảng 4.12 – Kết quả thử nghiệm cài đặt các chỉ số. 99
Bảng 5.1 – Các tổ chức và nguồn dữ liệu danh sách giảng viên tương
ứng. 111
Bảng 5.2 – Thuật giải của quy trình thu thập dữ liệu. 117
Bảng 5.3 – Các mẫu url được dùng trong crawler 119
Bảng 5.4 – Các mẫu dùng trong phân tích html để lấy dữ liệu. 120
Bảng 5.5 – Kết quả thu thập dữ liệu chỉ mục. 125
Bảng 5.6 – Các chỉ số được cài đặt cho các loại đối tượng. 127
Bảng 5.7 – Kết quả tính toán số lượng giảng viên. 131
Bảng 5.8 – Kết quả tính toán số lượng bài báo. 132
Bảng 5.9 – Kết quả tính toán số lượng trích dẫn. 134
Bảng 5.10 – Kết quả tính toán số trích dẫn trung bình của một bài báo. 135
Bảng 5.11 – Kết quả tính toán chỉ số H-index. 137
Bảng 5.12 – Kết quả tính toán chỉ số G-index. 138
Bảng 5.13 – Tổng hợp kết quả tính toán. 140
Bảng 5.14 – Tổng hợp kết quả xếp hạng. 142
DANH MỤC CÁC BIỂU ĐỒ
Biểu đồ 4.1 – Biểu đồ thời gian tính toán các chỉ số. 101
Biểu đồ 5.1 – Biểu đồ số lượng giảng viên các tổ chức. 132
Hình 2.20 – Chức năng biểu diễn mối quan hệ các tác giả theo đồ thị
MAS. 47
Hình 2.21 – Xem nội dung trích dẫn MAS. 48
Hình 2.22 – Xem xu hướng nghiên cứu khoa học trong các lĩnh vực
MAS. 49
Hình 2.23 – Xem thông tin bổ sung về tổ chức của tác giả MAS. 49
Hình 2.24 – Khung tìm kiếm cơ bản của Google Scholar 51
Hình 2.25 – Khung tìm kiếm nâng cao của Google Scholar. 52
Hình 2.26 – Kết quả tìm kiếm các bài báo và bằng sáng chế với từ khóa
“data”. 52
Hình 2.27 – Khung tìm kiếm cơ bản của CiteSeerX. 54
Hình 2.28 – Khung tìm kiếm nâng cao của CiteSeerX. 55
Hình 2.29 – Kết quả tìm kiếm CiteSeerX với từ khóa “data”. 55
Hình 4.1 – Duyệt danh sách các đối tượng trên trang MAS. 63
Hình 4.2 – Màn hình chính của hệ thống PubGuru. 108
Hình 4.3 – Màn hình tìm kiếm nâng cao của hệ thống PubGuru. 108
Hình 4.4 – Kết quả tìm kiếm PubGuru với từ khóa “data”. 109
Hình 5.1 – Tìm kiếm tác giả trên MAS với từ khóa “Hoang Van Kiem”. 115
Hình 5.2 – Mô hình hoạt động của chương trình ở bước một. 118
Hình 5.3 – Mô hình hoạt động của chương trình ở bước ba. 118
DANH MỤC CÁC SƠ ĐỒ
Sơ đồ 4.1 – Mô hình hoạt động của crawler. 64
Sơ đồ 4.2 – Mô hình ERD cơ sở dữ liệu của chương trình. 73
Sơ đồ 4.3 – Kiến trúc phân tầng của hệ thống thu thập dữ liệu. 83
Sơ đồ 4.4 – Mô hình các bảng lưu dữ liệu tính toán các chỉ số. 90
Sơ đồ 4.5 – Sơ đồ cấu trúc hệ thống PubGuru. 103
bài báo khoa học trở thành một nhu cầu thiết yếu. Nhiều thư viện điện tử đã
được phát triển để phục vụ nhu cầu này. Một số thư viện lớn thương mại hóa có
thể kể đến như Institute of Electrical and Electronics Engineers (IEEE)
4
,
Association for Computing Machinery (ACM)
5
, SpringerLink
6
… Những thư
viện miễn phí gồm có Microsoft Academic Research (MAS), Google Scholar
7
,
1
2
3
4
5
6
7
nghiệm trên các cá nhân, tổ chức làm việc trong lĩnh vực công nghệ thông tin ở
8
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 3 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Tp. Hồ Chí Minh. Từ đó đề xuất xây dựng một hệ thống thư viện điện tử thực
tế có các đặc trưng cần thiết để ứng dụng các chỉ số này phục vụ người dùng ở
Việt Nam.
1.3 Mục tiêu đề tài
Dựa trên ngữ cảnh bài toán, mục tiêu chính đề tài của chúng tôi là thu thập
và tổ chức một lượng lớn dữ liệu chỉ mục trong lĩnh vực công nghệ thông tin.
Đồng thời xây dựng mô hình ứng dụng và tính toán các chỉ số đánh giá xếp
hạng. Sau đó đề xuất xây dựng một hệ thống thư viện điện tử thực tế có các đặc
trưng cần thiết để phục vụ môi trường nghiên cứu ở Việt Nam.
Đề tài cũng sẽ tiến hành thực nghiệm các chỉ số trên dữ liệu chỉ mục về các
tổ chức làm việc trong lĩnh vực công nghệ thông tin ở Tp. Hồ Chí Minh.
1.4 Cấu trúc báo cáo
Cấu trúc báo cáo được mô tả theo trình tự sau. Ở chương I, chúng tôi giới
thiệu tổng quan về ngữ cảnh bài toán cũng như mục tiêu đề tài. Chương II,
chúng tôi khảo sát các nghiên cứu liên quan. Chương III nêu cách tiếp cận của
đề tài. Chương IV, chúng tôi trình bày về các chương trình được hiện thực và
đề xuất xây dựng hệ thống thư viện điện tử. Chương V sẽ trình bày một case
study về việc thực nghiệm đánh giá các tổ chức làm việc trong lĩnh vực công
nghệ thông tin ở Tp. Hồ Chí Minh và nêu một số đánh giá, đề xuất cải tiến.
Phần kết luận và một số hướng phát triển được trình bày trong chương V.
theo một phương thức nhất định nào đó (dựa vào những liên kết có bên trong
các seeds). Sau đó thêm chúng vào danh sách các địa chỉ đã được duyệt qua gọi
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 5 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
là Crawl frontier. Hệ thống sẽ lặp lại quá trình trước đó để duyệt qua những
URL mới. Quá trình Crawling trên internet có thể sẽ qua rất nhiều địa chỉ
Website và thu thập rất nhiều nội dung khác nhau từ các địa chỉ đó. Hình sau
mô tả kiến trúc của một web crawler chuẩn [WikiWC]:
Hình 2.1 – Kiến trúc cấp cao của một web crawler chuẩn.
Trong đề tài này, Web Crawler được xây dựng để thu thập dữ liệu các bài
báo từ thư viện số Microsoft Academic Search (MAS), sau đó xây dựng cơ sở
dữ liệu để xây dựng hệ thống thử nghiệm. Hệ thống crawler sẽ rút trích thông
tin chỉ mục của bài báo bằng cách sử dụng các trình phân tích kết hợp với các
luật đã được định nghĩa trước.
2.3 Các phương pháp xếp hạng phổ biến
2.3.1 Giới thiệu
Trong số các phương pháp xếp hạng dựa trên việc phân tích mạng thì nổi
tiếng nhất có lẽ là thuật toán PageRank của Google với ứng dụng trong máy
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 6 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
tìm kiếm Google Search. Chính PageRank đã giúp Google Search đánh bại các
đối thủ của nó trên thị trường tìm kiếm trên internet ngay khi mới ra đời và
giúp Google lớn mạnh như ngày nay. Sau này có một số thuật toán khác tương
tự PageRank được đề xuất và cũng khá thành công khi ứng dụng thực tế. Tuy
nhiên các thuật toán thuộc nhóm PageRank có một số nhược điểm nhất định
khi xếp hạng các đối tượng, sau này nhiều thuật toán khác đã ra đời để khắc
phục các điểm yếu này, nổi bật trong đó có PopRank. Phần này sẽ khảo sát hai
a. PageRank đơn giản
Gọi là một đồ thị các trang Web. Đặt với là
tập đỉnh của đồ thị (mỗi đỉnh là một trang Web cần tính hạng trang) còn
là tập các cạnh, .
Để đơn giản hóa vấn đề, chúng ta giả thiết rằng đồ thị trang Web là liên thông,
nghĩa là từ một trang bất kì có thể có đường liên kết tới một trang Web khác
trong đồ thị đó.
Cho một đồ thị trang Web như trên. Với mỗi trang Web , ký hiệu
là
số liên kết đi ra từ trang Web thứ và
là số các trang Web có liên kết đến
trang .
Khi đó hạng trang
của trang Web được định nghĩa như sau:
(1)
Hạng trang
như sau:
o
nếu không có liên kết từ trang đến trang .
o Và
được chuẩn hóa để với mỗi thì
Trong đồ thị G đang xét, ta có thể chọn giá trị sau:
Lưu ý rằng ma trận P có các phần tử đều không âm và tổng các phần tử
thuộc cùng một cột của ma trận P bằng một, do đó P là một ma trận ngẫu nhiên.
Vì vậy, thuật toán PageRank cũng chính là một biến thể của phương pháp độ
đo tính trung tâm với vector riêng (eigenvector centrality measure) được dùng
phổ biến trong phân tích mạng. Phương trình trên cho thấy vector PageRank
Thuật toán tính theo phương pháp lũy thừa
1. Chọn vector .
2. .
3. Nếu
, dừng lại, là vector riêng cần tính.
4. Nếu không, , quay lại bước 2.
c. PageRank trong thực tế
PageRank đơn giản không thể dùng trong đồ thị web thực tế, vì khi đó
chuỗi vector
có thể không hội tụ, có thể phụ thuộc vào
, và có thể
không phản ánh được hạng trang web thực tế. Ta sẽ xét cụ thể từng trường hợp
và chỉnh sửa lại PageRank cho phù hợp.
Để thuận tiện, ta định nghĩa mô hình người duyệt web ngẫu nhiên:
Quá trình tính toán PageRank có thể được xem như hành động của một
người đang duyệt Web ngẫu nhiên. Ta tưởng tượng rằng có một người dùng
duyệt Web bằng cách đi theo các liên kết trên các trang Web mà họ viếng thăm
một cách ngẫu nhiên. Cách duyệt ngẫu nhiên này tương đương với việc di
chuyển ngẫu nhiên trên một đồ thị có hướng. Nó thể hiện rằng vector
PageRank tỉ lệ với phân phối xác suất dừng của một quá trình ngẫu nhiên. Nó