ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ BÁO CÁO CÔNG TRÌNH NGHIÊN CỨU KHOA HỌC
SINH VIÊN NĂM 2009
Đề tài:
XẾP HẠNG CÁC TRƯỜNG ĐẠI HỌC DỰA TRÊN ĐỘ ĐO WEB VÀ
ÁP DỤNG VÀO BÀI TOÁN XẾP HẠNG CÁC TRƯỜNG ĐẠI HỌC
VIỆT NAM Người thực hiện:
Trần Nam Khánh – K50HTTT
Phùng Văn Huy – K50HTTT
Nguyễn Tiến Thanh – K51CA
Giáo viên hướng dẫn:
PGS.TS Hà Quang Thụy
Cử nhân Nguyễn Thu Trang
Hà Nội, 2009
1
2
Mục lục
1. Giới thiệu 4
2. Khái quát về Webometrics 5
2.1. Xếp hạng trang web 5
2.2. Xếp hạng các thực thể trên web 7
2.3. Khái quát về Webometrics 10
3. Một số hệ thống xếp hạng trường đại học điển hình 13
3.1. Phương pháp chung 13
3.1.1. Thu thập dữ liệu 13
3.1.2. Xác định các tiêu chí đánh giá, tính điểm và đánh trọng số cho từng tiêu
chí. 13
3.1.3. Tổng hợp và công bố kết quả 15
3.2. Các hệ thống xếp hạng quốc gia 15
3.2.1. Mỹ - US News and World Report (USNWR) 15
3.2.2. Anh - Times Higher Education Supplement (THES) 15
3.2.3. Australia - Good Universities Giude (GUG) 16
3.2.4. Canada - Macleans Raking 16
3.3. Các hệ thống xếp hạng quốc tế 17
3.3.1. Hệ thống xếp hạng học thuật các trường đại học trên thế giới của trường
đại học Giao Thông Thượng Hải (Shanghai Jiao Tong University – SJTU) 17
3.3.2. Hệ thống xếp hạng các trường đại học quốc tế của Times Higher
Education Supplemen (THES) 18
Hình 6. Sử dụng máy tìm kiếm để xác định liên kết đến (inlinks)
Hình 7. Mô hình mở rộng phương pháp 2
Danh sách bảng biểu
Bảng 1.Các tiêu chí và trọng số trong xếp hạng của SJTU
Bảng 2. Bảng xếp hạng 5 trường hàng đầu theo TJTU (2008)
Bảng 3. Bảng xếp hạng 5 trường hàng đầu theo THES (2008)
Bảng 4: So sánh về độ bao phủ của Webometrics với ARWU và THES
Bảng 5: Bảng xếp hạng 10 trường hàng đầu thế giới theo Webometrics
Bảng 6: Các câu truy vấn trong xác định chỉ số V
Bảng 7. Các câu truy vấn xác định chỉ số S
Bảng 8: Câu truy vấn xác định chỉ số R
Bảng 9: Trọng số cho các chỉ số S, V, R, Sc
Bảng 10. Bảng xếp hạng các trường đại học Việt Nam
Bảng 11. Danh sách các trường Việt Nam được Webometrics xếp hạng
Danh sách biểu đồ
Biểu đồ 1: Mối quan hệ giữa các độ đo
Biểu đồ 2. So sánh kết quả kết quả thực nghiệm và webometrics
4
1. Giới thiệu
Chất lượng giáo dục được coi là đòn bẩy quan trọng bậc nhất để thúc đẩy sự
phát triển của một quốc gia, và là nguồn đầu tư mang lại lợi nhuận lớn nhất đối với
từng cá nhân. Xuất phát với mục tiêu ban đầu của việc xếp hạng các trường đại học là
đáp ứng các nhu cầu thông tin về các trường đại học của cha mẹ học sinh, sinh viên và
Phần còn lại của báo cáo sẽ được chức thành năm mục. Mục đầu sẽ trình bày
khái quát về Webometrics. Mục thứ hai sẽ giới thiệu về phương pháp chung thực hiện
trong xếp hạng trường đại học và các hệ thống xếp hạng quốc gia, quốc tế. Tiếp theo
5
báo cáo trình bày phương pháp xếp hạng trường đại học dựa trên độ đo web -
webometrics. Mục thứ tư sẽ trình bày mô hình thực nghiệm áp dụng phương pháp
trong xếp hạng các trường đại học tại Việt Nam. Mục cuối cùng sẽ đưa ra kết quả -
bảng xếp hạng- phân tích đánh giá kết quả và định hướng nghiên cứu
2. Khái quát về Webometrics
2.1. Xếp hạng trang web
Ngày nay với sự phát triển của Internet, người dùng đã có được một nguồn tài
nguyên tri thức phong phú, đa dạng. Tuy nhiên, do số lượng các trang web quá lớn,
con người không có đủ thời gian cũng như kiên nhẫn để mà có thể ghé thăm qua từng
trang cho tới khi tìm ra thông tin mình mong muốn. Chính vì lý do đó máy tìm kiếm ra
đời với cách thức hoạt động khá đơn giản và thân thiện: người dùng đưa ra từ khóa về
thông tin mong muốn, máy sẽ liệt kê ra các trang liên quan. Song thực sự thì lượng kết
quả máy cho là phù hợp với truy vấn của người dùng cũng không hề nhỏ! Do đó, đặt
ra yêu cầu xếp hạng các trang để máy hiển thị kết quả trả về tốt hơn cho người dùng.
Các trang web trên Internet được xây dựng và liên kết với nhau. Nếu coi mỗi
trang web là một điểm, và mỗi liên kết từ một trang web này tới một trang web khác là
một tia, thì ta có thể biểu diễn được tập hợp các trang web, mối quan hệ giữa chúng
bằng một đồ thị G - gọi là đồ thị Web. Đồ thị G là đồ thị có hướng. Mỗi đỉnh p
i
của G
tương ứng với một trang. Cung p
i
-> p
j
cho biết rằng trang ứng với đỉnh p
0 0 0 0
a a a a
a a a a
a a a a
a a a a
=
Ma trận chuyển P: p
ij
= 1/B(i) nếu trang i có liên kết trỏ tới j, bằng 0 trong các trường
hợp khác
1 1
2 2
11 12 13 14
1 1
2 2
21 22 23 24
31 32 33 34
thương hiệu của Google [PBMW98].
Ý tưởng: Độ quan trọng của một trang thừa hưởng một phần độ quan trọng từ
trang liên kết đến nó.
Công thức tính hạng trang p
iTrong đó: N là tổng số trang, d là hệ số hãm (qua thực nghiệm, tác giả công bố
chọn 0.85), M(p
i
) là tập các trang liên kết tới pi, L(p
j
) là số trang p
j
liên kết đến.
Ưu điểm của PageRank: đơn giản, tính toán nhanh, đáng tin; không phụ thuộc
vào truy vấn của người dùng, nội dung của trang web; có thể tính toán ngoại tuyến với
đầu vào là cấu trúc đồ thị web. Dĩ nhiên trên thực tế Google không chỉ sử dụng nguyên
PageRank “cổ điển” để xếp hạng trang.
Phương pháp HITS (Hyperlink-Induced Topic Search – KleinBerg)
Ý tưởng: Độ quan trọng của một trang web được xác định dựa trên 2 trọng số
authority và hub. Trang có hub tốt là trang có nhiều liên kết ra. Trang có authority tốt
7
là trang có nhiều liên kết tới. 2 trọng số này có quan hệ qua lại với nhau: trang trỏ tới
trang có authority cao thì trọng số hub càng cao, trang nào được nhiều trang có hub
cao trỏ tới thì trọng số authority càng cao.
Quá trình tính toán: Từ câu truy vấn, xác định tập nhân, mở rộng thành tập cơ
sở S gồm n trang. Ban đầu khởi tạo trọng số hub và authority cho mỗi trang bằng 1.
a
Nhận xét: Mạng blog là một loại của mạng xã hội. Chúng ta có thể mô hình hóa
bằng đồ thị G có hướng. Mỗi đỉnh ứng với một blogger. Cung AB chỉ ra rằng blogger
A có lời bình - nhận xét cho bài viết của B, và được đánh trọng số là tổng số lời bình,
nhận xét của A cho các bài viết của B. Khi đó dễ dang nhận thấy “liên kết thông qua
comment” giữa các blogger khá giống “liên kết” giữa các trang web. Vì thế chúng ta
có thể áp dụng PageRank sửa đổi để tính toán phục vụ việc xếp hạng. Sự sửa đổi ở đây
chính là ở trọng số lời bình - nhận xét.
Công thức áp dụng tính hạng cho blogger i
PR(i) =
Trong đó: N là tổng số blogger, α là hệ số hãm (0.85), N
j,i
là số lời bình - nhận
xét của j cho i, N
j
là số lời bình – nhận xét của j cho tất cả các blogger
2.2. Xếp hạng các thực thể trên web
Các máy tìm kiếm hiện nay: Google, Yahoo hay Live Search đều tâp trung tìm
kiếm dựa từ khóa mà không quan tâm đến dữ liệu. Cụ thể hơn thì các máy tìm kiếm
hiện nay có 2 hạn chế chính:
Indirect Input and Output. Người dùng không thể miêu tả chính
xác những gì họ cần do đó khi tìm kiếm người dùng có thể tìm vào
những trang web mà không có thông tin họ mong muốn. Tiếp đó,
người dùng không thể trực tiếp lấy những gì họ muốn. Vì họ phải
chọn lọc qua một danh sách các trang để tìm kết quả.
Singular Matching Mechanism. Máy tìm kiếm hiện nay tìm mỗi
trang một cách rất đơn giản chỉ bằng cách so sánh văn bản (text)
8
trên từng trang. Mặc dù thực thể kết quả có thể chứa trong nhiều
Hình 2. Mô hình chung của tìm kiếm thực thể
9
Xếp hạng thực thể là cốt lõi của máy tìm kiếm thực thể. Do đó, xếp hạng thực
thể đang nhận được sự quan tâm nghiên cứu của các nhà khoa học. Các nhân tố chung
ảnh hưởng đến việc xếp hạng:
- R-Contextual: Xác suất (từ khóa, thể hiện) sẽ khác nhau trong các ngữ cảnh
khác nhau.Chúng phụ thuộc vào các yếu tố:
o Pattern: Từ khóa và các thể hiện sẽ có một quan hệ thông thường
nhât định. Ví dụ: Tên công ty thường xuất hiện trước số điện thoại.
o Proximity: (Từ khóa và thể hiện) sẽ có xác suất không giống nhau
trong trang web. Sự kết hợp sẽ mạnh hơn khi chúng ở gần nhau hơn.
Ví dụ hình trên hiển nhiên thể hiện e
1
sẽ là thích hợp hơn với từ khóa
Amazon so với thể hiện e
6
- R-Holistic: Một thể hiện có thể xuất hiện cùng với từ khóa nhiều lần trong
một trang. Tất cả việc matchings sẽ được tổng hợp lại cho việc đánh giá xác
suất sự thích hợp của chúng
- R-Uncertainty: Việc trích chọn thực thể luôn luôn là không hoàn hảo. Do đó
luôn phải có một xác suất cho chúng.
- R-Associative: Chúng ta phải cẩn thận để phân biệt giữa việc kết hợp đúng
(từ khóa, thể hiện) và sự ngẫu nhiên. Do đó chúng ta cũng cần phải kiểm tra
lại tính hợp lệ của các kết hợp
R-Discriminative: Các thể hiện match trên trang phổ biến hơn sẽ được đánh
giá cao hơn so với các thể hiện trên trang ít phổ biến hơn.
Giả sử chúng ta có tập tài liệu D = {d
1
dụng các tài nguyên thông tin, cấu trúc và công nghệ trên Web trên cơ sở của phương
pháp bibliometric và informetrics” (nguyên văn tiếng Anh "The study of the
quantitative aspects of the construction and use of information resources, structures
and technologies on the Web drawing on bibliometric and informetric approaches").
Định nghĩa này vì vậy bao trùm tất các các thống kê định lượng cả về mặt xây
dựng (construction side) và mặt sử dụng (usage side) của Web bao gồm 4 lĩnh vực
chính của các nghiên cứu webometric hiện tại: (1) Phân tích nội dung trang Web; (2)
Phân tích cấu trúc liên kết Web; (3) Phân tích sử dụng Web (bao gồm các file log các
hành vi tìm kiếm và truy cập trang web của người sử dụng); (4) Phân tích công nghệ
Web (bao gồm hiệu năng, hoạt động của các máy tìm kiếm).
Định nghĩa trên đây đặt webometrics như là một thuật ngữ LIS đặc trưng song
song với bibliometrics và informetrics [BI04]. Điều này được nhấn mạnh bởi công
thức “Web drawing on bibliometric and informetric approaches” bởi “drawing on” chỉ
rõ một sự kế thừa không giới hạn sự phát triển bất cứ một phương pháp Web đặc biệt
nào, bao gồm sự hợp nhất các phương pháp nghiên cứu về Web trong khoa học máy
tính, phân tích mạng xã hội (social netwwork analysis), nghiên cứu siêu văn bản, đa
phương tiện và hơn thế nữa.
Trong [BI04], hai ông cũng đề xuất định nghĩa cho cybermetrics là một thuật
ngữ dùng để chỉ: “Nghiên cứu các thống kê định lượng của việc khởi tạo và sử dụng
các tài nguyên, cấu trúc và công nghệ thông tin trên toàn bộ Internet theo hướng tiếp
cận bibliometric và informetric” (nguyên văn tiếng Anh "The study of the quantitative
aspects of the construction and use of information resources, structures and
technologies on the whole Internet drawing on bibliometric and informetric
approaches").
Theo [BI04, Payn08, Rous08], cybermetrics vì vậy bao gồm các phương pháp
nghiên cứu thông kê của một nhóm thảo luận, danh sách địa chỉ email và các giao tiếp
máy tính gián tiếp khác trên mạng bao gồm cả Web. Bên cạnh việc bao phủ tất cả các
phương tiện giao tiếp gián tiếp khác sử dụng các ứng dụng Internet, định nghĩa này
cũng bao trùm cả các đo lường định lượng đối với công nghệ đường truyền Internet
Tuy nhiên, hiện nay, sau khi Pritchard và Nalimov, Mulchenko đưa ra các định
nghĩa của mình về bibliometrics và sciencometrics, hai khái niệm này đã được dùng
đồng nhất với một ý nghĩa là “sử dụng các phương pháp toán học và thống kê cho việc
phân tích các dữ liệu khoa học bao gồm sách và các dữ liệu khác” [Payn08, Rous08].
Biểu đồ 1 hơn nữa chỉ rõ, webometrics hoàn toàn nằm trong bibliometrics, bởi
vì các văn bản Web, cho dù là dạng văn bản hay đa phương tiện, đều là các thông tin
đã được mã hóa (theo như định nghĩa) lưu trữ trên các Web server. Các bản ghi này có
thể chỉ lưu trữ tạm thời, chỉ đơn giản vì không phải tất cả các bản ghi được lưu trữ.
Webometrics có một phần giao với scientometrics, vì rất nhiều các hoạt động học
thuật ngày nay diễn ra trên Web, trong khi đó, lại có các hoạt động khác thậm chí vượt
ra ngoài bibliometrics, ví dụ, những thứ không được ghi lại, chảng hạn các giao tiếp
giữa người với người. Hơn nữa, webometrics hoàn toàn nằm trong cybermetrics như
theo định nghĩa.
Trong biểu đồ 1, lĩnh vực cybermetrics nằm ngoài bibliometrics bởi vì một vài
hoạt động trong vùng của cybermetrics thông thường không được lưu trữ nhưng đúng
hơn là được giao tiếp đồng thời, chẳng hạn trong phòng chat. Cybermetrics nghiên cứu
các hoạc động mà nó vẫn nằm trong lĩnh vực thông thưởng của infometrics như là sự
nghiên cứu thống kê định lượng của thông tin ở bất cứ dạng nào và bất cứ nhóm xã hội
nào.
Một cách tự nhiên, ý tưởng lấy bibliometrics, scientometrics và informetrics là
điểm bắt đầu của việc phân tích trên web đã mở rộng lĩnh vực bibliometrics. Trên cơ
sở coi web như là một thư viện số, các công cụ và thủ thuật sử dụng trong phân tích
13
các cấu trúc tri thức trong thư viện giấy truyền thống được sử dụng trong môi trường
mới này. Các trang web được nhóm thành các miền (domain) có cùng thuộc tính cần
khảo sát, mỗi một miền được coi như là một node của hệ thống mạng và sau đó, sử
dụng các máy tìm kiếm phân tích các trích dẫn, liên kết (links) giữa các node rồi từ đó
sử dụng các phương pháp xác suất thống kê để tạo nên các độ đo giữa các node
domain này. Chính nhờ việc nhóm thành các domain mà webometrics trở thành một
Các đặc điểm bắt đầu (đại diện cho các đặc điểm, phẩm chất và năng lực
của sinh viên khi họ bắt đầu nhập học)
Đầu vào của việc học – nguồn lực tài chính, cơ sở vật chấtvà nhân viên
Môi trường học tập;
Sản phẩm của việc học tập (kỹ năng hoặc phẩm chất khác của sinh viên
có được sau khi tốt nghiệp)
Các kết quả cuối cùng (mục đích cuối cùng mà hệ thống giáo dục đóng
góp)
Nghiên cứu
Danh tiếng
Chẳng hạn bảng xếp hạng các trường đại học nghiên cứu của Hoa Kì (ĐH
Florida) cho rằng “không một chỉ số hay con số đơn lẻ nào có thể mô tả một cánh
chính xác một trường đại học đã đạt được những gì, có thê làm gì và sẽ làm gì” mà cần
có “một tập các chỉ số gôp chung lại có thể phản ánh rõ nét nhất những kết quả, năng
lực và điểm mạnh của trường”. Họ cho rằng, nghiên cứu là yếu tố quan trọng nhất để
chứng minh đại học nào là đại học tốt nhất và họ đã lựa chọn các chỉ số liên quan tới
nghiên cứu khoa học như tổng chi cho nghiên cứu và phát triển khoa học, tổng kinh
phí từ chính phủ liên bang cho các đề tài nghiên cứu, các giảng viên (số lượng viện sỹ,
tiến sĩ, giáo sư…), sinh viên, và thêm một vài chỉ số khác cho các nguồn lực khác hay
bảng xếp hạng Iberoamericano – Toàn bộ các nước thuộc Tây Ban Nha và Bồ Đào
Nha chỉ sử dụng một trọng số duy nhất: nghiên cứu.
Cũng có những bảng xếp hạng quan tâm tới yếu tố đầu vào như các đặc điểm
bắt đầu; đầu vào của việc học: nhân viên, nguồn lực…(như các bảng xếp hạng của
Hoa Kỳ, Anh Quốc, bảng xếp hạng của đại học Ukranian, La repubblica,
Rzezcspospolita, Exellencia, the Times, Maclean’s,….) Trong khi đó các bảng xếp
hạng quan tâm nhiều tới đóng góp cho lĩnh vực nghiên cứu (bảng xếp hạng của ĐH
Giao thông Thượng Hải dành tới 90% cho lĩnh vực nghiên cứu với các trọng số có
được từ việc đếm các trích dẫn trong hệ đo sách và dành rất ít trọng số cho các nguồn
lực đầu vào).
hạng được phân theo các ngành học – Kinh doanh, Luật, Y, Giáo dục, Kỹ thuật, Thư
viện học, và các chương trình đào tạo Tiến sĩ. Các chỉ tiêu (indicators) được USNWR
sử dụng để xếp hạng bao gồm 6 loại chính là danh tiếng học thuật, chọn lọc sinh viên,
nguồn lực đội ngũ, nguồn lực tài chính, tỷ lệ tốt nghiệp, và sự hài lòng của cựu sinh
viên. Việc “chấm điểm” của hệ thống USNWR chủ yếu dựa trên hai nguồn thông tin
chính: ý kiến của các học sinh tốt nghiệp trung học, những người thường đã cân nhắc
rất nhiều trước khi quyết định chọn học tại một trường cụ thể nào đó, và ý kiến đánh
giá của các nhà quản lý các trường đại học khác (không phải là trường được xếp hạng).
US News and World Report khẳng định rằng: mục đích của họ là giúp cho
sinh viên và phụ huynh xác định trường nào là phù hợp với họ về mặt học thuật, xã hội
và tài chính.
3.2.2. Anh - Times Higher Education Supplement (THES)
Hệ thống xếp hạng trường đại học phổ biến nhất ở Anh được thực hiện bởi báo
Times qua ấn phẩm phụ trương giáo dục đại học (Times Higher Education Supplement
– THES) bắt đầu năm 2001. HES sử dụng các nguồn dữ liệu được công bố chính thức
để thực hiện việc xếp hạng bao gồm:
16
* Cơ quan thống kê giáo dục đại học (Higher Education Statistics Agency)
* Hội đồng Ngân sách giáo dục đại học (Higher Education Funding Council)
* Cơ quan Đảm bảo chất lượng (Quality Assurance Agency)
* Cục Tiêu chuẩn giáo dục (Office for Standards in Education)
* Kết quả khảo sát riêng đối với một số trường đại học
Những tiêu chí được THES sử dụng để xếp hạng trường đại học bao gồm 10
loại như sau: điểm thi đầu vào, tỷ lệ giảng viên và sinh viên, dịch vụ nhà ở cho sinh
viên, tỷ lệ tốt nghiệp, số lượng sinh viên đạt điểm A, giá trị tăng thêm của nhà trường,
chi tiêu cho thư viện, số lượng sinh viên sau đại học, và việc làm của sinh viên sau khi
ra trường. So với các chỉ tiêu của USNWR, có thể thấy THES chú trọng nhiều hơn đến
quá trình đào tạo của nhà trường, và vì vậy có thể là một nguồn tham khảo đầy đủ hơn
cho người học so với hệ thống của USNWR.
đại học Giao Thông Thượng Hải (Shanghai Jiao Tong University – SJTU)
Theo N.C. Liu, and Y. Cheng [LC06], SJTU sử dụng 4 tiêu chí cho việc xếp
hạng bao gồm chất lượng cựu sinh viên (tính bằng số lượng cựu sinh viên đoạt các giải
thưởng và huy chương đặc biệt như giải Nobel), chất lượng giảng viên (tính theo cùng
phương pháp đo lường chất lượng cựu sinh viên), kết quả nghiên cứu (tính bằng số bài
báo đăng trên các tạp chí khoa học), tầm cỡ của nhà trường (tính bằng kết quả hoạt
động so với quy mô của nhà trường).
Tham số Tiêu chí Trọng số
Chất lượng giáo
dục
Số lượng cựu sinh viên đoạt các giải thưởng Nobel
và Fields
10%
Chất lượng giảng
viên
Số các nhà nghiên cứu giành giải Nobel từ 1911
đến 2007
Số các nhà nghiên cứu có nhiều trích dẫn trong các
ngành khoa học tự nhiên và xã hội
20 %
20%
Kết quả nghiên
cứu
Số các bài báo được công bố tại Nature and
Science từ 2003 – 2007
Số các bài báo được liệt kê trong Thomson
Scientific’s Science Citation Index Expanded
20%
Các chỉ tiêu được THES sử dụng cho việc xếp hạng bao gồm 5 loại: kết quả
khảo sát đồng nghiệp (các giảng viên, nhà khoa học) (40%), đánh giá của nhà tuyển
dụng (10%), sự hiện diện của giảng viên/ nhà khoa học quốc tế (5%), sự hiện diện của
sinh viên quốc tế (5%), tỷ lệ giảng viên trên sinh viên (20%), và tỷ lệ bài báo khoa học
trên giảng viên (20%).
So với ARWU vốn rất chú trọng đến các yếu tố bên ngoài trường đại học (các
bài báo, các công trình nghiên cứu, các giải thưởng, vv) THES chú trọng nhiều hơn
đến chính cộng đồng giảng viên và sinh viên và vì vậy được xem là một hệ thống bổ
sung rất tốt cho ARWU 19
Xếp hạng Tên trường Quốc gia
1 Harvard University Americas
2 Yale University Americas
3 Cambridge University Europe
4 Oxford University Europe
5 California Institution of Technology Americas
Bảng 3. Bảng xếp hạng 5 trường hàng đầu theo THES (2008)
4. Hệ thống xếp hạng trường đại học dựa trên độ đo Web
4.1. Giới thiệu
Năm 2004, “Webometrics Ranking of World Universities”, một sáng kiến của
phòng thí nghiệm Cybermetrics, một trung tâm nghiên cứu thuộc Consejo Superior de
13,000 2,000 520+
Số trường thực sự
được xếp hạng
4,000 500 200 (520)
Bảng 4: So sánh về độ bao phủ của Webometrics với ARWU và THES
Mục tiêu chính của bảng xếp hạng dựa trên độ đo web là khuyến khích các
trường – học viện có một “biểu diễn web” phản ánh tương đối đầy đủ và chính xác
hoạt động của mình. Nếu kết quả biểu diễn web của một trường – học viện nằm
dưới vị trí được mong đợi về chất lượng thì các nhà quản lý của đơn vị đó nên quan
tâm tới chính sách của họ về “biểu diễn web” của trường mình nhằm tăng số lượng
và chất lượng các xuất bản điện tử.
4.2. Phương pháp luận
Xếp hạng Webometrics sử dụng các dữ liệu thu thập trên web và dựa vào 4 chỉ
số (độ đo) để xếp hạng:
• S - (Size - kích cỡ trang web):Số lượng các trang web xuất hiện dưới
cùng một tên miền (domain) trên 4 công cụ tìm kiếm: Google, Yahoo,
Live Search, Exalead
• V - (Visibility - Khả năng nhận diện): Số các đường dẫn từ bên ngoài
liên kết đến các kết nối bên trong trên một tên miền được xác định dựa
trên 3 máy tìm kiếm: Yahoo, Live Search, Exalead.
• R - (Rich file): Số lượng các loại file Microsoft Word (doc), Adobe
Acrobat (pdf), Microsoft Powerpoint (ppt), Adobe PostScript (ps) được
xác định dựa trên máy tìm kiếm Google.
• Sc (Scholar - Các công bố nghiên cứu trên mạng): Số lượng các bài báo
khoa học, cùng các trích dẫn trên một tên miền trường qua công cụ
Google Scholar.
Xếp hạng dựa trên độ đo web có mối tương quan rất tốt đối với chất lượng giáo
dục và uy tín của trường
4.2.1. Thu thập dữ liệu
21
a
= ½ * ((G
a
+ Y
a
+ L
a
+E
a
) – max (G
a
,Y
a
,L
a
,E
a
) - min (G
a
,Y
a
,L
a
,E
a
))
Rich File:
R
a
Tên trường Quốc gia
Size Visibility Rich files Scholar
1
Massachusetts Institute
of Technology
Mỹ 1 3 2 6
2
Stanford University
Mỹ 2 2 3 12
3
Harvard University
Mỹ 3 1 17 1
4
University of California
Berkeley
Mỹ 6 4 5 24
5
Cornell University
Mỹ 4 5 8 37
6
University of Texas
Austin
Mỹ 10 6 15 22
7
California Institute of
Technology
Mỹ 8 8 21 17
8
California Institute of
trên vào bài toán xếp hạng trường đại học Việt Nam.
5.1. Xác định các chỉ số
5.1.1. Chỉ số nhận diện (V – Visibility)
Chỉ số đại diện cho khía cạnh ảnh hưởng giáo dục và sự nổi tiếng của trường đại
học. Ý tưởng chung cùa việc xác định chỉ số về khả năng nhìn thấy được dựa trên đồ
thị web với các link liên kết giữa các nút của đồ thị. Có hai phương pháp tiếp cận cho
việc thực thi ý tưởng trên áp dụng tại Việt Nam.
* Phương pháp tiếp cận thứ nhất
Xây dựng đồ thị web của các trường đại học Việt Nam. Trong đó các nút của đồ
thị là các website của các trường. Các link liên kết giữa các nút được xác định như sau:
Nút A link đến nút B nếu như có link liên kết từ trang web của trường A chỉ đến trang
web của trường B Kết quả của việc xác định trên cho ta một đồ thị toàn cảnh liên kết giữa các
trường đại học Hình 5. Đồ thị web các trường đại học
Sau khi xây dựng đồ thị web các trường đại học, chúng ta xác định xác link liên
kết đến (inlink) của từng trường ví dụ: inlink(A) = 0, inlink(B)=2, inlink(C)=1….Từ
đó xác định chỉ số V
A
B
Hình 6. Sử dụng máy tìm kiếm để xác định liên kết đến (inlinks)
Chúng tôi đưa ra tập các câu truy vấn thích hợp, cho qua máy tìm kiếm để xác
định số lượng các liên kết đến.
Dễ dàng nhận thấy ưu thế của phương pháp thứ 2: Đưa ra được ảnh hưởng của
các trường đại học với nhau, các trường đại học trong nước và ngoài nước, các tổ chức
giáo dục, các tổ chức xã hội trên cơ sở đồ thị web đã được xây dựng bởi máy tìm
kiếm. Tuy nhiên vấn đề đặt ra cho phương pháp thứ 2 đó là việc xác định câu truy vấn
như thế nào cho thích hợp với các máy tìm kiếm khác nhau, và việc chọn lựa máy tìm
kiếm nào cũng là một vấn đề cần xem xét kỹ lưỡng. Hiện tại, Google, Yahoo, Alta
vista là các máy tìm kiếm phổ biến nhất hiện nay, vì vậy chúng ta hoàn toàn có thể
chọn lựa các máy tìm kiếm trên để sử dụng trong phương pháp này. Với mỗi máy tìm
kiếm chúng ta xác định các tập câu truy vấn riêng
Việc đưa ra cách giải quyết cho vấn đề trên là hoàn toàn có thể chấp nhận được.
Tuy nhiên một vấn đề khác cũng được đưa ra: Trường đại học A có 100 website liên
kết đến trong đó có 70 website nói về giáo dục, 30 website nói về các lĩnh vực khác,
hoặc các báo tin tức. Trường đại học B có 100 website liên kết đến: 50 website nói về
giáo dục, 50 nói về các lĩnh vực khác. Như vậy có thể đánh giá theo khía cạnh giáo
Máy tìm kiếm
Câu truy vấn
Inlinks