GVHD:PGS- T S Lê Thanh Hươ ng
Nhóm 29:
Nguyễn Q u a ng Huy
Nguyễn Trọng Tú
Tr ầ n Đức Việt
Tìm hiểu cấu trúc google hiện tại và các kĩ thuật
xử lý trong tìm kiếm thông tin
I.Giới thiệu công cụ tìm kiếm
1.Công cụ tìm kiếm là gì?
Công cụ tìm kiếm(Search Engine) là một hệ thống thu thập
thông tin được thiết kế để giúp cho việc tìm kiếm thông tin lưu
trữ trên một hệ thống máy tính.Công cụ tìm kiếm cung cấp một
giao diện giúp cho người dùng có thể chọnthông tin cần tìm và
có cơ chế xử lý và tìm được thông tin tương ứng. Thông tin cần
tìm sẽ tương ứng với một câu truy vấn
2.Các thành phần của công cụ tìm kiếm:
Bộ thu thập thông tin(Robot)
Bộ lập chỉ mục
Bộ tìm kiếm thông tin
3.Nguyên tắc của công cụ tìm kiếm
Một công cụ tìm kiếm được gọi là thành công nếu nó thỏa mãn
được 3 điều kiện:
- Cho phép tìm kiếm trong một tập hợp lớn các trang web.
- Đưa ra kết quả gần với mong muốn của người sử dụng nhất.
- Tốc độ tìm kiếm chấp nhận được
3.Nguyên tắc của công cụ tìm kiếm
Gọi đến tập các trang mà trang X trỏ tới ).
INDEXING
Sử dụng 3 chỉ mục cơ sở này và các trang web, khối Phân Tích sẽ
xây dựnglên các chỉ mục gốc khác nhau. Ví dụ, sử dụng chỉ mục
liên kết và các thuật toán lặp PageRank, khối phân tích sẽ tính
toán và lưu trữ PageRank của mỗi trang trongcơ sở dữ liệu ( chỉ
mục PageRank ).
PAGE RANK
PageRank là một thuật toán được sử dụng trong công cụ tìm kiếm Google,được phát triển
tại Đại học Stanford bởi Larry Page và Sergey Brin trong nghiêncứu của họ
“The Anatomy of a Large-Scale Hypertextual Web Search Engine”
PAGE RANK
Chỉ số PageRank của một trang web là kết quả bầu chọn của tất
cả các trang web khác trên toàn thế giới cho website. Mỗi 1liên
kết ngược là 1 phiếu bầu. Các phiếu bầu này có mức độ ảnh
hưởng khác nhau,sự khác nhau đó phụ thuộc vào chất lượng của
mỗi trang đặt liên kết ngược.Một trang được liên kết đến bởi các
trang có PageRank cao sẽ nhận được PageRank cao. Nếu 1 trang
web không có liên kết nào đến thì sẽ không có phiếu bầu nào.
PAGE RANK
Công thức tính pagerank:
Đối với bất kỳ trang được liên kết đến các trang T1 thông qua Tn,
PageRank của trang A được xác định bởi phương trình sau đây:
PR (A) = (1-d) + d (PR (T1) / C (T1) + + PR (Tn) / C (TN))
Tháng 11-2011 Google chính th c thay đ i thu t toán Ranking c a ứ ổ ậ ủ
mình l y tên là Panda.ấ
Thu t toán Panda c g ng xác đ nh ngu n g c, tác gi c a n i dung và ậ ố ắ ị ồ ố ả ủ ộ
tăng th h ng cho trang đó, đ ng th i h th h ng c a t t c các ứ ạ ồ ờ ạ ứ ạ ủ ấ ả
trang có n i dung trùng l p v i n i dung trênộ ặ ớ ộ
V i t m nhìn rõ ràng c a ớ ầ ủ Google Panda là lo i b nh ng n i dung ạ ỏ ữ ộ
rác, n i dung copy, lo i b nh ng ộ ạ ỏ ữ website có th ng hi u kém…ươ ệ
Google Panda là b l c quan tr ng đ c i ti n các k t qu tìm ki m ộ ọ ọ ể ả ế ế ả ế
m i c a Google ớ ủ .
GOOGLE PANDA ALGORITHM
nh ng tiêu chí chính trong thu t toán Google Panda:ữ ậ
“Content is king”
Th i gian khách truy c p trên websiteờ ậ
T l khách hàng quay tr l iỷ ệ ở ạ
L ng n i dung g c trên site ho c m i trang.ượ ộ ố ặ ỗ
S l ng các link tr đ n trang web.ố ượ ỏ ế
M ng xã h iạ ộ
T l n i dung không trung th c (nh nhau trên t t c các trang).ỷ ệ ộ ự ư ấ ả
Google sẽ đếm số lượng các kết quả phù hợp và gọi là điểm số lượng. Sau đó sử
dụng 2 điểm này để tính ra điểm IR cho văn bản. Cuối cùng, điểm IR kết hợp với
PageRank để đưa ra kết quả cuối cùng
THANK YOU!