Sức mạnh bộ máy tìm kiếm và khả năng lưu trữ của Google, điên rồ hay thiên tài (Bài tiểu luận chuyên đề về “Data Mining): - Pdf 22

Học viện công nghệ bưu chính viễn thông
Bài tiểu luận chuyên đề về “Data Mining”:
Sức mạnh bộ máy tìm kiếm và khả năng lưu trữ của Google,
điên rồ hay thiên tài.
Giáo viên : Trần Đình Quế.
Sinh viên: Lê Công Linh.
Lớp: D07CNPM1.
Hãy quan tâm tới điều không thể, hãy thử làm những gì mà hầu hết
mọi người chưa nghĩ tới.
Đó là phương châm của những nhà sáng lập Google.
Mục Lục
Bài tiểu luận chuyên đề về “Data Mining”: 1
Sức mạnh bộ máy tìm kiếm và khả năng lưu trữ của Google, điên rồ hay thiên tài 1
Mục Lục 1
I.Google 3
1.1.Sơ lược về Google 3
1.2.Hoạt động 5
II.Data mining - Web mining 6
1.Data mining 6
1.1.Data mining là gì? 6
1.2.Data mining là một bước trong qúa trình khai phá dữ liệu 7
2.Web mining 9
2.1.Khai phá cấu trúc Web 9
2.2.Khai phá nội dung Web 10
2.3.Khai phá sử dụng Web 12
2.4.Tóm lược 13
III.Sự phát triển Search Engine của Google 13
1.1.Giới thiệu 13
1.2.So sánh Search Engine truyền thống (keyword - text Search Engine) và Semantic Search Engine 16
1.2.1.Search Engine truyền thống (keyword - text Search Engine) 16
1.2.2.Semantic Search Engine 16

tđQuế đem ra so sánh

].Vậy thì làm thế nào để nó có thể quản lý được số máy chủ
này. Hơn nữa khi ta nhập một từ khoá vào với số máy chủ lớn như thế nó làm thế nào
để biết được là sẽ tìm kiếm ở máy chủ nào, chả nhẽ lại tìm tất cả các máy chủ trên thế
giới. Đến đây lại nảy sinh vấn đề mới, khi mình đánh một từ khoá vào thì kết quả
chắc không phải chỉ ở một máy chủ. Vậy làm thế nào để các thông tin ở các máy chủ
không bị chồng lắp nhau và biết thông tin đang ở máy chủ nào.
Chúng ta biết rằng Google luôn trả cho chúng ta kết quả tìm kiếm tốt nhất, thông
minh nhất Nó còn thông minh hơn nếu như chúng ta luôn tìm kiếm thông tin bằng
cách đăng nhập vào hệ thống của Google, chúng ta có thể thử bằng cách tìm một từ
khóa chuyên biệt khi không đăng nhập và khi đăng nhập, nói chung kết quả sẽ khác
1 | P a g e
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.
nhau, và hầu hết là kết quả khi chúng ta đăng nhập sẽ có độ chính xác với mục đích
tìm kiếm của bạn cao hơn so với khi không đăng nhập. Bạn có biết tại sao không?
Với sự lớn mạnh của các tài liệu web và text, Web mining và text mining đang trở
nên quan trọng hơn và phổ biến hơn. Web mining, Search Engine sẽ là chủ đề
chính của tiểu luận này, nhằm làm rõ sức mạnh của cỗ máy tìm kiếm của Google.
Khai phá web nhằm mục đích khám phá thông tin và tri thức hữu ích từ cấu trúc
hyperlink Web, nội dung trang web, và cách sử dụng dữ liệu của trang web. Với bài
tiểu luận nhỏ này sẽ giúp được phần nào làm rõ các vấn đề trên.
Nội dung bài tiểu luận gồm các phần :
• Sơ qua về Google. Tham vọng và nguồn thu của họ.
• Nhắc lại Dataming. Google và các đại gia khác có gì tốt hơn khi sử dụng
datamining.
• Web mining và phân loại webmining. Google đã vận dụng như thế nào cho
cỗ máy tìm kiếm khổng lồ của mình.
• Khác biệt giữa Search Engien truyền thống và Semantic Search Engine.
Google sử dụng và từng bước phát triển cỗ máy tìm kiếm của mình như thế

Trường đại học Stanford ngay lần thi đầu tiên, và dễ dàng tham gia nhóm nghiên cứu
cùng các giáo sư. Tháng 1-1996, Page và Brin cùng các sinh viên và cán bộ giảng
dạy khoa tin học Trường Stanford chuyển đến một nơi mới: một tòa nhà đẹp bốn tầng
ốp đá màu be có khắc dòng chữ Khoa tin học William Gates. Chủ tịch Hãng
Microsoft - Bill Gates - đã đóng góp 6 triệu USD để xây dựng tòa nhà, với số tiền đó
Bill Gates có quyền đặt tên cho tòa nhà. Page ở phòng Gates 360 cùng với bốn sinh
viên khác. Brin được phân sang một văn phòng khác, nhưng anh vẫn dành nhiều thời
gian làm việc với Page ở phòng Gates 360.
Phòng Gates 360 trông giống như một khu rừng nhỏ, với các cây thân leo vắt vẻo
trên trần nhà. Trong một góc phòng, dưới gầm bàn của Page, họ xếp mô hình một
3 | P a g e
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.
chiếc máy tính từ các mảnh ghép Lego. Cả hai đều không bao giờ nghĩ rằng đến một
ngày họ sẽ cạnh tranh với người khổng lồ Bill Gates.
Một trong những chủ đề Page thích bàn luận lúc đó là phát minh các hệ thống khai
thác dữ liệu ưu việt hơn. Họ thành lập một đội nghiên cứu mới mang tên MIDAS,
viết tắt của cụm từ Mining Data at Stanford (khai thác dữ liệu Trường Stanford).
Trong truyền thuyết Hi Lạp, Midas là vị vua có khả năng kỳ diệu: chạm vào cái gì,
cái đó biến thành vàng.
Trong khi khai thác dữ liệu, họ làm thí nghiệm sắp xếp sao cho tiện lợi thông tin
trên mạng Internet đang phát triển mạnh mẽ nhưng tổ chức lộn xộn. Vào giữa những
năm 1990, hàng triệu người truy cập và bắt đầu giao tiếp qua thư điện tử, nhưng các
nhà nghiên cứu nghiêm túc bắt đầu bực mình giữa một “rừng” trang web. Trong khi
đó, các sinh viên bậc tiến sĩ Trường Stanford, Jerry Yang và David Filo, đã tìm kiếm
theo phương pháp khác. Không chỉ dựa vào mỗi công nghệ, họ thuê một đội ngũ biên
tập viên ngồi lựa chọn các trang web theo thứ tự bảng chữ cái. Họ đặt tên cho công ty
của mình là Yahoo!.
Mặc dù phương pháp của họ đã đơn giản hóa chỉ tìm kiếm những thông tin giá trị,
nhưng nó vẫn chưa toàn diện và không theo kịp được sự phát triển như vũ bão của
các trang web. Brin cũng đã từng thử các công cụ và danh bạ tìm kiếm khác nhưng

bom tấn” làm mọi người tưởng là chuyện cá tháng tư nhưng hóa ra lại là sự thật: hệ
thống thư điện tử Gmail. Dung lượng lưu trữ của Gmail lớn hơn gấp 500 lần dung
lượng dự trữ miễn phí của Microsoft và gấp 250 lần dung lượng miễn phí của Yahoo.
Google thông báo cho người sử dụng dịch vụ Gmail biết rằng họ sẽ không bao giờ
phải xóa bỏ các thư điện tử cũ. “Bom tấn” với dịch vụ thư điện tử Gmail có dung
lượng cực lớn khiến các “ông lớn” về email như Yahoo và Microsoft sau đó phải
"chạy theo" cung cấp email dung lượng lớn miễn phí cho người dùng.
Sau đó, Google tiếp tục đưa ra “món” Tin tức Google và Google Alerts - dịch vụ
thông báo tin tức tự động cho người tìm kiếm các chủ đề quan tâm cụ thể thông qua
thư điện tử. Hàng triệu người đăng ký sử dụng dịch vụ thông báo và dịch vụ này đã
đem lại lợi ích cho những người quan tâm tới một công ty, tổ chức, cá nhân hay chủ
đề tin tức nào đó.
Ngày nay, hàng chục triệu người thường xuyên tìm kiếm thông tin trên Google
bằng ngôn ngữ bản xứ của họ. Họ có thể lựa chọn trong danh sách có tới gần 100
ngôn ngữ. Họ tìm kiếm trên Google mọi thứ từ các thành phần cần thiết cơ bản cho
một món ăn đến việc mua bán nhà cửa, giáo dục, giải trí và tất nhiên là cả tình dục.
Trên khắp thế giới, từ những nhà kinh doanh cho tới các nhà đầu tư và các luật sư
của họ đều sẽ nghĩ rằng họ thật khờ khạo nếu như làm ăn với một đối tác nào đó mà
không tìm hiểu về đối tác thông qua Google. Các tác giả viết sách đều tìm thông tin
5 | P a g e
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.
và các nguồn tài liệu nhanh chóng bằng cách sử dụng Google. Các quan chức cấp cao
trong chính phủ sử dụng Google để tự mình tìm các tài liệu mà không cần đến người
phụ giúp.
II. Data mining - Web mining.
 Nội dung phần này chúng ta nhắc lại về khái niệm về data mining và cấu trúc của
web mining để từ đó làm sáng rõ cơ chế của cỗ máy “Search Engine” Google.
 Giới thiệu về data mining.
 Cấu trúc webmining.
1. Data mining.

cực kỳ hữu ích mà rất dễ bị bỏ qua hoặc không xem xét đến để có thể dự đoán những
xu thế/hành động xảy ra trong tương lai.
1.2. Data mining là một bước trong qúa trình khai phá dữ liệu.
Khám phá dữ liệu là một quá trình được mô tả trong Hình 1.2 (1) và bao gồm
một chuỗi lặp đi lặp lại theo các bước :
• Làm sạch dữ liệu (Data Cleaning): loại bỏ dữ liệu mâu thuẫn nhau.
• Tích hợp dữ liệu (Data Integration): Nhiều nguồn dữ liệu có thể được kết hợp lại¹.
• Chọn lọc dữ liệu (Data Selection): Những dữ liệu có liên quan đến nhiệm vụ phân
tích được lấy ra từ cơ sở dữ liệu.
• Biến đổi dữ liệu (Data Transformation): Dữ liệu được biến đổi hay hợp nhất thành
những dạng thích hợp cho việc khai phá bằng các hành động tổng hợp hay tập hợp
chúng).
• Khai phá dữ liệu (Data Mining): một quy trình mà tại đó các phương thức thông
minh được áp dụng để rút ra các mẫu dữ liệu.
• Đánh giá dữ liệu (Data Evaluation): để xác định các mẫu dữ liệu thật sự có giá trị
mô tả tri thức dựa trên các đơn vị đo(intestingness measure).
• Trình bày dữ liệu (Data presentation): Sự hình dung và các kỹ thuật mô tả tri thức
được sử dụng để trình bày những tri thức khai thác được cho người dùng.
Với trang Amazon, tại sao Amazon lại có thể đưa ra danh sách các quyển sách bán
kèm có tỷ lệ bán được cao như vậy? Để làm được điều này Amazon đã đầu tư phát triển
hệ thống recommendation trong hàng chục năm, thời gian dài đó không chỉ là phát triển
thuần túy công nghệ mà còn là quãng thời gian thu thập và phân tích hành vi người sử
dụng trên site của Amazon, thời gian càng dài, dữ liệu thu thập càng lớn, dẫn đến tập
thông tin có độ tương quan càng nhiều và càng chính xác. Nôm na bạn có thể hiểu là 100
khách hàng mua quyển sách ABC thì có tới 40 khách hàng đồng thời mua quyển sách
DEF, vì thế với khách hàng 101 xem quyển ABC, hệ thống nhận diện và đưa ra gợi ý
mua them quên DEF, đơn giản là vậy, tuy nhiên bên dưới còn có nhiều tham số khác để
tăng độ tương quan lên nữa. Và đây cũng là một quá trình mining dữ liệu.
7 | P a g e
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.

một ứng dụng khai phá dữ liệu truyền thống do tính chất không nhất quán và nửa cấu
trúc hoặc không có cấu trúc của dữ liệu Web. Nhiều tác vụ khai phá mới và các thuật
toán đã được khám phá trong thập kỷ qua. Căn cứ vào các kiểu dữ liệu chủ yếu được
dùng trong quá trình khai phá, các tác vụ khai phá Web có thể được phân loại thành 3
kiểu:
 Khai phá cấu trúc Web (Web structure mining).
 Khai phá nội dung Web (Web content mining).
 Khai phá sử dụng Web (Web usage mining).
2.1. Khai phá cấu trúc Web
Khám phá tri thức hữu dụng từ các hyperlink(liên kết ngoài), mà thể hiện cấu trúc
của Web, ví dụ, từ các link chúng ta có thể khám phá các trang Web quan trọng, đó là
một công nghệ chính được sử dụng trong các công cụ tìm kiếm không chỉ của riêng
Google. Chúng ta cũng có thể khám phá những vấn đề thường thu hút những người
sử dụng. Khai phá dữ liệu truyền thống không thể thực hiện những chức năng như
vậy bởi vì thông thường không có cấu trúc liên kết trong bảng quan hệ.
Sử dụng khai phá cấu trúc Web làm giảm thiểu 2 vấn đề chính của world wide
web do lượng thông tin quá lớn.
• Vấn đề thứ nhất là các kết quả tìm kiếm không liên quan.
• Vấn đề thứ hai là không có khả năng chỉ số lượng lớn nếu nếu thông tin được cung
cấp trên web.(the second of these problems is the inability to index the vast
amount if information provided on the web).
9 | P a g e
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.
Bất cứ các máy tìm kiếm nào cũng có cơ chế thu thập dữ liệu, gọi là crawler
hoặc spider hoặc web robot (gọi tắt là web bot). Máy này duyệt web theo các link,
và nhờ đó, sẽ có được toàn bộ những gì có thể xem được trên internet công cộng.
Ngoài ra những người quản trị web cũng có gửi cho google những link riêng để link
đó sớm được cập nhật: . Thường sau khi báo cho
google thì trong vòng 1 tuần máy thu thập thông tin của google sẽ ghé thăm, và trong
vòng 1 tuần sau nữa thì nội dung đó được xử lý xong và có thể tìm thấy được. Mỗi

 Crawler: Duyệt mạng các trang web để thu thập các trang web về, xử lý, lưu trữ và
đồng thời lập ra đồ thị web cục bộ. Phương pháp duyệt là duyệt theo chiều rộng, mỗi
tầng của cây duyệt được coi là 1 vòng. Cứ sau một thời gian định trước, các trang web
này sẽ được cập nhật lại tuỳ theo tốc độ thay đổi của trang.
Với ứng dụng GoMobile của TMS [dowload tại: ] các bạn
khi sử dụng sẽ thấy muôn vàn các ứng dụng khác nhau, từ Đọc báo, đến xem Thời
tiết, Bói toán - tử vi, xem ngày tốt xấu, xổ số Rồi thì như Socbay hay là
Imedia Lấy ví dụ về ứng dụng Đọc báo, ta sẽ thấy trong nó có rất nhiều các loại báo
khác nhau, từ Dân Trí, Vnexpress, Kênh 14, Hoa học trò Điều đáng nói ở đây là họ
sẽ phải bắt tay với tất cả các báo để được “ban phát cho một kênh” chọc vào
database của họ, truy vấn để có được nội dung thông tin từng ngày thì sẽ phải trả một
khoản tiền rất chi là lớn, và có thể, chưa chắc đã được các Báo đó hợp tác. Vậy thì cần
phải có 1 webbot, một ứng dụng tự động chuyên lấy nội dung của các trang, thu thập
về, xử lý bóc tách và lưu trữ các thông tin cần thiết.
/ *
* Ví dụ về 1 webbot có khả năng lấy nội dung thông tin trang web qua
phương pháp crawler.
*/
private static void crawlerDanTri() {
String url = " />HTMLParser parser = new HTMLParser();
parser.loadURL(url);
String html = parser.getHtml();
parser.filter("div","class:content");
parser.setHtml(parser.getNodeAt(0).getHtml());
parser.filter(new HTMLNodeFilter());
parser.exclude("form", null);
SimpleHtmlOption option = new SimpleHtmlOption();
option.setBaseUrl("");
option.setTdStartMark(" | ");
System.out.println(parser.getNodeAt(0).getSimpleHtml(option));

dùng cao hơn). Điều này liên quan tới thuật toán PageRank tức là xếp hạng trang
web sẽ được nói ở phần cuối.
2.3. Khai phá sử dụng Web
Liên quan tới khám phá các mẫu truy cập của người dùng từ bản ghi sử dụng
Web, trong đó lưu lại mỗi lần thao tác click(click mouse) của mỗi người sử
dung.khai phá sử dụng Web áp dụng nhiều thuật toán khai phá dữ liệu. .một trong
các vấn đề chính của khai phá sử dụng web là tiền xử lý dữ liệu trong click chuột
trong viêc sử dụng các bản ghi để tạo ra các dữ liệu phù hợp để khai phá.
Câu hỏi tại sao kết quả tìm kiếm của Google lại khác nhau khi đăng nhập và
khi không đăng nhập? Đến đây có lẽ chúng ta đã có thể hình dung được câu trả lời.
Câu trả lời ngắn gọn là: Khi bạn đăng nhập, thì Google sẽ biết bạn là ai, biết hành vi
12 | P a g e
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.
trong quá khứ của bạn như thế nào (thông qua quá trình thu thập dữ liệu hành vi của
bạn trên các site mà Google hiện diện), do đó nó dựa vào sự hiểu biết này nên kết quả
trả về bao giờ cũng là kết quả có độ chính xác với nhu cầu của bạn cao nhất và ngược
lại, khi không đăng nhập, Google chỉ trả về kết quả ranking bình thường mà không
có kèm theo tham số ranking theo user. Và dĩ nhiên để biết được hành vi trong quá
khứ của bạn, Google phải sử dụng đến các công nghệ web mining.
2.4. Tóm lược
 Web structure mining: cố gắng khám phá tri thức hữu dụng từ cấu trúc của các
liên kết giữa các trang web (hyperlink).
 Web content mining: hướng tới tách và khai phá thông tin và tri thức hữu dụng
từ nội dung trang web.
 Web usage mining: tập trung khám phá các mẫu truy nhập của người sử dung
từ file nhật ký sử dụng web của người dùng.
III. Sự phát triển Search Engine của Google.
1.1. Giới thiệu.
Search Engine luôn là một ứng dụng quan trọng. Thực tế cho thấy có rất nhiều
Search Engine đã và đang được xây dụng, chúng đóng vài trò quan trọng không chỉ ở

Engine) và Semantic Search Engine.
1.2.1. Search Engine truyền thống (keyword - text Search Engine).
Không thể tìm ra các tài nguyên hiệu quả và thích hợp vì:
 Những tài liệu người dùng muốn tìm có thể sử dụng những thuật ngữ khác (hay
những từ đồng nghĩa khác nhau).
 Những lỗi chính tả và các biến thể của từ ngữ được xem là những thuật ngữ khác
nhau đối với môi trường máy tính. Ví dụ, “psoriasis” (đúng chính tả) và
“psoriaissis” (lỗi in ấn) được cho là khác nhau, tương tự, “anaemia” (đúng chính
tả với tiếng Anh) và “anemia” (đúng chính tả với tiếng Mỹ) cũng được xem là
khác nhau.
 Search Engine không thể xử lý các trang HTML một cách thông minh. Ví dụ, việc
tìm kiếm các tài nguyên về “psoriasis” (bệnh vảy nến) sẽ lấy tất cả các tài liệu có
chứa từ này. Tuy nhiên, đa số các tài liệu đều không thích hợp/liên quan. Nghĩa là,
“psoriasis” trong các tài liệu này đề cập đến “psoriasis” ở những câu “see also:
psoriasis”. Hiểu rằng là tại đâu đó đáy trang (hay tại một phần nào đó của trang)
có đề cập đến những bệnh có triệu chứng tương tự.
1.2.2. Semantic Search Engine.
Semantic Search Engine sẽ đáp ứng hầu hết mọi mong đợi của người dùng, nó
mạng lại:
 Một viễn cảnh về lĩnh vực tri thức (knowledge domain) tốt hơn.
 Cho phép tìm kiếm thông tin dựa trên nội dung tài liệu.
 Thông tin tìm kiếm được trả về chính xác và phù hợp (tìm ra những tài liệu mà ta
không thể tìm thấy nếy dùng các Search Engine truyền thống).
Semantic Search Engine có những ưu điểm như trên là do nó kế thừa những ưu
điểm của công nghệ Semantic web:
 Cách thức tổ chức dữ liệu theo hướng đối tượng (Các Knowledge Base: gồm các
Ontology và tập các instance tương ứng. Trong tương lai, nếu các Knowledge
Base được tổ chức tốt và được liên kết với nhau nhiều hơn, các Semantic Search
Engine sẽ có khả nẳg hỗ trợ tìm kiếm nhiều lĩnh vực, nhiều file format, đa ngôn
ngữ, với độ chính xác cao.

được tổng hợp từ các yếu tố gồm số lượng liên kết, chất lượng và tính liên quan.
17 | P a g e
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.
In-links của trang A (liên kết vào của trang A): Là các hyperLink trỏ tới trang A từ
một trang khác. Các liên kết trong cùng một site sẽ không được xem xét đến.
Out-links của trang A (liên kết ra của trang A): Là các hyperLink trỏ ra các trang
khác từ trang A. Thông thường các liên kết tới các trang trong cùng một site sẽ không
được xem xét.
Giá trị PageRank là cơ sở thước đo prestige cho mạng xã hội, từ quan điểm của uy
tín, chúng ta sử dụng 2 luận điểm sau để xây dựng giải thuật PageRank:
1) Một hyperlink từ một trang web trỏ tới một trang khác là một truyền đạt ngầm
định của việc ủy nhiểm đến trang mục tiêu. Vì thế mà các In-link mà một trang A
nhận được là các prestige mà trang A có.
2) Trang web trỏ tới trang A cũng sẽ có các điểm prestige của riêng họ. Một trang
mà có điểm prestige cao trỏ tới trang A sẽ là quan trọng hơn so với một trang mà
có điểm prestige thấp. Nói cách khác, một trang sẽ được coi là quan trọng nếu nó
được trỏ bởi các trang quan trọng khác.
18 | P a g e
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.
Công thức tính PageRank:
PR(A) = (1-d) + d{PR(T
1
)/C(T
1
) + … + PR(Tn)/C(Tn)}.
Trong đó:
 PR(A) là Pagerank của trang A.
 T1, T2 Tn là các trang liên kết tới trang A.
 C là số link ra bên ngoài (outbound / outgoing links) của trang nguồn T1, T2 Tn
đó.

← e/N
K ← 1
Repeat
P
k
← (1-d)e + dA
T
P
K ← k+1
Until ||P
k
– P
k-1
|| < ε
Return P
k
Trong đó: e thường được chọn là 1, d được chọn là
0,85
và ε có giá trị rất nhỏ [0.03].
Minh họa cho thuật toán:
Ta có 4 site được phân bổ và liên kết với nhau như hình vẽ.
Bước 1: PR trung bình = 1/N =1/4= 0.25
Bước 2:Tính PR theo công thức:
PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn)).
20 | P a g e
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.
Tính lần thứ 1:
PR(A)= 0.25. Lần lượt tính toán PageRank của các site B, C, D.
PR(D) = 0.15 + 0.85*(0) = 0.15 (không có site nào liên kết đến cả).
PR(B) = 0.15 + 0.85*(0.25/2) = 0.256 (có site A liên kết đến và site A có 2 link

PR(A)= 0.15 + 0.85*(1.5178/1) = 1.4409
PR(B) = 0.15 + 0.85*(1.4409/2) = 0.7623
PR(C) = 0 15+ 0 85 *(1.4409/2 + 0.7623/1+0.15) = 1.5378
Ta có ở lần thứ 8 này:
|| P
k + 1
-

P
k
|| được tính:
|| PR(A)
8
– PR(A)
7
|| = 1.4409 – 1.4165 = 0.0244.
|| PR(B)
8
– PR(B)
7
|| = 0.7623– 0.752 = 0.0103
|| PR(C)
8
– PR(C)
7
|| = 1.5378– 1.5178 = 0.02.
Như vậy giá trị || P
k + 1
-

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Sức mạnh bộ máy tìm kiếm và khả năng lưu trữ của Google, điên rồ hay thiên tài (Bài tiểu luận chuyên đề về “Data Mining): - Pdf 22

Tài liệu, ebook tham khảo khác

Học thêm