luận văn thạc sỹ xây dựng công cụ hỗ trợ tối ưu hóa website cho các công cụ tìm kiếm - Pdf 24


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC LẠC HỒNG
* * *

Dƣơng Đăng Vinh XÂY DỰNG CÔNG CỤ HỖ TRỢ TỐI ƢU HÓA WEBSITE CHO CÁC
CÔNG CỤ TÌM KIẾM Chuyên ngành: Công Nghệ Thông Tin
Mã số: 60480201 Luận văn thạc sĩ Công nghệ thông tin

NGƢỜI HƢỚNG DẪN KHOA HỌC:
TS. NGUYỄN ĐỨC THÁI
Đồng Nai – Năm 2013
LỜI CAM ĐOAN

Tôi xin cam đoan luận văn thạc sĩ công nghệ thông tin “xây dựng công cụ hỗ trợ
tối ƣu hóa website cho các công cụ tìm kiếm” là kết quả của quá trình học tập,

tạo nhiều điều kiện và hỗ trợ tôi trong suốt thời gian qua.
Tôi cũng xin chân thành cảm ơn các thầy cô là các giảng viên giảng dạy lớp cao
học công nghệ thông tin đã tận tình truyền đạt, chỉ bảo và cung cấp cho tôi những kiến
thức hết sức cần thiết trong suốt thời gian học, và cũng xin gửi lời cảm ơn chân thành
đến những người thân, bạn bè và đồng nghiệp đã giúp đỡ và động viên tôi trong suốt
thời gian học tập cũng nhưng trong thời gian thực hiện luận văn.
Chân thành cảm ơn!

Đồng Nai, tháng 9 năm 2013
Dƣơng Đăng Vinh MỤC LỤC

Lời cam đoan i
Lời cảm ơn ii
Mục lục iii
Danh mục chữ viết tắt iv
Danh mục hình v
Danh mục bảng biểu vi
Mở đầu 1

3.4.2 Tối ƣu bố cục của trang web 41
3.4.3 Tối ƣu hóa các thành phần HTML 43
3.4.4 Cấu trúc URL 47
3.4.5 Xây dựng nội dung 49
3.5. Tối ƣu hóa ngoài trang 51
3.5.1 Google Pagerank 52
3.5.2 Các phƣơng pháp xây dựng backlink 54
3.5.3 Alexa Rank là gì? 55
3.5.4 Tìm hiểu về chuẩn W3C 56
3.6. Pay Per click – Google Adwords 57
3.6.1 PPC – Phân loại PPC 57
3.6.2 Google Adwords 58
3.7. Những công cụ SEO phổ biến 58
3.7.1 Google webmaster tools 58
3.7.2 Google Analytics 61
CHƢƠNG 4: XÂY DỰNG ỨNG DỤNG TỐI ƢU HÓA WEBSITE THEO TIÊU CHÍ
ĐÁNH GIÁ CỦA CÁC CÔNG CỤ TÌM KIẾM 65
4.1. Mục tiêu chung 65
4.2. Công cụ Thông tin chung 65
4.2.1 Đặt bài toán 65
4.2.2 Phƣơng pháp giải quyết 65
4.2.3 Kết quả 67
4.3. Công cụ SEO Onpage 67
4.3.1 Đặt bài toán 67
4.3.2 Phƣơng pháp giải quyết 68
4.3.3 Kết quả 71
4.4 Công cụ SEO Offpage 72
4.4.1 Đặt bài toán 72
4.4.2 Phƣơng pháp giải quyết 72
4.4.3Kết quả 75

Content Management Systems
CSS
Cascading Style Sheets
DOM
Document Object Model
PHP
Hypertext Preprocessor
HTML
HyperText Markup Language
HTTP
HyperText Transfer Protocol
MSN
Microsoft Network
PDA
Personal Digital Assistant
PPC
Pay Per Click
PR
PageRank
RSS
Really Simple Syndication
SE
Search Engine
SEM
Search Engine Marketing
SEO
Search Engine Optimization
SERPs
Search Engine Result Pages
URL


Danh mục bảng biểu

Bảng 1 - Giá trị đặc biệt trong sitemap.xml 20
Bảng 2 - Những trƣờng trong file sitemap.xml 21
Bảng 3 - Xác định độ cạnh tranh 39
1

Mở đầu

Tóm lƣợc đề tài
Hiện nay, với sự phát triển không ngừng của công nghệ, máy tính nói chung hay
World Wide Web (www) nói riêng là một môi trường phổ biến để người dùng có thể
tìm kiếm, quảng cáo, xây dựng thương hiệu trên đó quả thật nó đem lại một lợi ích
không nhỏ cho con người. Với hàng tỷ webstie đang tồn tại, đi kèm với nó là một khối
lượng thông tin vô cùng to lớn. Chính vì sự khổng lồ của thông tin như vậy dẫn đến
việc tìm kiếm và tổng hợp thông tin không thuận lợi, gây nhiều khó khăn để có được
một kết quả tìm kiếm như mong muốn.
Người dùng ngày nay có thói quen sử dụng những công cụ tìm kiếm hơn là phải
nhớ chính xác một website nào đó.
Với rất nhiều dữ liệu mà bộ máy tìm kiếm đang lưu trữ không những là nguồn tài
nguyên không giới hạn mà còn là một quyển bách khoa toàn thư cho người dùng nhưng
cũng là thách thức rất lớn đối với các công cụ tìm kiếm, khi đó sẽ nảy sinh một vấn đề:
làm thế nào để bộ máy tìm kiếm trả về kết quả tìm kiếm của người dùng một cách
nhanh chóng và chính xác.
Theo khảo sát mới của hãng nghiên cứu internetworldstats [20], có đến 90%
người sử dụng Internet dùng công cụ tìm kiếm để tra cứu thông tin. Và theo thống kê
có hơn (60%) số lượng website trên thế giới sử dụng không đúng những tiêu chí đánh
giá mà các công cụ tìm kiếm đưa ra, nên các website mang nội dung chính xác mà
người dùng cần tìm lại có tỉ lệ xuất hiện ở các công cụ tìm kiếm là rất thấp.

+ SEO offpages
- Thiết kế và xây dựng công cụ hỗ trợ tối ưu hóa website dựa theo các tiêu chí đánh
giá của công cụ tìm kiếm.

3

Phạm vi ứng dụng
Công cụ được xây dựng nhằm mục đích hỗ trợ cho những nhà quản trị web để có
được những thông tin bổ ích từ đó họ sẽ có được những chiến lược phù hợp để SEO
website. Công cụ không tiến hành phân tích từ khóa bởi tiến hành khá phức tạp và tầm
chính xác không cao. Để xử lý từ khóa hiện Google có hỗ trợ một công cụ phân tích
khá tốt sẽ được nhắc đến ở phần sau.


Chúng ta có thể thấy rằng những chỉ số ở trên đã chứng tỏ một điều là hoạt động
tìm kiếm trên internet là một thị trường quảng cáo tiếp cận khách hàng tiềm năng vô
cùng dễ dàng và nhanh chóng. Bởi vì, khi sử dụng các công cụ tìm kiếm, người sử
dụng xác định được trước điều mình cần và sản phẩm mình muốn, thống kê trên thế
giới, khoảng 70% số lượng người tìm không tìm hết các kết quả tiềm kiếm ở trang đầu
tiên, 97% không xem kết quả tìm kiếm đến trang thứ 3. Ở Việt Nam khoảng 97.23% số
lượng người truy cập vào công cụ tìm kiếm Google (theo Net Market Share tháng
4/2013).
Bên cạnh việc sử dụng các dịch vụ quảng cáo của các công cụ tiềm kiếm như
Google, Yahoo!, Bing, Ask, … hoặc các dịch vụ Marketing Online, thì nhiều doanh
nghiệp hiện nay thực sự quan tâm đến việc làm thế nào để đưa thương hiệu của mình
đến gần hơn với người sử dụng mà chi phí thì giảm thấp nhất.
SEO (Search Engine Optimization) đã trở nên rất quen thuộc trên thế giới và đang
trên đà phát triển rộng rãi tại Việt Nam.
1.2 Mục tiêu đề tài
- Liệt kê những thông tin của website dựa trên nguồn HTML
- Xây dựng một quy trình chặt chẽ, nhằm đáp ứng tốt nhất các tiêu chí mà công cụ
tìm kiếm đánh giá là thân thiện.
- Phân tích và thống kê tất cả các tiêu chí đã thực hiện trên website và đưa ra kiến
nghị cần thiết phải bổ sung để tối ưu hóa về mặt cấu trúc của website.
- Xây dựng công cụ hỗ trợ tối ưu hóa website dựa theo các tiêu chí đánh giá của
công cụ tìm kiếm nhằm cải thiện vị trí xếp hạng.
1.3 Phƣơng pháp thực hiện đề tài
Để tiếp cận những vấn đề trên cần phải có kiến thức tối thiểu về lập trình. Do đó
phương pháp nghiên cứu là:
 Khảo sát tổng quan về vấn đề nghiên cứu.
6

Tham khảo các tài liệu, báo chí đã phát hành về lĩnh vực đang nghiên cứu.

tính hiệu quả như: cải thiện thứ hạng website ở kết quả tìm kiếm theo tiêu chí SEO.
1.4 Bố cục luận văn
Phần còn lại của luận văn gồm có bố cục như sau. Chương 2 sẽ nói về những công
trình liên quan, Chương này sẽ điểm qua một số công trình nghiên cứu trong và ngoài
nước, để đánh giá quy mô, tầm ảnh hưởng với nhu cầu thực tế để có hướng đi đúng
đắn. Chương 3 đi vào cơ sở lý thuyết, trong chương này sẽ tìm hiểu cách thức hoạt
động của các công cụ tìm kiếm, làm thế nào để lập một kế hoạch SEO hoàn hảo, cách
lựa chọn tên miền, hosting hiệu quả, ngôn ngữ lập trình web có ảnh hưởng đến SEO ra
sao, tối ưu hóa trong trang với những thẻ như title, a, h1, h2, h3, meta, img. Cách lựa
chọn từ khóa hiệu quả, nên đặt từ khóa ở đâu, mật độ như thế nào cho hiệu quả, ngoài
ra còn đề cập đến tối ưu hóa ngoài trang như xây dựng backlink, sử dụng dịch vụ pay
per click như thế nào hiệu quả. Chương 4 sẽ đi xây dựng ứng dụng tối ưu hóa website
theo tiêu chí đánh giá của các công cụ tìm kiếm. Đưa ra bài toán thực hiện, và hướng
giải quyết và kết quả đạt được cho mỗi công cụ trong chương trình. 8

CHƢƠNG 2: NHỮNG CÔNG TRÌNH LIÊN QUAN

2.1 Tình hình nghiên cứu trong và ngoài nƣớc

 Luận văn tốt nghiệp đại học “Xây dựng công cụ hỗ trợ tối ưu website với
SEO (Search Engine Optimization)”, là công trình nghiên cứu của hai sinh
viên Nguyễn An Huy và Nguyễn Tiến Nghĩa của Trường Đại Học Bách
Khoa Tp.Hồ Chí Minh, với nội dung cơ bản là cung cấp những kiến thức cơ
bản về SEO và làm thế nào để SEO một website hiệu quả.[1]
 Có các câu lạc bộ về SEO (search engine optimization) Việt Nam cũng có
những bài viết, báo cáo đăng trên các tạp chí.[2]
Các bài báo trên đều có những ưu điểm nhất định, tuy nhiên các báo cáo mang
tính chất giới thiệu, khái niệm cơ bản, chưa đi sâu vào những kỹ thuật đánh giá chuẩn.
Phát hiện một website bị lỗi về mặt tối ưu hóa là một bài toán được đặt ra trước
nhu cầu thực tế đó, sẽ giúp cho các công cụ tìm kiếm hiểu được bố cục, nâng cao chất
lượng và tăng hiệu quả đánh chỉ mục.
Điều chỉnh lại những tiêu chí đánh giá của các công cụ tìm kiếm đưa ra trên mỗi
website cũng là một vấn đề hết sức thực tế, sẽ giúp công cụ tìm kiếm tiết kiệm thời
gian trong việc sàng lọc thông tin, tổng hợp từ khóa chính, từ khóa miêu tả, link lên kết
trong website và ngoài website.
Nhận thấy đây là một đề tài mang tính khoa học cao, là nền tảng ứng dụng thực tế
và quan trọng là từ phương pháp nghiên cứu đề tài này có thể mở rộng để nghiên cứu
cho mọi loại website trên thế giới. Nên tác giả quyết định chọn đề tài “xây dựng công
cụ hỗ trợ tối ƣu hóa website cho các công cụ tìm kiếm” để làm đề tài luận văn. Đề
tài tập trung vào việc phân tích, đánh giá website và đề xuất một phương pháp điều
chỉnh phù hợp, bên cạnh đó áp dụng phương pháp này vào việc xây dựng một công cụ
nhằm cải thiện vị trí xếp hạng trong công cụ tìm kiếm.
10

CHƢƠNG 3: CƠ SỞ LÝ THUYẾT

3.1 Khái niệm SEO - Search Engine
3.1.1 Khái niệm SEO – Search Engine Optimization
SEO được hiểu là tập hợp những phương pháp nhằm nâng cao thứ hạng Website

kiểm soát được. Diện mạo của internet lại thay đổi quá nhanh chóng và mạnh mẽ. Với
số lượng lên tới hàng chục tỉ trang, được lưu trữ trong hàng triệu server đặt khắp nơi
trên toàn thế giới.
Có thể ví internet như một biển dữ liệu khổng lồ, với muôn vàn những viên ngọc
quí nằm giữa các hạt sạn. Trong đời sống hàng ngày, nhu cầu tìm kiếm thông tin đóng
vai trò vô cùng to lớn, và một trong những vấn đề bức thiết nhất của công nghệ hiện
nay là làm sao “đãi cát tìm vàng”, khai thác nguồn tài nguyên này một cách hợp lí, đem
lại lợi ích tốt nhất cho con người.
Trước đây, người ta thường chia dữ liệu cần lưu trữ làm nhiều mục, đến lượt các
mục con này lại được chia nhỏ hơn. Tuy nhiên, những chủ đề được nêu trong Internet
đã rộng lớn đến nỗi sự phân chia này trở nên cực kì cồng kềnh và bất tiện. Ngày nay,
hầu hết mọi người đều sử dụng Search Engine để tìm kiếm thông tin.

Hình 1 - Giao diện nhập từ khóa để tìm kiếm
(Nguồn: google.com.vn)
Đối với mỗi Search Engine (Google, Yahoo!, Bing, Ask v.v…), người dùng truy vấn
tìm kiếm hay nói đơn giản hơn là nhập vào một số từ khóa liên quan đến chủ đề cần
12

tìm và nhận được một danh sách các trang kết quả thông thường là những trang web
chứa các từ khóa cần tìm kiếm, được sắp xếp theo một tiêu chí nào đó. Những tiêu chí
này đều nhằm mục đích “đưa ra kết quả phù hợp nhất với yêu cầu tìm kiếm”.
3.1.4 Phân loại Search Engine
Thuật ngữ "Cỗ máy tìm kiếm - Search Engine" được dùng chung để chỉ 2 hệ
thống tìm kiếm: Một do các chương trình máy tính tự động tạo ra (Crawler-Based
Search Engines) và dạng thư mục internet do con người quản lý (Human-Powered
Directories).
Hai hệ thống tìm kiếm này tìm và lập danh mục website theo 2 cách khác nhau.
Crawler-Based Search Engines - Hệ thống tìm kiếm trên nền tự động
Những cỗ máy tìm kiếm tự động như Google tạo ra những danh sách của họ tự

kỳ 1-2 tháng. Như vậy, nếu trang web được tìm thấy càng nhiều, thì khả năng spiders
quay trở lại càng lớn và như thế, kết quả tìm kiếm của bạn cũng được cải thiện theo.
Mọi thứ spider tìm thấy đi vào trong phần thứ hai của cỗ máy tìm kiếm, chỉ mục
(the index). Chỉ mục, đôi khi gọi là tài liệu, là một kho lưu trữ khổng lồ chứa đựng một
sự sao chép của mọi trang web mà spider tìm thấy. Nếu một trang web thay đổi, thì
danh sách này được cập nhật với thông tin mới.
Đôi khi, cần phải có thời gian để các spiders lập chỉ mục cho một trang mới hay
một trang được thay đổi nội dung. Như vậy, sẽ có trường hợp: một trang đã được các
spiders tìm đến, nhưng lại chưa được lập chỉ mục. Và trong khoảng thời gian này, trang
web sẽ hoàn toàn không tồn tại trên cỗ máy tìm kiếm.
Phần mềm tìm kiếm chính là phần tử thứ ba của một cỗ máy tìm kiếm. Đây là
một chương trình máy tính có chức năng sàng lọc thông tin từ hàng triệu trang tương tự
nhau để sắp xếp vị trí từng trang sao cho phù hợp nhất. Đây chính là nơi mà các công
ty SEO khai thác để đưa một website nào đó lên vị trí đầu tiên khi được tìm kiếm với
một hay nhiều từ khóa chỉ định.

14

Major Search Engines: Các cỗ máy tìm kiếm chính
Tất cả các cỗ máy tìm kiếm tự động có những phần cơ bản được mô tả ở trên,
nhưng có những sự khác nhau trong những phần này trong việc nó được điều chỉnh tác
động như thế nào. Đó là lý do tại sao cùng một từ khóa, khi tìm kiếm trên những cỗ
máy tìm kiếm khác nhau thường cho ra những kết quả khác nhau. Một ví dụ cụ thể:
Nếu bạn đánh một từ khóa, thì Google, Yahoo, MSN, AOL, Ask hay Exactseek đều
cho ra các kết quả khác nhau, dù có nhiều website hơi giống nhau.
3.1.5 Search Engine làm việc nhƣ thế nào
Một sự thật cơ bản đầu tiên mà bạn cần biết đó là công cụ tìm kiếm không phải là
con người. Chính vì thế sẽ có sự khác nhau giữa con người và công cụ tìm kiếm trong
việc đánh giá nội dung của một trang web. Không giống như con người, công cụ tìm
kiếm nội dung theo định hướng. Mặc dù công cụ tìm kiếm được trang bị các công nghệ

Sau đó nó sẽ bắt đầu tìm kiếm với một site bất kỳ, nó đánh chỉ mục các từ khóa trên
trang và theo các liên kết tìm thấy bên trong trang web này.
- Khi Spider xem xét các trang web (định dạng HTML).
Ví dụ: Các từ xuất hiện trong các thẻ tiêu đề, thẻ miêu tả…. nó nhận định đây là
phần quan trọng có liên quan đến sự tìm kiếm của người dùng sau này.
16

Vì thế đối với mỗi website Google nó sẽ có nhiều phương pháp để index lại chỉ
mục, liệt kê lại các từ khóa chính. Nhưng dù dùng cách nào thì Google cũng luôn cố
gắng làm cho hệ thống tìm kiếm diễn ra nhanh hơn để người dùng có thể tìm kiếm hiệu
quả hơn.
- Kế đó Google sẽ xây dựng chỉ mục
Xây dựng chỉ mục sẽ giúp cho các thông tin được tìm thấy một cách nhanh
chóng. Sau khi tìm thông tin trên trang web, Google Spider nhận ra rằng việc tìm kếm
thông tin trên website là một quá trình không bao giờ kết thúc… bởi vì các quản trị
trang web luôn thay đổi thông tin, cập nhật thông tin trên website và điều đó có nghĩa
rằng Spider sẽ luôn phải thực hiện nhiệm vụ thu thập dữ liệu.
 Xử lý và tính toán:
Sau khi lập chỉ mục Google sẽ xử lý, tính toán và mã hóa thông tin để lưu trữ
trong cơ sở dữ liệu. Và khi có một truy vấn tìm kiếm thì hệ thống sẽ trả về các kết quả
có chứa nội dung hữu ích tương ứng với các truy vấn tìm kiếm của người dùng.
Việc hiểu rõ cơ chế tìm kiếm của Google sẽ giúp cho các Seoer thêm nhiều kỹ
năng để có thể tối ưu website thân thiện với Google nhằm mục đích đưa trang web có
thứ hạng cao hơn.
3.1.6 Crawler, Spider, Robot
Web Crawler, web spider [3] hay web robot là một chương trình tự động tìm
kiếm trên Internet. Nó được thiết kế để thu thập tài nguyên trên internet như trang web,
hình ảnh, video, tài liệu Word, PDF cho phép hệ thống tìm kiếm đánh chỉ số sau đó.
Quá trình thực hiện được gọi là web crawling hay spidering, rất nhiều công cụ tìm
kiếm trên thế giới sử dụng spidering để cập nhập kho dữ liệu website của mình. Chẳng


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status