Tại sao một trang web
không được index trên
Google?
Thỉng thoảng bạn sẽ đọc được những bài viết của những
SEO-er mới vào nghề với một thắc mắc như: "tại sao trang
web này lại không được index trên Google?”.
Nếu câu hỏi đó sảy ra với chính bạn, thì bạn đang mắc những
sai lầm ngớ ngẩn trong sự nghiệp SEO của mình. Điều này
cũng đã từng xảy ra với tôi và một vài đồng nghiệp của tôi, vì
vậy tôi quyết định đăng bài viết này để bổ sung thêm kiến
thức cho các bạn, hoặc sẽ tạo ra một nền tảng cơ bản với
những ai chưa biết về vấn đề này. Nếu một trang web không
được index trên bộ máy tìm kiếm trong năm 2013, thì nguyên
nhân là một trong những điều sau:
- Do chỉ thị 1 thuộc tính nào đó.
- Do ảnh hưởng từ Google (do thuật toán hoặc các hình
phạt)
- Các vấn đề về cấu trúc trang web (do những orphaned page
chưa được xử lý một cách triệt để)
Chú thích:
Orphaned page (tạm hiểu là trang bị tách rời ra một website,
mà không có liên kết với website ban đầu)
Trong bài viết này, chúng ta sẽ đi sâu tìm hiểu các thuộc tính
mà có thể làm một trang không được index trên Google, hoặc
duyệt của bạn, trong phần <head>
- Dạng thuộc tính: <link rel="canonical"
href=""/> trong phần head
của HTML.
- Mục đích của thuộc tính: Bạn muốn thông báo cho Google:
Các giá trị (PageRank, Authority của liên kết) của trang này
cần được thông qua một trang khác. Đó không phải là một
thuộc tính chỉ thị, nhưng Google tin tưởng vào gợi ý “rel =
canonical” và không index trang này, trong khi lại index
trang mục tiêu canonical.
- Thêm thông tin
: r/139394?hl=en
3. NOINDEX trong robots.txt
- Cách dễ nhất để phát hiện: Kiểm tra trong file Robots.txt
- Dạng thuộc tính: Noindex: / folder / Đặc biệt lưu ý ở đây,
tất cả những trang mà file robot.txt của nó được thiết lập
thuộc tính NOINDEX (tất cả các chữ đều viết hoa) sẽ không
được index trên trang kết quả. Tuy nhiên, nó sẽ de-index một
trang nếu bạn chỉ viết hoa chữ N trong Noindex (thay vì
NOINDEX)
- Mục đích của thuộc tính: Tương tự như các thẻ noindex
bình thường, nhưng đây là những thực hiện cho một file
robot.txt lạ.
Thêm thông
tin: ffic.asp/6264/
4. NOINDEX trong tiêu đề của HTTP (hoặc None trong
tiêu đề của HTTP)
tin: r/139394?hl=en
6. Meta refresh với thời gian delay > 0 (ví dụ: 5)
- Cách dễ nhất để phát hiện: truy cập trang web, và xem xét
sự chuyển hướng hoặc xem xét code nguồn
- Dạng thuộc tính: <meta http-equiv="Refresh"
content="5;url= />l"> trong phần <head> của HTML.
- Mục đích thuộc tính: Sau một thời gian trì hoãn (delay),
trang web của bạn sẽ được chuyển hướng. Google chỉ lập chỉ
cho trang (sau khi được chuyển hướng) khi thời gian delay
lớn hơn 0, tôi không chắc chắn lý do tại sao. Đây là một thử
nghiệm thực
tế: (click vào
xem điều gì sảy ra)
7. Thông số canonicalization trong GWMT (Google
webmaster tools - công cụ quản trị trang web của Google)
- Cách dễ nhất để phát hiện: Bạn cần phải truy cập vào các
công cụ quản trị web hoặc có ai đó từng làm hướng dẫn cho
bạn.
- Cách thức xem xét: Vào Configuration > phần URL
Paremetres - Mục đích: Khi bạn thay đổi các thiết lập trong WMT,
Google thường đồng ý. Tùy thuộc vào mỗi tham số, bạn có
thể yêu cầu Google không index nó. Ví dụ: Nếu bạn yêu cầu
Googlebot không thu thập bất kỳ URL nào, Google có thể
làm một file không được index
- Ban đầu, tôi đã nghĩ rằng: thuộc tính: rel = "next" / "prev"
là một nguyên nhân khiến Google de-index, nhưng tôi không
thể liệt kê một ví dụ nào.
- Chuyển hướng 301 chỉ làm index trang đích chuyển hướng,
nhưng không phải luôn luôn và mãi mãi như thế. Tôi để lại
vấn đề này bởi vì các thử nghiệm tôi làm luôn luôn không ổn
định – nhưng hãy vui lòng chờ đợi những kết quả sau này.
- Chuyển hướng 302 và meta refresh với thời gian delay bằng
0 (thử nghiệm ở đây, ví dụ ở đây) sẽ làm hiển thị URL trong
trang tìm kiếm với nội dung của trang mục tiêu của chuyển
hướng
- Tương tự như chuyển hướng 302, và meta refresh với thời
gian delay bằng 0, Hreflang + canonical có thể làm một trang
biến mất hoặc xuất hiện lại trên trang kết quả, phụ thuộc vào
trang Google của các quốc gia khác nhau.