Bài 5: Thu Thập Dữ Liệu Và Lập Chỉ Mục

Trong bài này, hãy cùng Khóa học Digital Marketing tìm hiểu về cách sử dụng Google Search Console để sửa các lỗi liên quan đến thu thập dữ liệu và lập chỉ mục trang web của bạn. Việc sửa các lỗi lập chỉ mục là rất quan trọng vì nếu gặp vấn đề, Google sẽ không lập chỉ mục trang web của bạn một cách chính xác, điều này có thể ảnh hưởng tiêu cực đến thứ hạng của trang web trên bảng kết quả tìm kiếm.

Tìm hiểu về Báo cáo phạm vi lập chỉ mục

Báo cáo phạm vi lập chỉ mục có sẵn trong Google Search Console và cho bạn biết trang nào của bạn đã được Google lập chỉ mục thành công và trang nào chưa được lập chỉ mục vì gặp phải một số lỗi nhất định.

Đối với mỗi trang, bạn có thể dựa vào Báo cáo phạm vi lập chỉ mục biết thêm chi tiết về lỗi, khắc phục chúng rồi yêu cầu Google lập chỉ mục lại trang đó.

Bước 1: Đăng nhập vào Google Search Console và chọn tên miền chính của bạn từ danh sách thả xuống (góc trên cùng bên trái). Lưu ý là mỗi tài khoản Google Search Console cũng có thể add nhiều website.

Bước 2: Nhấp vào Trang bên dưới Lập chỉ mục để xem Báo cáo Lập chỉ mục Trang.

Báo cáo lập chỉ mục trang
Báo cáo lập chỉ mục trang

Báo cáo sẽ gồm hai phần: Phần trên là tổng quan dữ liệu về Lập chỉ mục trang (gồm các trang được lập và không được lập chỉ mục) và phần bên dưới là Báo cáo lý do trang không được lập chỉ mục.

Các trang không được lập chỉ mục có nghĩa là các trang này không có trong chỉ mục của Google, do đó, không thể xuất hiện trong các trang kết quả tìm kiếm của từ khóa đó.

Lý do trang không được lập chỉ mục
Lý do trang không được lập chỉ mục

Đối với các trang không được lập chỉ mục, nhiệm vụ của SEOer là tìm ra lỗi và khắc phục nhanh chóng để không làm ảnh hưởng đến kết quả SEO. Quá trình khắc phục sự cố có hai bước:

  • Đầu tiên là xác định lỗi
  • Thứ hai là hiểu các lỗi và sửa chúng

 Các lỗi trong báo cáo sẽ được nhóm thành danh mục và một số lỗi phổ biến có thể kể đến như:

  1. Trang có lệnh chuyển hướng
  2. Trang thay thế có thẻ chính tắc (canonical tag) thích hợp
  3. Không tìm thấy (404)
  4. Trang trùng lặp, người dùng chưa chọn trang chính tắc
  5. Lỗi 404 mềm (Soft 404 error)
  6. Bị loại trừ bởi thẻ ‘noindex’
  7. Đã thu thập dữ liệu – hiện chưa được lập chỉ mục
  8. Đã phát hiện thấy – hiện chưa được lập chỉ mục
  9. Lỗi máy chủ (5xx)
  10. Yêu cầu trái phép (401) Lỗi

Đối với mỗi loại lỗi, bạn cũng có thể xem thêm Trạng thái xác thực, thời gian và số lượng các trang bị ảnh hưởng.

Lỗi Trang có lệnh chuyển hướng

Khi bạn gặp ‘lỗi chuyển hướng’ thì có nghĩa là URL đang chuyển hướng đến một URL khác nên nó không được lập chỉ mục. Đây cũng là một lý do rất phổ biến khiến các trang không được lập chỉ mục và trong phần lớn các trường hợp thì bạn không cần phải làm gì lúc này.

Để biết thêm chi tiết của một trang, hãy nhấp vào một URL và chọn Kiểm tra URL để đến báo cáo Kiểm tra URL.

Trang có lệnh chuyển hướng
Trang có lệnh chuyển hướng

Tuy nhiên, bạn nên lưu ý là hai phần:

  Trang giới thiệu (Referring page): Đây là trang có liên kết đến URL bị chuyển hướng. Bạn nên kiểm soát và xem xét có nên thay đổi liên kết để trỏ luôn đến trang được chuyển hướng hay không.

  URL chính tắc do người dùng khai báo (User-declared canonical): Đây chính là URL của trang được trỏ tới. Nói cách khác, đây là trang đã được Google lập chỉ mục.

Kiểm tra URL đang hoạt động
Kiểm tra URL đang hoạt động

Nếu bạn có nhiều trang, bạn có thể sử dụng bộ lọc để xem xét Tất cả các trang đã gửi.

Bộ lọc báo cáo chuyển hướng
Bộ lọc báo cáo chuyển hướng

Trường hợp việc chuyển hướng trang là chủ ý của bạn, tức là bạn muốn một trang được chuyển hướng đến một trang khác, thì bạn không cần phải làm gì cả. Còn nếu không thì bạn nên điều tra để tìm và xóa chuyển hướng để Google có thể lập chỉ mục trang gốc.

Lỗi Trang thay thế có thẻ chính tắc (canonical tag) thích hợp

Thông báo lỗi này có nghĩa là trang không được Google lập chỉ mục vì Google đã tìm thấy một trang tốt hơn và trong trường hợp này thì bạn cũng không cần phải làm gì cả.

Trang thay thế có thẻ chính tắc thích hợp
Trang thay thế có thẻ chính tắc thích hợp

 Để tìm hiểu thêm về một trang bạn kéo xuống thấy danh sách và nhấp vào nút Kiểm tra URL.

Lỗi Không tìm thấy (404)

Trên thực tế, lỗi này rất dễ được khắc phục một cách nhanh chóng vì đã được Googlebot lập chỉ mục. Tuy nhiên, nhiều trường hợp đây là lỗi giả nên bạn cần kiểm tra xem có chính xác là trang web bị lỗi 404 hay không.

Lỗi không tìm thấy 404
Lỗi không tìm thấy 404
Nhấp vào một trang trong danh sách và Kiểm tra URL. Trong khi chờ lấy dữ liệu mới từ Google Index, hãy mở một cửa sổ trình duyệt mới và kiểm tra URL 404.

Nếu trang vẫn còn trên trang web của bạn và bạn muốn thêm nó vào Chỉ mục của Google, thì thực hiện như sau:

  • Nhấp vào nút Kiểm tra URL trực tiếp.
  • Nhấp vào Yêu cầu lập chỉ mục.
  • Quay lại báo cáo và nhấp vào Xác nhận khắc phục.

Nếu đây thực sự là một trang 404 mà trước đây bạn đã xóa và bạn không muốn Google lập chỉ mục cho nó, thì bạn có hai tùy chọn:

  Một là bạn không cần làm gì cả vàGoogle sẽ dần dần xóa trang khỏi chỉ mục.
  Hai là chuyển hướng 301 đến một trang có liên quan trên trang web của bạn.
 

Lỗi Trang trùng lặp, người dùng chưa chọn trang chính tắc

Thông báo lỗi này có nghĩa là Google đã chọn một trang khác làm trang chuẩn cho trang này nên sẽ không lập chỉ mục trang này nữa. Bạn có thể Kiểm tra URL này để xem URL nào được Google coi là chuẩn cho trang này.

Trang trùng lặp, người dùng chưa chọn trang chính tắc
Trang trùng lặp, người dùng chưa chọn trang chính tắc

Nếu bạn cho rằng Google đã chọn đúng trang là trang chuẩn, thì bạn không cần phải làm gì khác. Nếu bạn cho rằng Google đã chọn sai URL là chuẩn, thì bạn có thể chỉ định rõ rang lại trang chuẩn. Bạn cũng nên lưu ý rằng cần phải đảm bảo nội dung của các trang là khác nhau và không bị trùng lặp

Lỗi 404 mềm (Soft 404 error)

Khi bạn gặp lỗi 404 mềm, điều đó có nghĩa là trang không được tìm thấy (vì nó không tồn tại), nhưng thay vì thông báo cho các công cụ tìm kiếm rằng nên bỏ qua nó, nó lại trả về một mã hợp lệ.

Lỗi 404 mềm (Soft 4040 Error)
Lỗi 404 mềm (Soft 4040 Error)

Trường hợp này xảy ra ở các trang không thể truy cập trực tiếp mà chỉ có thể truy cập được sau khi người dùng hoàn thành một hành động cụ thể.

Ví dụ: Trang thanh toán của bạn chỉ được hiển thị cho người dùng SAU KHI họ đã thêm một mặt hàng vào giỏ hàng của mình.

Trang thanh toán này vẫn được liệt kê trong sơ đồ trang web, Google sẽ cố gắng thu thập dữ liệu nhưng sẽ không tìm thấy trang đó vì không có mặt hàng nào được thêm vào giỏ hàng.

Phải làm gì đối với lỗi 404 mềm?

  • Bạn sẽ cần trả lại mã 404 cho các trang không hợp lệ (not valid)
  • Xóa chúng khỏi sơ đồ trang web của bạn để Google không truy cập chúng
  • Chuyển hướng nó đến một trang hợp lệ
  • Không làm gì cả vì đôi khi lỗi 404 mềm là bình thường.

Lỗi Bị loại trừ bởi thẻ ‘noindex’

Đây không thực sự là một lỗi mà điều này có nghĩa là một trang đã được gửi để lập chỉ mục, nhưng nó được chỉ định thẻ ‘noindex’, nhằm hướng dẫn các công cụ tìm kiếm không thêm trang đó vào chỉ mục của chúng.

Bị loại trừ bởi thẻ "Noindex"
Bị loại trừ bởi thẻ “Noindex”

Bạn cần xem lại danh sách các trang có thẻ ‘noindex’ và đảm bảo rằng bạn không muốn chúng xuất hiện trong chỉ mục của Google. Nếu một trang bị gắn sai thẻ là ‘noindex’, hãy xóa chỉ thị và Yêu cầu lập chỉ mục.

Lỗi Đã thu thập thông tin – hiện chưa được lập chỉ mục

Trang đã được Google thu thập thông tin nhưng không được lập chỉ mục thì nó cũng có thể lập chỉ mục trong tương lại hoặc không tùy vào sự thay đổi của trang web.

Đã thu thập dữ liệu - Hiện chưa được lập chỉ mục
Đã thu thập dữ liệu – Hiện chưa được lập chỉ mục

Nếu đó là một trang quan trọng đối với bạn, hãy đảm bảo rằng:

  • Nó có nội dung unique
  • Nó không gắn thẻ ‘noindex’
  • Nó không bị chặn bởi robots.txt

Thực hiện các thay đổi cần thiết đối với nội dung và Gửi lại nội dung đó cho Google.

Lỗi Đã phát hiện thấy – hiện chưa được lập chỉ mục

Trang đã được Google tìm thấy nhưng chưa được thu thập dữ liệu.

Đã phát hiện thấy - Hiện chưa được lập chỉ mục
Đã phát hiện thấy – Hiện chưa được lập chỉ mục

Thông thường, Google muốn thu thập dữ liệu URL, nhưng điều này được cho là sẽ làm trang web quá tải nên Google đã lên lịch lại cho quá trình thu thập dữ liệu. Đây là lý do tại sao ngày thu thập thông tin cuối cùng bị trống trên báo cáo.

Lỗi máy chủ (5xx)

Với lỗi này, Google bot không thể truy cập các trang vì máy chủ đã ngừng hoạt động hoặc không khả dụng (not available) để quét dữ liệu.

Thông thường, bạn không nên báo cáo bất kỳ Lỗi máy chủ nào. Nếu bạn gặp RẤT NHIỀU lỗi thì điều này có nghĩa là máy chủ của bạn có vấn đề và bạn nên nhờ sự giúp đỡ từ nhà cung cấp Server. Nếu chỉ gặp một số lỗi nhất định, thì rất có thể trang đó tạm thời không thể truy cập được và điều này có nghĩa là bạn có thể yêu cầu Google lập chỉ mục lại trang.

Bạn có thể thực hiện theo quy trình này:

Bước 1: Nhấp vào một trong các trang bị ảnh hưởng và bạn sẽ nhận được một menu có các tùy chọn ở bên phải. 

Lỗi máy chủ (5XX)
Lỗi máy chủ (5XX)

Bước 2: Nhấp vào Kiểm tra URL. Google sẽ cung cấp cho bạn thêm chi tiết về các lỗi từ Google Index.

Bước 3: Nghiên cứu chi tiết và sau đó nhấp vào URL trực tiếp kiểm tra.

Kiểm tra URL
Kiểm tra URL
Bước 4: Google sẽ tìm lại trang và cung cấp cho bạn thêm thông tin chi tiết. Nếu đó là lỗi tạm thời, bạn có thể nhấp vào nút Yêu cầu lập mục để gửi lại trang cho Google.

Lưu ý: Nếu không thể truy cập trang, bạn phải giải quyết vấn đề (thay VPS, Hosting) hoặc xóa trang đó khỏi sơ đồ trang web của mình.

Lỗi Yêu cầu trái phép (401)

Một trang có trong sơ đồ trang web của bạn, nhưng Google không thể truy cập trang đó vì trang được bảo vệ bằng mật khẩu.

Vì các trang này không có sẵn công khai, bạn nên:

  • Xóa chúng khỏi sơ đồ trang web
  • Thêm chỉ thị thẻ ‘noindex’
  • Chặn thư mục (hoặc khu vực được bảo vệ) trong tệp robots.txt 

Chìa khóa học tập

  Đừng sợ khi bạn thấy lỗi trong tài khoản Google Search Console của mình. Trong nhiều trường hợp, lỗi là hợp lý và chỉ là dự báo.
  Ưu tiên của bạn là giải quyết mọi lỗi CRAWLED – CURRENTLY NOT INDEXED and NOT FOUND (404) vì đây là những lỗi liên quan trực tiếp đến thứ hạng của bạn.
 
 

Các lỗi khác mình sẽ cập nhật thêm trong tương lai nhé!

 

Kết Luận

Tìm hiểu và khắc phục các lỗi về thu thập dữ liệu và lập chỉ mục đóng vai trò quan trọng trong việc cải thiện hiệu suất website. Nhiệm vụ của SEOer là tìm ra các lỗi và cải thiện chúng nhanh chóng để website có thể nhanh chóng đạt được thứ hạng cao trên trang kết quả tìm kiếm. Hãy theo dõi Khóa học Digital Marketing để tìm hiểu nhiều thêm về kiến thức SEO bổ ích nhé!

 

Liên hệ SEO

✅ Dịch vụ SEO ⭐ SEO tổng thể, SEO từ khóa
✅ Giá SEO ⭕ Rẻ nhất thị trường
✅ Thời gian SEO ⭐ 8 – 12 tháng.
✅ Từ khóa ⭕ Top 1-3, 1-5, 1-7, 1-10
✅ Cam kết ⭐ An toàn và bền vững
✅ Chuyển đổi ⭕ Tối ưu cao nhất

 

Câu hỏi thường gặp về Thu thập dữ liệu và lập chỉ mục

  1. Làm thế nào để thu thập dữ liệu trong Google Search Console?
    Bạn cần xác nhận trang web và kết nối nó với GSC. Sau đó, dữ liệu sẽ được tự động thu thập và hiển thị trong giao diện của GSC.
  2. Tại sao tôi không thể thấy dữ liệu mới được cập nhật trong GSC?
    Hãy kiểm tra xem trang web của bạn có được Googlebot duyệt và lập chỉ mục mới không. Đôi khi, việc cập nhật dữ liệu có thể mất một thời gian để được hiển thị trong GSC.
  3. Làm thế nào để xác nhận và lập chỉ mục trang web của tôi trong GSC?
    Sử dụng phương pháp xác nhận tài liệu hoặc xác nhận qua mã HTML. Sau khi xác nhận, bạn có thể gửi sitemap để giúp Googlebot lập chỉ mục các trang của bạn.
  4. Tôi đã gửi sitemap cho GSC nhưng tại sao nó vẫn không hiển thị trên kết quả tìm kiếm?
    Hãy đảm bảo rằng sitemap của bạn đã được xác nhận và không có lỗi. Ngoài ra, cần kiên nhẫn chờ đợi vì quá trình lập chỉ mục có thể mất thời gian.
  5. Tôi đã phát hiện lỗi trong quá trình lập chỉ mục, làm thế nào để khắc phục nó và đảm bảo rằng nội dung của tôi được hiển thị đúng trên Google?
    Kiểm tra các thông báo lỗi và cảnh báo trong GSC. Từ đó, bạn có thể xác định lỗi cụ thể và thực hiện các biện pháp khắc phục như sửa lỗi trang.

 

CHÚC CÁC BẠN THÀNH CÔNG!

Để lại một bình luận