Bài 7: Robots.txt

Một trong những yếu tố quan trọng mà bạn cần kiểm tra và tối ưu khi làm Technical SEO là file Robots.txt. Bất kì một lỗi sai nào trong file Robots.txt  có thể gây ra ảnh hưởng nghiêm trọng đến kết quả SEO đồng thời tác động tiêu cực đến thứ hạng và lưu lượng truy cập của trang web. Cùng tìm hiểu bài viết dưới đây để biết rõ hơn file robots.txt là gì và làm sao để tối ưu, chỉnh sửa nó một cách nhanh chóng, đơn giản.

Robots.txt là gì?

Robots.txt là một file văn bản nằm trong thư mục gốc (root directory) của trang web và nó hướng dẫn cho trình thu thập dữ liệu của ng cụ tìm kiếm về những URL nào mà chúng có thể thu thập dữ liệu và lập chỉ mục trên trang web của bạn.

Nếu bạn đã đọc bài trước về cách thức hoạt động của các ng cụ tìm kiếm, bạn sẽ biết rằng trong giai đoạn thu thập dữ liệu và lập chỉ mục, các ng cụ tìm kiếm sẽ cố gắng tìm các URL có trên trang web để đưa vào chỉ mục. 

Việc đầu tiên mà các công cụ tìm kiếm làm khi truy cập vào một website mới là kiểm tra nội dung của file Robots.txt. Từ đó, chúng sẽ dựa vào những quy tắc có trong file để tạo ra một danh sách URL có thể thu thập dữ liệu rồi tiến hành lập chỉ mục.

Nội dung của file robots.txt được cung cấp ng khai trên Internet. Trừ khi được bảo mật, bất kỳ ai cũng có thể xem file robots.txt của bạn, vì vậy bạn không nên thêm vào file nội dung mà bạn không muốn người khác xem.

Tại sao nên sử dụng file robots.txt?

File robots.txt được sử dụng phổ biến trong 04 trường hợp sau:

Chặn các ng cụ tìm kiếm 

File robots.txt có thể chặn các công cụ tìm kiếm truy cập các trang hoặc thư mục cụ thể trên trang web của bạn.

Ví dụ: hãy xem file robots.txt bên dưới và lưu ý các quy tắc không cho phép (Disallow). Các câu lệnh này hướng dẫn trình thu thập dữ liệu của ng cụ tìm kiếm không lập chỉ mục các thư mục đó. Lưu ý rằng bạn có thể sử dụng (*) làm ký tự đại diện cho các URL cùng thư mục.

Ví dụ về file robots.txt
Ví dụ về file robots.txt

Tối ưu hiệu suất

Trường hợp bạn bạn có một trang web lớn, việc thu thập thông tin và lập chỉ mục sẽ rất tốn tài nguyên. Về cơ bản, trình thu thập dữ liệu từ các công cụ tìm kiếm khác nhau sẽ cố gắng thu thập dữ liệu và lập chỉ mục toàn bộ trang web của bạn và điều này gây ra một số vấn đề nghiêm trọng về hiệu suất. 

Lúc này, file robots.txt có tác dụng hạn chế quyền truy cập của công cụ tìm kiếm vào một số thành phần nhất định của trang web mà bạn cảm thấy không cần thiết phải lập chỉ mục. Bằng cách này, không chỉ giúp quá trình lập chỉ mục diễn ra nhanh chóng hơn mà còn giúp giảm tải trên máy chủ.

Cú pháp của file Robots.txt

File robots.txt có cấu trúc khá đơn giản. Có một số lệnh được đưa ra từ trước mà bạn có thể sử dụng, phổ biến nhất là:

  • Tác nhân người dùng (User-agent)
  • Không cho phép (Disallow)
  • Cho phép (Allow)
  • Trì hoãn thu thập dữ liệu (Crawl-delay)
  • Sơ đồ trang web (Sitemap).

Tác nhân người dùng (User-agent)

Chỉ định trình thu thập dữ liệu (Googlebot, Bingbot,…) nào sẽ được thực thi các lệnh bên dưới. Bạn có thể sử dụng dấu * để tham chiếu tất cả trình thu thập dữ liệu hoặc chỉ định tên cụ thể của trình thu thập thông tin mà bạn muốn. Xem các ví dụ dưới đây:
User-agent: * (Bao gồm tất cả các trình thu thập thông tin).
User-agent: Googlebot (Hướng dẫn trong file chỉ dành cho Googlebot).
Bạn có thể xem tất cả các tên và giá trị cho chỉ thị User-agent tại đây .

Không cho phép (Disallow)

Lệnh Disallow hướng dẫn User-agent (được chỉ định ở trên) không thu thập dữ liệu URL hoặc một phần của trang web và mỗi một URL sẽ được sử dụng cho một dòng Disallow. Giá trị của disallow có thể là một file, URL hoặc thư mục cụ thể. Nhìn vào ví dụ dưới đây:

QUY TẮC HỮU ÍCH
Không cho phép thu thập dữ liệu toàn bộ trang web

Trong một số trường hợp, Google vẫn có thể lập chỉ mục các URL thuộc trang web của bạn mặc dù chưa thu thập dữ liệu những URL đó.

Lưu ý: Quy tắc này không khớp với nhiều trình thu thập dữ liệu AdsBot. Bạn cần phải đặt tên rõ ràng cho các trình này.

User-agent: *

Disallow: /

Không cho phép thu thập dữ liệu một thư mục và nội dung trong đó

Bạn có thể thêm dấu gạch chéo vào tên thư mục để không cho phép thu thập dữ liệu toàn bộ thư mục.

Lưu ý: Hãy nhớ rằng bạn không nên dùng tệp robots.txt để chặn truy cập vào nội dung riêng tư mà nên sử dụng phương thức xác thực phù hợ vì Google vẫn có thể lập chỉ mục các URL bị tệp robots.txt chặn mà không cần thu thập dữ liệu những URL đó. Ngoài ra, ai cũng có thể xem tệp robots.txt và điều này có thể làm lộ vị trí của nội dung riêng tư của bạn.

 User-agent: *

Disallow: /calendar/

Disallow: /junk/

Disallow: /books/fiction/contemporary/

Cho phép truy cập vào một trình thu thập dữ liệu Chỉ googlebot-news mới có thể thu thập dữ liệu trên toàn bộ trang web.

User-agent: Googlebot-news

Allow: /

 

User-agent: *

Disallow: /

Cho phép tất cả các trình thu thập dữ liệu truy cập nhưng ngoại trừ một trình thu thập dữ liệu

Riêng Unnecessarybot không được thu thập dữ liệu trên trang web, mọi bot khác thì có thể.

User-agent: Unnecessarybot

Disallow: /

User-agent: *

Allow: /

Không cho phép thu thập dữ liệu trên một trang của trang web

Ví dụ: không cho phép trang useless_file.html nằm ở https://example.com/useless_file.htmlother_useless_file.html trong thư mục junk.

 

User-agent: *

Disallow: /useless_file.html

Disallow: /junk/other_useless_file.html

Không cho phép thu thập dữ liệu trên toàn bộ trang web, ngoại trừ một thư mục con

Trình thu thập dữ liệu chỉ có thể truy cập vào thư mục con public.

User-agent: *

Disallow: /

Allow: /public/

Chặn một hình ảnh cụ thể khỏi Google Hình ảnh

Ví dụ: không cho phép hình ảnh dogs.jpg.

 

User-agent: Googlebot-Image

Disallow: /images/dogs.jpg

Chặn mọi hình ảnh trên trang web khỏi Google Hình ảnh

Khác với URL, Google không thể lập chỉ mục hình ảnh và video mà không thu thập dữ liệu hình ảnh và video đó.

User-agent: Googlebot-Image

Disallow: /

Không cho phép thu thập dữ liệu trong các tệp thuộc một loại cụ thể

Ví dụ: không cho phép thu thập dữ liệu trong mọi tệp .gif.

User-agent: Googlebot

Disallow: /*.gif$

Không cho phép thu thập dữ liệu trên toàn bộ trang web, nhưng cho phép Mediapartners-Google

Việc dùng các lệnh này này ẩn các trang của bạn khỏi kết quả tìm kiếm, nhưng trình thu thập dữ liệu web Mediapartners-Google vẫn có thể phân tích những trang đó để quyết định xem nên hiển thị quảng cáo nào cho khách truy cập trang web của bạn.

 

User-agent: *

Disallow: /

User-agent: Mediapartners-Google

Allow: /

Sử dụng ký tự đại diện *$ để khớp với những URL kết thúc bằng một chuỗi cụ thể

Ví dụ: không cho phép mọi tệp .xls.

User-agent: Googlebot

Disallow: /*.xls$

Cho phép (Allow)

Chỉ thị cho biết những trang hoặc thư mục con nào có thể được truy cập bởi công cụ tìm kiếm. Lưu ý rằng điều này chỉ áp dụng cho Googlebot.

Bạn có thể sử dụng quyền cho phép để cấp quyền truy cập vào một thư mục con cụ thể trên trang web của mình, ngay cả khi thư mục mẹ không được phép.

Ví dụ: Bạn có thể không cho phép truy cập vào thư mục IMAGE nhưng cho phép truy cập vào thư mục con DMA của bạn , thư mục này nằm trong IMAGE.

User-agent: *
Disallow: /image
Allow: /image/dma/

Trì hoãn thu thập dữ liệu (Crawl-delay)

Bạn có thể chỉ định độ trễ thu thập dữ liệu để buộc trình thu thập dữ liệu của ng cụ tìm kiếm đợi một khoảng thời gian cụ thể trước khi thu thập dữ liệu trang tiếp theo từ trang web của bạn. Giá trị bạn nhập tính bằng mili giây .

Cần lưu ý rằng: Googlebot không tính đến độ trễ thu thập dữ liệu.

Bạn có thể sử dụng Google Search Console để kiểm soát tốc độ thu thập thông tin cho Google (tham khảo tùy chọn tại đây ).

Giới hạn tốc độ thu thập dữ liệu tối đa của Google
Giới hạn tốc độ thu thập dữ liệu tối đa của Google

Có thể sử dụng tốc độ thu thập dữ liệu trong trường hợp bạn có một trang web có hàng nghìn trang và bạn không muốn làm quá tải máy chủ của mình. Tuy nhiên, trong phần lớn các trường hợp, mình khuyên bạn không nên sử dụng chỉ thị trì hoãn thu thập thông tin .

Sơ đồ trang web (Sitemap)

Lệnh Sitemap được dùng cho hầu hết các ng cụ tìm kiếm chính, kể cả Google và được sử dụng để chỉ định vị trí của Sitemap XML.

Ngay cả khi bạn không chỉ định vị trí của Sitemap XML trong robots.txt, các ng cụ tìm kiếm vẫn có thể tìm thấy nó nhưng nếu có thì sẽ nhanh hơn.

Ví dụ: Sitemap: https://dmagency.vn/sitemap.xml

Lưu ý quan trọng: Robots.txt phân biệt chữ hoa chữ thường. Điều này có nghĩa là nếu bạn thêm lệnh Disallow: /Filerobot.html, nó sẽ không chặn filerobot.html.

Hai điều quan trọng cần biết về robots.txt

Điều đầu tiên là bất kỳ cấu hình nào bạn thêm vào file robots.txt đều là lệnh. Điều này có nghĩa là các công cụ tìm kiếm phải tuân theo lệnh đó để thực hiện.

Tuy nhiên, mình khuyên nếu có nội dung mà bạn không muốn đưa vào chỉ mục, cách tốt nhất là đặt mật khẩu bảo vệ trang thay vì thêm vô file robots.txt.

Bên cạnh mật khẩu bảo vệ, một cách khác là sử dụng noindex và thêm vào <head> của mỗi trang: <meta name=”robots.txt” content=”noindex”>

Điều thứ hai là ngay cả khi bạn chặn một trang hoặc thư mục trong file robots.txt, nó vẫn có thể xuất hiện trong kết quả tìm kiếm nếu trang hoặc thư mục đó có liên kết từ các trang khác đã được lập chỉ mục. Nói cách khác, việc thêm một trang vào robots.txt không đảm bảo chắc chắn rằng trang đó sẽ bị xóa hoặc không xuất hiện trên Google.

Tạo file Robot.txt như thế nào?

Việc tạo file robots.txt khá đơn giản. Bạn cần có một trình soạn thảo văn bản (notepad) và quyền truy cập vào các file trên trang web của bạn (thông qua FTP hoặc Control Panel).

Trước khi tạo file robots.txt, bạn cần kiểm tra xem bạn đã có file chưa. Cách nhanh chóng nhất để kiểm tra là mở một cửa sổ trình duyệt và nhập https://doman.com/robots.txt.

Nếu bạn thấy nội dung tương tự như:

User-agent: *
Allow: /

Nghĩa là bạn đã có file robots.txt và bạn có thể chỉnh sửa file hiện có thay vì tạo file mới.

Cách tạo file Robot.txt mới

  • Cách 1: làm thủ công

Để tạo file Robot.txt thủ công, bạn có thể thực hiện theo các bước dưới đây:

Bước 1: Mở Notepad hoặc bất kỳ trình soạn thảo văn bản nào khác rồi tạo mẫu file robots.txt như mong muốn của bạn.

Bước 2: Mở FTP/Hosting → Chọn thư mục public_html → Chọn file robots.txt rồi Upload file bạn vừa tạo.

  • Cách 2: sử dụng plugin nếu là website WordPress 

Hầu hết các plugin hỗ trợ SEO cho website WordPress như Yoast SEO, Rank Math, AIOSEO… đều cung cấp tính năng tạo file robots.txt sẵn có.

Ví dụ, với plugin Yoast SEO, bạn có thể truy cập vào menu SEO => Công cụ => Trình soạn thảo tệp tin robots.txt và nhấp vào nút Tạo tệp tin robots.txt.

Quan trọng: Đảm bảo rằng tên file của bạn phải đúng tên là robots.txt. Ngoài ra, hãy nhớ rằng tên file phân biệt chữ hoa chữ thường nên tất cả phải là chữ thường.

Bạn đặt robots.txt ở đâu? Luôn nhớ rằng file robots.txt phải luôn nằm trong thư mục gốc của trang web của bạn nhé.

Ví dụ về file robots.txt

File robots.txt của mình có các nội dung sau:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-login.php*
Disallow: /readme.html
Disallow: /license.txt
Disallow: /xmlrpc.php
Disallow: /?s=*
Disallow: /search/*
Disallow: /tag/
Allow: /
Sitemap: https://daotaodigital.com/sitemap_index.xml

Ý nghĩa từng lệnh như sau:

  • Lệnh “User-agent: *” áp dụng cho tất cả các user-agent, tức là các ng cụ tìm kiếm và robot truy cập vào trang web.
  • Lệnh “Disallow: /wp-admin/” chặn truy cập vào thư mục wp-admin, nơi chứa các tệp quản lý của hệ thống quản trị WordPress.
  • Lệnh “Disallow: /wp-includes/” chặn truy cập vào thư mục wp-includes, nơi chứa các tệp quan trọng cho chức năng cốt lõi của WordPress.
  • Lệnh “Disallow: /wp-login.php*” chặn truy cập vào trang đăng nhập của WordPress.
  • Lệnh “Disallow: /readme.html” chặn truy cập vào tệp readme.html, thông tin về phiên bản WordPress đang chạy.
  • Lệnh “Disallow: /license.txt” chặn truy cập vào tệp license.txt, thông tin về giấy phép sử dụng WordPress.
  • Lệnh “Disallow: /xmlrpc.php” chặn truy cập vào tệp xmlrpc.php, giao diện lập trình ứng dụng từ xa cho WordPress.
  • Lệnh “Disallow: /?s=* chặn truy cập vào các URL chứa tham số tìm kiếm “?s=” để tránh tạo nhiều phiên bản trang tìm kiếm.
  • Lệnh Disallow: /search/* Ngăn chặn việc hiển thị kết quả tìm kiếm cụ thể với các biến tìm kiếm khác nhau, nhằm tránh trùng lặp nội dung và tối ưu hóa trang web cho các bot tìm kiếm.
  • Lệnh Disallow: /tag/ cấm truy cập vào thư mục thẻ “tag” nhằm tránh trùng lặp nội dung và tối ưu hóa trang web cho các bot tìm kiếm.
  • Lệnh Allow: / Lệnh này cho phép truy cập vào các phần còn lại của trang web.
  • Sitemap: https://daotaodigital.com/sitemap_index.xml .Xác định đường dẫn đến tệp sitemap giúp robot tìm kiếm hiểu cấu trúc trang web và các trang một cách hiệu quả.

Điều này cho phép tất cả các bot truy cập trang web của bạn mà không bị chặn. Nó cũng chỉ định vị trí Sitemap để giúp các ng cụ tìm kiếm dễ dàng định vị nó hơn.

Cách chỉnh sửa file robots.txt của bạn

Bước 1: Sử dụng FTP Client hoặc Control Panel để kết nối với thư mục gốc của trang web.

Buóc 2: Robots.txt thường luôn nằm trong thư mục gốc (www hoặc public_html, tùy thuộc vào máy chủ của bạn).

Bước 3: Tải file xuống PC của bạn và mở file bằng trình soạn thảo văn bản.

Bước 4: Thực hiện các thay đổi cấu hình cần thiết và tải file trở lại máy chủ của bạn.

Làm cách nào để kiểm tra và xác thực file robots.txt?

Mặc dù bạn có thể xem nội dung của file robots.txt bằng cách tìm đến URL của file robots.txt, nhưng cách tốt nhất để kiểm tra và xác thực nó là thông qua ng cụ kiểm tra file robots.txt của Google Search Console.

Bạn có thể truy cập ng cụ kiểm tra robots.txt tại đây và nhấp vào nút Kiểm tra.

Nếu mọi thứ đều tốt, nút Kiểm tra sẽ chuyển sang màu xanh lá cây và nhãn sẽ thay đổi thành ALLOWED. Nếu có bất kì vấn đề nào, dòng gây ra lỗi sẽ được báo bằng cách tô sáng.

Công cụ kiểm tra file robots.txt
Công cụ kiểm tra file robots.txt

Một số lưu ý về ng cụ kiểm tra robots.txt

  • Bạn có thể sử dụng Trình kiểm tra URL (dưới cùng của ng cụ) để nhập URL từ trang web của mình và kiểm tra xem URL đó có bị chặn hay không.
  • Bạn có thể thực hiện thay đổi đối trong trình chỉnh sửa và kiểm tra các quy tắc mới, nhưng để các quy tắc này được áp dụng chính thức cho robots.txt, bạn cần chỉnh sửa file của mình bằng trình chỉnh sửa văn bản và tải file lên thư mục gốc của trang web.
  • Để thông báo cho Google rằng bạn đã thực hiện các thay đổi đối với file robots.txt của mình, hãy nhấp vào nút Gửi và chọn tùy chọn 3
Gửi bản cập nhật robots.txt
Gửi bản cập nhật robots.txt

File Robots.txt ảo trong WordPress

Mọi thứ bạn đọc cho đến lúc này về robots.txt đều áp dụng cho các trang web WordPress. Những điều bạn cần biết về robots.txt và WordPress có thể nói đến như sau:

Trước đây, các trang web WordPress được khuyến nghị chặn quyền truy cập vào các thư mục wp-admin và wp-includes thông qua robots.txt. Nhưng kể từ năm 2012 thì điều này không còn cần thiết nữa vì WordPress được thêm thẻ @header( ‘X-Robots-Tag: noindex’ )mà thực hiện được ng việc tương tự như thêm lệnh Disallow trong robots.txt.

File Robots.txt ảo là gì?

Theo mặc định, WordPress sử dụng file robot.txt ảo . Điều này có nghĩa là bạn không thể trực tiếp chỉnh sửa file hoặc tìm thấy file đó trong thư mục gốc của thư mục. Cách duy nhất để xem nội dung của file là nhập https://domain.com/robots.txt vào trình duyệt của bạn.

Các giá trị mặc định của WordPress robots.txt là:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Khi bạn bật tùy chọn “Ngăn chặn các ng cụ tìm kiếm đánh chỉ mục website này” trong Cài đặt → Đọc của trang quản trị web, file robots.txt sẽ trở thành:

User-agent: *
Disallow: /

Cải đặt hiển thị với công cụ tìm kiếm WordPress
Cải đặt hiển thị với công cụ tìm kiếm WordPress

Làm cách nào để chỉnh sửa robots.txt ảo trong WordPress?

Vì bạn không thể chỉnh sửa trực tiếp file robots.txt ảo do WordPress cung cấp nên cách duy nhất để chỉnh sửa file là tạo một file mới và thêm file đó vào thư mục gốc của trang web của bạn.

Khi một file vật lý có trong thư mục gốc, file WordPress ảo sẽ không được xem xét.

Lưu ý khi sử dụng file Robot.txt

  • Hãy kiểm tra file robots.txt của bạn và đảm bảo rằng bạn không chặn các trang mà bạn muốn xuất hiện trong ng cụ tìm kiếm.
  • Không nên chặn các thư mục CSS hoặc JS. Google, trong quá trình thu thập dữ liệu và lập chỉ mục, có thể xem một trang web như một người dùng thực và các trang web cần JS và CSS để hoạt động bình thường.
  • Nếu bạn đang sử dụng WordPress, không cần phải chặn quyền truy cập vào các thư mục wp-adminwp-include vì WordPress đã có sẵn thẻ meta robot.
  • Không nên dùng các quy tắc khác nhau cho mỗi bot của ng cụ tìm kiếm, điều này có thể gây nhầm lẫn và khó cập nhật. Tốt hơn nên sử dụng User-agent * và cung cấp một bộ quy tắc thống nhất cho tất cả các bot.
  • Nếu bạn muốn loại trừ các trang khỏi việc lập chỉ mục bởi các ng cụ tìm kiếm, tốt hơn bạn nên làm điều đó bằng cách sử dụng <META name =” robot ” content =” noindex, nofollow “/> trong tiêu đề của mỗi trang chứ không nên thông qua file robots.txt.

Kết luận

Vậy với những thông tin mà Khóa học Digital Marketing đã cung cấp trong bài viết trên, hy vọng bạn đã hiểu rõ được file robots.txt là gì cũng như cách để tạo hoặc chỉnh sửa file Robot.txt cho trang web của bạn. Dù vẫn có những mặt hạn chế nhất định nhưng đây là yếu tố rất cần thiết cho việc tối ưu trang web để đảm bảo quá trình SEO của bạn đạt được kết quả tốt.

 

Liên hệ SEO

✅ Dịch vụ SEO ⭐ SEO tổng thể, SEO từ khóa
✅ Giá SEO ⭕ Rẻ nhất thị trường
✅ Thời gian SEO ⭐ 8 – 12 tháng.
✅ Từ khóa ⭕ Top 1-3, 1-5, 1-7, 1-10
✅ Cam kết ⭐ An toàn và bền vững
✅ Chuyển đổi ⭕ Tối ưu cao nhất

 

Câu hỏi thường gặp về file robots.txt

  1. Bạn có cần file robots.txt không?
    Có, bạn chắc chắn cần phải có file robots.txt.
  2. Điều gì xảy ra nếu bạn không có file robots.txt?
    Nếu thiếu file robots.txt, trình thu thập thông tin của ng cụ tìm kiếm cho rằng tất cả các trang đều có thể được thu thập thông tin và thêm tất cả vào chỉ mục của chúng.
  3. Điều gì xảy ra nếu file robots.txt không được cấu hình đúng?
    Nếu các ng cụ tìm kiếm không thể hiểu nội dung của file vì nó bị định cấu hình sai, chúng vẫn sẽ truy cập trang web và bỏ qua mọi nội dung trong robots.txt.
  4. Điều gì xảy ra nếu tôi vô tình chặn các ng cụ tìm kiếm truy cập trang web của mình?
    Công cụ tìm kiếm sẽ không thu thập dữ liệu và lập chỉ mục các trang web của bạn và dần dần nó sẽ xóa hết các trang trong chỉ mục.
  5. Kích thước tối đa của file robots.txt là bao nhiêu?
    Kích thước đối đa khoảng 500 kilobyte.

 

CHÚC CÁC BẠN THÀNH CÔNG!

Để lại một bình luận