Một trong những yếu tố quan trọng mà bạn cần kiểm tra và tối ưu khi làm Technical SEO là file Robots.txt. Bất kì một lỗi sai nào trong file Robots.txt có thể gây ra ảnh hưởng nghiêm trọng đến kết quả SEO đồng thời tác động tiêu cực đến thứ hạng và lưu lượng truy cập của trang web. Cùng tìm hiểu bài viết dưới đây để biết rõ hơn file robots.txt là gì và làm sao để tối ưu, chỉnh sửa nó một cách nhanh chóng, đơn giản.

Robots.txt là gì?

Robots.txt là một file văn bản nằm trong thư mục gốc (root directory) của trang web và nó hướng dẫn cho trình thu thập dữ liệu của công cụ tìm kiếm về những URL nào mà chúng có thể thu thập dữ liệu và lập chỉ mục trên trang web của bạn.

Nếu bạn đã đọc bài trước về cách thức hoạt động của các công cụ tìm kiếm, bạn sẽ biết rằng trong giai đoạn thu thập dữ liệu và lập chỉ mục, các công cụ tìm kiếm sẽ cố gắng tìm các URL có trên trang web để đưa vào chỉ mục.

Việc đầu tiên mà các công cụ tìm kiếm làm khi truy cập vào một website mới là kiểm tra nội dung của file Robots.txt. Từ đó, chúng sẽ dựa vào những quy tắc có trong file để tạo ra một danh sách URL có thể thu thập dữ liệu rồi tiến hành lập chỉ mục.

Nội dung của file robots.txt được cung cấp công khai trên Internet. Trừ khi được bảo mật, bất kỳ ai cũng có thể xem file robots.txt của bạn, vì vậy bạn không nên thêm vào file nội dung mà bạn không muốn người khác xem.

Tại sao nên sử dụng file robots.txt?

File robots.txt được sử dụng phổ biến trong 04 trường hợp sau:

Chặn các công cụ tìm kiếm

File robots.txt có thể chặn các công cụ tìm kiếm truy cập các trang hoặc thư mục cụ thể trên trang web của bạn.

Ví dụ: hãy xem file robots.txt bên dưới và lưu ý các quy tắc không cho phép (Disallow). Các câu lệnh này hướng dẫn trình thu thập dữ liệu của công cụ tìm kiếm không lập chỉ mục các thư mục đó. Lưu ý rằng bạn có thể sử dụng (*) làm ký tự đại diện cho các URL cùng thư mục.

Tối ưu hiệu suất

Trường hợp bạn bạn có một trang web lớn, việc thu thập thông tin và lập chỉ mục sẽ rất tốn tài nguyên. Về cơ bản, trình thu thập dữ liệu từ các công cụ tìm kiếm khác nhau sẽ cố gắng thu thập dữ liệu và lập chỉ mục toàn bộ trang web của bạn và điều này gây ra một số vấn đề nghiêm trọng về hiệu suất.

Lúc này, file robots.txt có tác dụng hạn chế quyền truy cập của công cụ tìm kiếm vào một số thành phần nhất định của trang web mà bạn cảm thấy không cần thiết phải lập chỉ mục. Bằng cách này, không chỉ giúp quá trình lập chỉ mục diễn ra nhanh chóng hơn mà còn giúp giảm tải trên máy chủ.

Cú pháp của file Robots.txt

File robots.txt có cấu trúc khá đơn giản. Có một số lệnh được đưa ra từ trước mà bạn có thể sử dụng, phổ biến nhất là:

Tác nhân người dùng (User-agent)
Không cho phép (Disallow)
Cho phép (Allow)
Trì hoãn thu thập dữ liệu (Crawl-delay)
Sơ đồ trang web (Sitemap).

Tác nhân người dùng (User-agent)

Chỉ định trình thu thập dữ liệu (Googlebot, Bingbot,…) nào sẽ được thực thi các lệnh bên dưới. Bạn có thể sử dụng dấu * để tham chiếu tất cả trình thu thập dữ liệu hoặc chỉ định tên cụ thể của trình thu thập thông tin mà bạn muốn. Xem các ví dụ dưới đây:

User-agent: * (Bao gồm tất cả các trình thu thập thông tin).

User-agent: Googlebot (Hướng dẫn trong file chỉ dành cho Googlebot).

Bạn có thể xem tất cả các tên và giá trị cho chỉ thị User-agent tại đây .

Không cho phép (Disallow)

Lệnh Disallow hướng dẫn User-agent (được chỉ định ở trên) không thu thập dữ liệu URL hoặc một phần của trang web và mỗi một URL sẽ được sử dụng cho một dòng Disallow. Giá trị của disallow có thể là một file, URL hoặc thư mục cụ thể. Nhìn vào ví dụ dưới đây:

QUY TẮC HỮU ÍCH
Không cho phép thu thập dữ liệu toàn bộ trang web	Trong một số trường hợp, Google vẫn có thể lập chỉ mục các URL thuộc trang web của bạn mặc dù chưa thu thập dữ liệu những URL đó. Lưu ý: Quy tắc này không khớp với nhiều trình thu thập dữ liệu AdsBot. Bạn cần phải đặt tên rõ ràng cho các trình này. User-agent: * Disallow: /
Không cho phép thu thập dữ liệu một thư mục và nội dung trong đó	Bạn có thể thêm dấu gạch chéo vào tên thư mục để không cho phép thu thập dữ liệu toàn bộ thư mục. Lưu ý: Hãy nhớ rằng bạn không nên dùng tệp robots.txt để chặn truy cập vào nội dung riêng tư mà nên sử dụng phương thức xác thực phù hợ vì Google vẫn có thể lập chỉ mục các URL bị tệp robots.txt chặn mà không cần thu thập dữ liệu những URL đó. Ngoài ra, ai cũng có thể xem tệp robots.txt và điều này có thể làm lộ vị trí của nội dung riêng tư của bạn. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/
Cho phép truy cập vào một trình thu thập dữ liệu	Chỉ googlebot-news mới có thể thu thập dữ liệu trên toàn bộ trang web. User-agent: Googlebot-news Allow: / User-agent: * Disallow: /
Cho phép tất cả các trình thu thập dữ liệu truy cập nhưng ngoại trừ một trình thu thập dữ liệu	Riêng Unnecessarybot không được thu thập dữ liệu trên trang web, mọi bot khác thì có thể. User-agent: Unnecessarybot Disallow: / User-agent: * Allow: /
Không cho phép thu thập dữ liệu trên một trang của trang web	Ví dụ: không cho phép trang useless_file.html nằm ở https://example.com/useless_file.html và other_useless_file.html trong thư mục junk. User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html
Không cho phép thu thập dữ liệu trên toàn bộ trang web, ngoại trừ một thư mục con	Trình thu thập dữ liệu chỉ có thể truy cập vào thư mục con public. User-agent: * Disallow: / Allow: /public/
Chặn một hình ảnh cụ thể khỏi Google Hình ảnh	Ví dụ: không cho phép hình ảnh dogs.jpg. User-agent: Googlebot-Image Disallow: /images/dogs.jpg
Chặn mọi hình ảnh trên trang web khỏi Google Hình ảnh	Khác với URL, Google không thể lập chỉ mục hình ảnh và video mà không thu thập dữ liệu hình ảnh và video đó. User-agent: Googlebot-Image Disallow: /
Không cho phép thu thập dữ liệu trong các tệp thuộc một loại cụ thể	Ví dụ: không cho phép thu thập dữ liệu trong mọi tệp .gif. User-agent: Googlebot *Disallow: /.gif$**
Không cho phép thu thập dữ liệu trên toàn bộ trang web, nhưng cho phép Mediapartners-Google	Việc dùng các lệnh này này ẩn các trang của bạn khỏi kết quả tìm kiếm, nhưng trình thu thập dữ liệu web Mediapartners-Google vẫn có thể phân tích những trang đó để quyết định xem nên hiển thị quảng cáo nào cho khách truy cập trang web của bạn. User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
Sử dụng ký tự đại diện * và $ để khớp với những URL kết thúc bằng một chuỗi cụ thể	Ví dụ: không cho phép mọi tệp .xls. User-agent: Googlebot *Disallow: /.xls$**

Cho phép (Allow)

Chỉ thị cho biết những trang hoặc thư mục con nào có thể được truy cập bởi công cụ tìm kiếm. Lưu ý rằng điều này chỉ áp dụng cho Googlebot.

Bạn có thể sử dụng quyền cho phép để cấp quyền truy cập vào một thư mục con cụ thể trên trang web của mình, ngay cả khi thư mục mẹ không được phép.

Ví dụ: Bạn có thể không cho phép truy cập vào thư mục IMAGE nhưng cho phép truy cập vào thư mục con DMA của bạn , thư mục này nằm trong IMAGE.

User-agent: *
Disallow: /image
Allow: /image/dma/

Trì hoãn thu thập dữ liệu (Crawl-delay)

Bạn có thể chỉ định độ trễ thu thập dữ liệu để buộc trình thu thập dữ liệu của công cụ tìm kiếm đợi một khoảng thời gian cụ thể trước khi thu thập dữ liệu trang tiếp theo từ trang web của bạn. Giá trị bạn nhập tính bằng mili giây .

Cần lưu ý rằng: Googlebot không tính đến độ trễ thu thập dữ liệu.

Bạn có thể sử dụng Google Search Console để kiểm soát tốc độ thu thập thông tin cho Google (tham khảo tùy chọn tại đây ).

Giới hạn tốc độ thu thập dữ liệu tối đa của Google

Có thể sử dụng tốc độ thu thập dữ liệu trong trường hợp bạn có một trang web có hàng nghìn trang và bạn không muốn làm quá tải máy chủ của mình. Tuy nhiên, trong phần lớn các trường hợp, mình khuyên bạn không nên sử dụng chỉ thị trì hoãn thu thập thông tin .

Sơ đồ trang web (Sitemap)

Lệnh Sitemap được dùng cho hầu hết các công cụ tìm kiếm chính, kể cả Google và được sử dụng để chỉ định vị trí của Sitemap XML.

Ngay cả khi bạn không chỉ định vị trí của Sitemap XML trong robots.txt, các công cụ tìm kiếm vẫn có thể tìm thấy nó nhưng nếu có thì sẽ nhanh hơn.

Ví dụ: Sitemap: https://dmagency.vn/sitemap.xml

Lưu ý quan trọng: Robots.txt phân biệt chữ hoa chữ thường. Điều này có nghĩa là nếu bạn thêm lệnh Disallow: /Filerobot.html, nó sẽ không chặn filerobot.html.

Hai điều quan trọng cần biết về robots.txt

Điều đầu tiên là bất kỳ cấu hình nào bạn thêm vào file robots.txt đều là lệnh. Điều này có nghĩa là các công cụ tìm kiếm phải tuân theo lệnh đó để thực hiện.

Tuy nhiên, mình khuyên nếu có nội dung mà bạn không muốn đưa vào chỉ mục, cách tốt nhất là đặt mật khẩu bảo vệ trang thay vì thêm vô file robots.txt.

Bên cạnh mật khẩu bảo vệ, một cách khác là sử dụng noindex và thêm vào <head> của mỗi trang: <meta name=”robots.txt” content=”noindex”>

Điều thứ hai là ngay cả khi bạn chặn một trang hoặc thư mục trong file robots.txt, nó vẫn có thể xuất hiện trong kết quả tìm kiếm nếu trang hoặc thư mục đó có liên kết từ các trang khác đã được lập chỉ mục. Nói cách khác, việc thêm một trang vào robots.txt không đảm bảo chắc chắn rằng trang đó sẽ bị xóa hoặc không xuất hiện trên Google.

Tạo file Robot.txt như thế nào?

Việc tạo file robots.txt khá đơn giản. Bạn cần có một trình soạn thảo văn bản (notepad) và quyền truy cập vào các file trên trang web của bạn (thông qua FTP hoặc Control Panel).

Trước khi tạo file robots.txt, bạn cần kiểm tra xem bạn đã có file chưa. Cách nhanh chóng nhất để kiểm tra là mở một cửa sổ trình duyệt và nhập https://doman.com/robots.txt.

Nếu bạn thấy nội dung tương tự như:

User-agent: *
Allow: /

Nghĩa là bạn đã có file robots.txt và bạn có thể chỉnh sửa file hiện có thay vì tạo file mới.

Cách tạo file Robot.txt mới

Cách 1: làm thủ công

Để tạo file Robot.txt thủ công, bạn có thể thực hiện theo các bước dưới đây:

Bước 1: Mở Notepad hoặc bất kỳ trình soạn thảo văn bản nào khác rồi tạo mẫu file robots.txt như mong muốn của bạn.

Bước 2: Mở FTP/Hosting → Chọn thư mục public_html → Chọn file robots.txt rồi Upload file bạn vừa tạo.

Cách 2: sử dụng plugin nếu là website WordPress

Hầu hết các plugin hỗ trợ SEO cho website WordPress như Yoast SEO, Rank Math, AIOSEO… đều cung cấp tính năng tạo file robots.txt sẵn có.

Ví dụ, với plugin Yoast SEO, bạn có thể truy cập vào menu SEO => Công cụ => Trình soạn thảo tệp tin robots.txt và nhấp vào nút Tạo tệp tin robots.txt.

Quan trọng: Đảm bảo rằng tên file của bạn phải đúng tên là robots.txt. Ngoài ra, hãy nhớ rằng tên file phân biệt chữ hoa chữ thường nên tất cả phải là chữ thường.

Bạn đặt robots.txt ở đâu? Luôn nhớ rằng file robots.txt phải luôn nằm trong thư mục gốc của trang web của bạn nhé.

Ví dụ về file robots.txt

File robots.txt của mình có các nội dung sau:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-login.php*
Disallow: /readme.html
Disallow: /license.txt
Disallow: /xmlrpc.php
Disallow: /?s=*
Disallow: /search/*
Disallow: /tag/
Allow: /
Sitemap: https://daotaodigital.com/sitemap_index.xml

Ý nghĩa từng lệnh như sau:

Lệnh “User-agent: *” áp dụng cho tất cả các user-agent, tức là các công cụ tìm kiếm và robot truy cập vào trang web.
Lệnh “Disallow: /wp-admin/” chặn truy cập vào thư mục wp-admin, nơi chứa các tệp quản lý của hệ thống quản trị WordPress.
Lệnh “Disallow: /wp-includes/” chặn truy cập vào thư mục wp-includes, nơi chứa các tệp quan trọng cho chức năng cốt lõi của WordPress.
Lệnh “Disallow: /wp-login.php*” chặn truy cập vào trang đăng nhập của WordPress.
Lệnh “Disallow: /readme.html” chặn truy cập vào tệp readme.html, thông tin về phiên bản WordPress đang chạy.
Lệnh “Disallow: /license.txt” chặn truy cập vào tệp license.txt, thông tin về giấy phép sử dụng WordPress.
Lệnh “Disallow: /xmlrpc.php” chặn truy cập vào tệp xmlrpc.php, giao diện lập trình ứng dụng từ xa cho WordPress.
Lệnh “Disallow: /?s=* chặn truy cập vào các URL chứa tham số tìm kiếm “?s=” để tránh tạo nhiều phiên bản trang tìm kiếm.
Lệnh Disallow: /search/* Ngăn chặn việc hiển thị kết quả tìm kiếm cụ thể với các biến tìm kiếm khác nhau, nhằm tránh trùng lặp nội dung và tối ưu hóa trang web cho các bot tìm kiếm.
Lệnh Disallow: /tag/ cấm truy cập vào thư mục thẻ “tag” nhằm tránh trùng lặp nội dung và tối ưu hóa trang web cho các bot tìm kiếm.
Lệnh Allow: / Lệnh này cho phép truy cập vào các phần còn lại của trang web.
Sitemap: https://daotaodigital.com/sitemap_index.xml .Xác định đường dẫn đến tệp sitemap giúp robot tìm kiếm hiểu cấu trúc trang web và các trang một cách hiệu quả.

Điều này cho phép tất cả các bot truy cập trang web của bạn mà không bị chặn. Nó cũng chỉ định vị trí Sitemap để giúp các công cụ tìm kiếm dễ dàng định vị nó hơn.

Cách chỉnh sửa file robots.txt của bạn

Bước 1: Sử dụng FTP Client hoặc Control Panel để kết nối với thư mục gốc của trang web.

Buóc 2: Robots.txt thường luôn nằm trong thư mục gốc (www hoặc public_html, tùy thuộc vào máy chủ của bạn).

Bước 3: Tải file xuống PC của bạn và mở file bằng trình soạn thảo văn bản.

Bước 4: Thực hiện các thay đổi cấu hình cần thiết và tải file trở lại máy chủ của bạn.

Làm cách nào để kiểm tra và xác thực file robots.txt?

Mặc dù bạn có thể xem nội dung của file robots.txt bằng cách tìm đến URL của file robots.txt, nhưng cách tốt nhất để kiểm tra và xác thực nó là thông qua công cụ kiểm tra file robots.txt của Google Search Console.

Bạn có thể truy cập công cụ kiểm tra robots.txt tại đây và nhấp vào nút Kiểm tra.

Nếu mọi thứ đều tốt, nút Kiểm tra sẽ chuyển sang màu xanh lá cây và nhãn sẽ thay đổi thành ALLOWED. Nếu có bất kì vấn đề nào, dòng gây ra lỗi sẽ được báo bằng cách tô sáng.

Một số lưu ý về công cụ kiểm tra robots.txt

Bạn có thể sử dụng Trình kiểm tra URL (dưới cùng của công cụ) để nhập URL từ trang web của mình và kiểm tra xem URL đó có bị chặn hay không.
Bạn có thể thực hiện thay đổi đối trong trình chỉnh sửa và kiểm tra các quy tắc mới, nhưng để các quy tắc này được áp dụng chính thức cho robots.txt, bạn cần chỉnh sửa file của mình bằng trình chỉnh sửa văn bản và tải file lên thư mục gốc của trang web.
Để thông báo cho Google rằng bạn đã thực hiện các thay đổi đối với file robots.txt của mình, hãy nhấp vào nút Gửi và chọn tùy chọn 3.

File Robots.txt ảo trong WordPress

Mọi thứ bạn đọc cho đến lúc này về robots.txt đều áp dụng cho các trang web WordPress. Những điều bạn cần biết về robots.txt và WordPress có thể nói đến như sau:

Trước đây, các trang web WordPress được khuyến nghị chặn quyền truy cập vào các thư mục wp-admin và wp-includes thông qua robots.txt. Nhưng kể từ năm 2012 thì điều này không còn cần thiết nữa vì WordPress được thêm thẻ @header( ‘X-Robots-Tag: noindex’ )mà thực hiện được công việc tương tự như thêm lệnh Disallow trong robots.txt.

File Robots.txt ảo là gì?

Theo mặc định, WordPress sử dụng file robot.txt ảo . Điều này có nghĩa là bạn không thể trực tiếp chỉnh sửa file hoặc tìm thấy file đó trong thư mục gốc của thư mục. Cách duy nhất để xem nội dung của file là nhập https://domain.com/robots.txt vào trình duyệt của bạn.

Các giá trị mặc định của WordPress robots.txt là:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Khi bạn bật tùy chọn “Ngăn chặn các công cụ tìm kiếm đánh chỉ mục website này” trong Cài đặt → Đọc của trang quản trị web, file robots.txt sẽ trở thành:

User-agent: *
Disallow: /

Cải đặt hiển thị với công cụ tìm kiếm WordPress

Làm cách nào để chỉnh sửa robots.txt ảo trong WordPress?

Vì bạn không thể chỉnh sửa trực tiếp file robots.txt ảo do WordPress cung cấp nên cách duy nhất để chỉnh sửa file là tạo một file mới và thêm file đó vào thư mục gốc của trang web của bạn.

Khi một file vật lý có trong thư mục gốc, file WordPress ảo sẽ không được xem xét.

Lưu ý khi sử dụng file Robot.txt

Hãy kiểm tra file robots.txt của bạn và đảm bảo rằng bạn không chặn các trang mà bạn muốn xuất hiện trong công cụ tìm kiếm.
Không nên chặn các thư mục CSS hoặc JS. Google, trong quá trình thu thập dữ liệu và lập chỉ mục, có thể xem một trang web như một người dùng thực và các trang web cần JS và CSS để hoạt động bình thường.
Nếu bạn đang sử dụng WordPress, không cần phải chặn quyền truy cập vào các thư mục wp-admin và wp-include vì WordPress đã có sẵn thẻ meta robot.
Không nên dùng các quy tắc khác nhau cho mỗi bot của công cụ tìm kiếm, điều này có thể gây nhầm lẫn và khó cập nhật. Tốt hơn nên sử dụng User-agent * và cung cấp một bộ quy tắc thống nhất cho tất cả các bot.
Nếu bạn muốn loại trừ các trang khỏi việc lập chỉ mục bởi các công cụ tìm kiếm, tốt hơn bạn nên làm điều đó bằng cách sử dụng <META name =” robot ” content =” noindex, nofollow “/> trong tiêu đề của mỗi trang chứ không nên thông qua file robots.txt.

Kết luận

Vậy với những thông tin mà Khóa học Digital Marketing đã cung cấp trong bài viết trên, hy vọng bạn đã hiểu rõ được file robots.txt là gì cũng như cách để tạo hoặc chỉnh sửa file Robot.txt cho trang web của bạn. Dù vẫn có những mặt hạn chế nhất định nhưng đây là yếu tố rất cần thiết cho việc tối ưu trang web để đảm bảo quá trình SEO của bạn đạt được kết quả tốt.

Liên hệ SEO

✅ Dịch vụ SEO	⭐ SEO tổng thể, SEO từ khóa
✅ Giá SEO	⭕ Rẻ nhất thị trường
✅ Thời gian SEO	⭐ 8 – 12 tháng.
✅ Từ khóa	⭕ Top 1-3, 1-5, 1-7, 1-10
✅ Cam kết	⭐ An toàn và bền vững
✅ Chuyển đổi	⭕ Tối ưu cao nhất

Câu hỏi thường gặp về file robots.txt

Bạn có cần file robots.txt không?
Có, bạn chắc chắn cần phải có file robots.txt.
Điều gì xảy ra nếu bạn không có file robots.txt?
Nếu thiếu file robots.txt, trình thu thập thông tin của công cụ tìm kiếm cho rằng tất cả các trang đều có thể được thu thập thông tin và thêm tất cả vào chỉ mục của chúng.
Điều gì xảy ra nếu file robots.txt không được cấu hình đúng?
Nếu các công cụ tìm kiếm không thể hiểu nội dung của file vì nó bị định cấu hình sai, chúng vẫn sẽ truy cập trang web và bỏ qua mọi nội dung trong robots.txt.
Điều gì xảy ra nếu tôi vô tình chặn các công cụ tìm kiếm truy cập trang web của mình?
Công cụ tìm kiếm sẽ không thu thập dữ liệu và lập chỉ mục các trang web của bạn và dần dần nó sẽ xóa hết các trang trong chỉ mục.
Kích thước tối đa của file robots.txt là bao nhiêu?
Kích thước đối đa khoảng 500 kilobyte.

CHÚC CÁC BẠN THÀNH CÔNG!

Bài viết mới

Bài 7: Robots.txt