File robots.txt là file thường thấy trong tất cả các website. Bất kỳ mã nguồn làm web nào cũng sử dụng tệp robots.txt để sẵn và chặn sẵn một số tài nguyên trên trang. Vậy bạn đã biết robots.txt là gì chưa ?

Mô phỏng chức năng của file robots.txt

Mô phỏng chức năng của file robots.txt

Robots.txt là gì ?

File robots.txt là một tệp ở gốc trang web của bạn cho biết những phần thuộc trang web bạn không muốn cấp quyền truy cập cho trình thu thập dữ liệu của công cụ tìm kiếm. Tệp sử dụng Chuẩn loại trừ Robot, là một giao thức với một tập nhỏ các lệnh có thể được sử dụng để chỉ định quyền truy cập vào trang web của bạn theo phần và theo loại cụ thể của trình thu thập dữ liệu web (chẳng hạn như trình thu thập dữ liệu trên thiết bị di động so với trên máy tính để bàn).

_Nguồn Google.com !

Mục đích sử dụng file Robots.txt

Thông thường, bạn sẽ chặn một loại tài nguyên hoặc đường dẫn nào đó trên trang với mục đích không muốn lãng phí tài nguyên của web hosting. Hoàn toàn KHÔNG được sử dụng chúng vào việc chặn các tài nguyên bí mật vì không phải máy tìm kiếm nào cũng tuân theo quy tắc này.

Ví dụ như Video, bạn không muốn các cỗ máy tìm kiếm truy cập vào các đường dẫn video, bạn có thể chặn toàn bộ máy tìm kiếm quét video trên trang.

Việc này đôi khi rất có lợi vì khi máy tìm kiếm bị chặn ở URL này, nó sẽ dành thời gian chuyển sang lập chỉ mục các đường dẫn khác. Vì mỗi một thời gian chúng chỉ quét được một số lượng giới hạn URL nên sẽ không phí thời gian vào các URL không mong muốn.

Bạn có thể sử dụng robots.txt để chặn vào admin của trang. Bạn chặn các tài nguyên chỉ người truy cập mới được sử dụng. Bạn dùng để chặn các trang không mong muốn …

Cách tạo tệp Robots.txt

Để tạo tệp này, các bạn tham khảo cách tạo tệp trên Google. Tại đây bạn sẽ hiểu thêm về nội dung file robots.txt cũng như cách kiểm tra xem file có hợp lệ hay không.

Lưu ý với bạn: File robots.txt nếu cấu hình sai có thể dẫn tới website của bạn không được lập chỉ mục. Và nếu bạn muốn cấm truy cập vào các tài liệu bí mật, cách tốt nhất là bảo vệ chúng bằng mật khẩu vì không phải máy tìm kiếm nào cũng tuân thủ theo nguyên tắc chung.

Các cách hay hơn thay thế cho file robots.txt chính là thẻ Meta, hay tag trên header của trang. Các cách sau đây ta có thể chủ động hơn với từng bài đăng và từng URL cụ thể. Ta có:

<meta name="robots" content="noindex, follow">

Hoặc khai báo trên mã trả về HTTP header của trang:

X-Robots-Tag: Noindex

Chúc các bạn vui vẻ và thành công !