Robots.txt là một tệp quan trọng bất kỳ SEOer nào cũng cần phải kiểm tra và tối ưu. Khi xảy ra bất kì một sự cố hoặc cấu hình sai nào trong file này nó đều tác động tiêu cực đến thứ hạng của trang web trên bảng tìm kiếm. Vậy file robots.txt là gì? Làm sao để kiểm tra và tạo ra nó? Hãy cùng idigi.vn tìm hiểu trong bài viết này nhé!
Robots.txt là gì?
Robots.txt là một file chuyên dùng trong việc quản trị website. Tệp tin này là một phần của REP (Robots Exclusion Protocol) và chứa một nhóm các tiêu chuẩn về web theo quy định. Tệp robots.txt cho phép trình thu thập dữ liệu của công cụ tìm kiếm biết rằng nó có thể truy cập vào những URL nào trên trang web của bạn.
File robots.txt được sử dụng rất rộng rãi. Bất cứ một trang web nào thì cũng nên sử dụng nó, đặc biệt là những trang web lớn hoặc đang xây dựng.
Robots.txt là một tệp tin chuyên dụng trong việc quản trị website
Các thuật ngữ cần biết về file robots.txt
Robots.txt là một tệp tin cũng có cho mình ngôn ngữ riêng. Dưới đây là 5 thuật ngữ phổ biến khi bạn bắt gặp trong một file robots.txt:
- User-agent: Là tên của các trình thu thập, truy cập dữ liệu website.
- Disallow: Thông báo cho các User-agent không được thu thập bất kỳ dữ liệu URL cụ thể nào. Lưu ý rằng, mỗi URL chỉ được phép sử dụng 1 dòng Disallow.
- Allow: Cho phép thông báo với Googlebot rằng nó sẽ truy cập một trang hoặc thư mục con.
- Crawl-delay: Ra tín hiệu cho các Web Crawler biết rằng nó phải mất bao nhiêu giây trước khi tải và thu thập nội dung trên trang.
- Sitemap: Cung cấp vị trí của bất kì Sitemap XML nào được liên kết với URL này.
Một số thuật ngữ phổ biến liên quan đến tệp robots.txt
Xem ngay: Dịch vụ SEO tổng thể tại idigi.vn – Cam kết lên TOP nhanh chóng và bền vững
Lợi ích của file robots.txt đối với Website
Khi tạo ra một file robots.txt cho website sẽ giúp bạn kiểm soát được việc truy cập của các con Bot đến các khu vực nhất định trên trang web. Ngoài ra, nó cũng có một số lợi ích khác như:
Chặn Google khi mới tạo web
Trong quá trình mới tạo website, việc cần chăn bọ của Google để nó không index những nội dung chưa được hoàn thiện là vô cùng cần thiết. Chính vì thế, file robots.txt vô cùng hữu ích trong quá trình thiết lập hệ thống.
Tuy nhiên, nếu website đang hoạt động một cách ổn định thì tránh chèn các đoạn mã này. Bởi khi đó, trang web của bạn sẽ không thể xuất hiện trên bảng kết quả tìm kiếm.
Chặn bot quét backlink
Moz, Majestic và Ahrefs là 3 công cụ được sử dụng phổ biến để quét backlink. Lúc này, lợi ích khi sử dụng file robots.txt là sẽ ngăn chặn điều này để khiến cho đối thủ không thể phân tích backlink của mình.
Tệp robots.txt giúp ngăn chặn đối thủ phân tích backlink của website
Bảo vệ các thư mục cần bảo mật
Các mã nguồn của trang web đều có những thư mục cần được bảo mật như wp-includes, phpinfo.php, wp-admin,… Tuy nhiên, các trang web này chắc chắn không được index. Bởi khi xuất hiện trên internet, các hacker dễ dàng đánh cắp những thông tin quan trọng, thậm chí là tấn công vào hệ thống website của bạn. Nhờ đó mà khi sử dụng file robots.txt sẽ giúp ngăn chặn việc Google index các nội dung này.
Ngăn chặn các mã độc hại
Đối thủ cạnh tranh có thể sử dụng một số phần mềm độc hại để kiểm tra trang web của bạn. Trong đó, có những con bọ được tạo ra chuyên để sao chép nội dung của người khác. Hoặc chúng gửi quá nhiều yêu cầu tới máy chủ của bạn khiến cho hệ thống của bạn bị hao phí băng thông và tài nguyên.
4 nguyên tắc khi tạo file robots.txt
Có 4 nguyên tắc chính để tạo tệp robots.txt và giúp tệp này trở nên dễ truy cập và hữu ích hơn:
Tạo một file mới có tên robots.txt
Khi tạo một tệp robots.txt mới, bạn có thể sử dụng hầu hết trình chỉnh sửa văn bản như Notepad, TextEdit,…. Tuyệt đối không nên dùng trình xử lý văn bản bởi các trình xử lý văn bản thường sẽ lưu tệp dưới một định dạng độc quyền và có thể thêm những ký tự không mong muốn. Việc này có thể ảnh hướng đến quá trình thu thập dữ liệu và dễ gặp sự cố.
Nên sử dụng trình chỉnh sửa văn bản để tạo tệp robots.txt
Thêm quy tắc cho tệp robots.txt
Khi thêm quy tắc cho tệp robots.txt, bạn nên tuân theo một số nguyên tắc sau:
- Tệp robots.txt có thể bao gồm một hoặc nhiều bộ quy tắc.
- Mỗi bộ quy tắc sẽ có nhiều quy tắc (hay còn được gọi là lệnh), mỗi quy tắc một dòng. Mỗi bộ sẽ bắt đầu bằng một dòng User-agent nêu rõ mục tiêu của bộ đó.
- Một bộ quy tắc cần cung cấp những thông tin như: đối tượng áp dụng, quyền được phép hoặc không được phép truy cập.
- Trình thu thập dữ liệu sẽ xử lý các bộ quy tắc từ trên xuống dưới. Nếu có nhiều bộ cho cùng một tác nhân người dùng thì sẽ được kết hợp thành một nhóm duy nhất trước khi xử lý.
- Các quy tắc có sự phân biệt chữ hoa và chữ thường. Ví dụ: disallow:/file.asp sẽ áp dụng cho https://www.example.com/file.asp mà không được không áp dụng cho https://www.example.com/FILE.asp.
- Ký tự # để đánh dấu điểm bắt đầu của một nhận xét. Các nhận xét đó sẽ bị bỏ qua trong quá trình xử lý dữ liệu.
Tải tệp robots.txt lên thư mục gốc
Không có bất kỳ công cụ nào có thể giúp bạn tải tệp lên website, vì nó phụ thuộc vào cấu trúc trang web và máy chủ của bạn. Hãy liên hệ với công ty lưu trữ hoặc tìm kiếm trong mục tài liệu của công ty lưu trữ đó.
Kiểm tra file robots.txt
Sau khi tải file robots.txt lên, cần kiểm tra lại xem nó có cho phép truy cập công khai không và Google có thể phân tích cú pháp tệp đó không.
Hãy mở một cửa sổ ẩn danh rồi di chuyển đến vị trí của tệp robots.txt. Ví dụ: https://example.com/robots.txt. Nếu như thấy nội dung của tệp robots.txt thì bạn đã sẵn sàng để kiểm tra mã đánh dấu.
Cách kiểm tra tệp robots.txt cực kỳ đơn giản
Xem ngay: Redirect 301 là gì? Cách vận dụng kỹ thuật 301 hiệu quả, chất lượng
Trên đây là những thông tin chi tiết để giải đáp cho câu hỏi “Robots.txt là gì?” cùng với những nguyên tắc khi tạo một tệp robots.txt. Hy vọng sẽ giúp ích cho bạn trong quá trình xây dựng và phát triển website nhé!