Robots.txt hoạt động như thế nào? Tại sao nên cài đặt cho website?

Robots.txt theo quan điểm cá nhân của mình thì nó như chìa khóa vào website. Ở file Robots.txt bạn toàn quyền kiểm soát các loại bot truy cập vào website của bạn.

Thực tế file robots.txt có một số user-agent (công cụ thu thập dữ liệu web). Từ đó thông báo cho bot một số file không cần thiết vào và ưu tiên những file quan trọng.

Robots.txt là gì?

Robots.txt là tập tin văn bản có dạng .txt. Và là một phần của Robots Exclusion Protocol (REP). Nhóm này có các tiêu chuẩn website quy định việc thu thập dữ liệu. Thông báo các chỉ dẫn cho các công cụ tìm kiếm thu thập dữ liệu.

Ví dụ: Website của bạn cung cấp dịch vụ sửa chữa điều hòa. Tại file Robots.txt bạn cho phép bot thu thập nhưng có những file ở quan trị website không cần thiết bạn có thể chặn lại.

Từ đó bot sẽ tập trung vào những phần nội dung về các dịch vụ sửa chữa điều hòa. Mà không cần biết các file quản trị website không cần thiết cho người dùng. Giúp cho website của bạn index nhanh hơn và tối ưu công cụ tìm kiếm hơn.

Robots.txt là gì?

Robots.txt hoạt động như thế nào?

Các spider hay các bot của các công cụ tìm kiếm sẽ làm theo hướng dẫn của file robots.txt. Các bot có 2 nhiệm vụ chính là Crawl và Index dữ liệu trên website.

  • Crawl (cào/quét) dữ liệu trên website để thu thập nội dung.
  • Index nội dung đó để cung cấp cho người dùng tìm kiếm.

Quá trình crawl dữ liệu website thì nó đi theo các link liên kết. Các liên kết từ website này sang website khác để thực hiện việc thu thập thông tin qua hàng tỷ website khác nhau. Quá trình crawl dữ liệu này còn được gọi là “Spidering”.

Khi truy cập vào website, các Bot của công cụ Google sẽ tiến hành tìm kiếm file robots.txt. File sẽ hướng dẫn bot Crawl và Index dữ liệu trên website.

Nếu file robots.txt không có chỉ thị nào cho các User-agent. Hoặc không có file cho website của bạn. Thì các bots sẽ tiến hành thu thập tất cả các thông tin trên website.

Robots.txt hoạt động như thế nào?

Câu lệnh trong file Robots.txt

Câu lệnh được xem là ngôn ngữ riêng của file robots.txt. Có 5 thuật ngữ phổ biến hay dùng khi thiết lập gồm:

  • User-agent: Câu lệnh này là tên của các trình thu thập, truy cập dữ liệu website. (ví dụ: Googlebot, Ahref, Bingbot,…)
  • Disallow: sử dụng để thông báo cho các User-agent không thu thập bất kỳ dữ liệu URL. Đối với mỗi URL chỉ được sử dụng 1 dòng Disallow (ví dụ: Disallow: /wp-admin/).
  • Allow chỉ áp dụng cho bot tìm kiếm Googlebot: Nó sẽ thông báo cho Googlebot rằng nó sẽ truy cập một trang hoặc thư mục con. Mặc dù các trang hoặc các thư mục con của nó có thể không được phép.
  • Crawl-delay: Thông báo thời gian chờ Web Crawler. Nhưng bot tìm kiếm Googlebot không thừa nhận lệnh này. Bạn cần cài đặt tốc độ thu thập dữ liệu trong Google Search Console.
  • Sitemap: dùng để cung cấp các vị trí của bất kì Sitemap XML nào được liên kết với URL. Tuy nhiên lệnh này chỉ hỗ trợ bot của Google, Ask, Bing và Yahoo.

Vì sao bạn cần tạo file robots.txt?

Việc tạo file robots.txt cho website giúp bạn kiểm soát việc truy cập của các con Bots trên website. Bạn cần phải chú ý nếu bạn sai một vài thao tác khiến Googlebot không index website. Và những lợi ích của file như sau:

  • Ngăn chặn nội dung trùng lặp (Duplicate Content) trên website (Robot Meta thường là lựa chọn tốt hơn cho việc này).
  • Một số phần của website ở chế độ bảo mật.
  • Các kết quả tìm kiếm nội bộ sẽ không hiển thị trên SERP.
  • Định vị vị trí của Sitemap.
  • Ngăn các công cụ của Google Index một số tệp nhất định trên website của bạn như hình ảnh, PDF, …
  • Sử dụng Crawl-delay để điều chỉnh thời gian. Trong một số trường hợp sẽ giúp máy chủ của giảm tải. Khi các trình thu thập dữ liệu tải cùng lúc nhiều nội dung.

Ghi chú: Trong một số trường hợp bạn không muốn ngăn các Web Crawler tiến hành thu thập dữ liệu. Thì bạn không cần tạo robots.txt.

Cách tạo file Robots.txt cho website

Tạo file Robots.txt là việc làm không quá khó khăn. Sau đây là cách tạo robots.txt cho website mà bạn nên biết:

Kiểm tra website đã có file robots.txt hay chưa. Bằng cách thêm đoạn text “robots.txt” sau website của bạn.

Ví dụ: https://webaoe.com/robots.txt.

Đối với những website không file là wordpress

Khi kiểm tra nếu website của bạn chưa có file robots.txt thì bạn cần có một trình soạn thảo văn bản (sử dụng notepad) và truy cập vào vào tệp website của bạn thông qua bảng điều khiển quản lý hosting hoặc FTP để tạo tệp.

Upload file robots.txt qua FTP

Đối với website wordpress

Dùng Yoast SEO

Bạn cần tiến hành cài đặt plugin yoast SEO. Sau đó ở phía bên trái màn hình, click vào SEO > Tools > File editor.

Dùng Yoast SEO
Dùng Yoast SEO 2

Plugin All in One SEO

Để tạo file bạn cũng cần cài đặt Plugin All in One SEO. Sau đó đến giao diện chính của Plugin All in One SEO Pack. Chọn All in One SEO > Features Manager > Nhấp Active cho mục robots.txt

tạo file robots.txt qua plugin all in one seo

Sau đó mục robots.txt xuất hiện như một tab mới trong thư mục lớn All in One SEO. Bạn thiết lập cũng như điều chỉnh file ở đây.

all in one seo pack robots.txt

All in One SEO sẽ không chỉnh được file như công cụ Yoast SEO. Nhưng điều này giúp bạn hạn chế thiệt hại cho website của bạn. Có một số Malware bots có thể gây hại cho website của bạn.

Một số lưu ý khi tạo file robots.txt

  • Bạn nên ưu tin đặt file robots.txt ở các thư mục cấp cao nhất của website.
  • Txt có phân biệt chữ hoa và chữ thường. Do đó file phải được đặt tên là robots.txt. (không phải Robots.txt hay robots.TXT, …).
  • Chú ý không nên đặt /wp-content/themes/ hay /wp-content/plugins/ ở mục Disallow. Khi đó sẽ ngăn cản các công cụ xác định chính xác giao diện website.
  • Một số User-agent chọn cách bỏ qua các file robots.txt chuẩn của bạn. Điều này khá phổ biến với các User-agent bất chính như:
    • Malware robots (bot của các đoạn mã độc hại).
    • Các trình Scraping (quá trình tự thu thập thông tin) địa chỉ Email.
  • Các file robots.txt thường được công khai trên website. Do đó bất kì ai cũng thấy các trang bạn muốn hoặc không muốn crawl. Nên bạn đừng sử dụng file này để ẩn thông tin cá nhân của người dùng.
  • Mỗi Subdomain nên sử dụng một file robots.txt riêng biệt. Điều này có nghĩa là cả tintuc.webaoe.com và webaoe.com nên có các tệp robots.txt riêng.

Xin cảm ơn các Anh/Chị đã tham khảo bài viết của Webaoe. Nếu có chỗ nào còn thiếu sót, xin các Anh/Chị góp ý ở phía dưới để hoàn thiện bài viết hơn.

Leave a Comment

https://www.m.me/webaoe
DMCA.com Protection Status