Tệp robots.txt là một yếu tố quan trọng trong việc khai báo dữ liệu với Google và hướng dẫn cụ thể cho các công cụ tìm kiếm thực hiện thu thập dữ liệu website chính xác hơn và tập trung vào các nội dung cần thiết. Bài viết sau đây sẽ hướng dẫn bạn cách tạo và hiểu được các chỉ thị liên quan về allow, disallow của file robots.txt.
File Robot.txt là gì
- File robots.txt là một phần của Robots Exclusion Protocol (REP) và là tập tin cơ bản trong việc quản trị website
- Nó giúp cho người quản trị đưa ra tiêu chuẩn quy định đối với các user-agent của BOT được phép truy cập, thu thập dữ liệu và lập chỉ mục hay không.
- REP cũng bao gồm các phần khác như meta robots, Page-Subdirectory, Site-Wide Instructions hay toàn bộ website qua khai báo allow hoặc nofollow.
Robots.txt hoạt động như thế nào?
Các công cụ tìm kiếm sẽ thực hiện 2 công việc chính trước khi đánh giá xếp hạng:
Crawling
Crawl dữ liệu trên các trang web để thu thập nội dung
Indexing
Index (lập chỉ mục) các nội dung đó để đề xuất nội dung hữu ích cho người dùng khi tìm kiếm
Quá trình thu thập dữ liệu sẽ diễn ra bằng cách các BOT đi đến từng URL trên internet để quét từ bài viết này sang bài viết khác, từ trang này sang trang khác và kết quả là thu thập được hàng tỷ dữ liệu qua các liên kết đó. Việc thu thập dữ liệu này hay còn gọi là spidering.
Trước khi truy cập các website để thu thập dữ liệu thì nó sẽ tìm file robots.txt của website đó. Nếu tìm thấy các tệp robots.txt, chúng sẽ tiến hàng crawl các file đó trước và thu thập dữ liệu theo hướng dẫn trong file.
Nếu các file robots.txt không có mục nào không cho phép user agent hoặc website không có tệp robots.txt, công cụ tìm kiếm sẽ quét tiếp đến tất cả các nội dung khác trên website.
Tìm file robots.txt ở đâu trên website?
Tương tự các tệp khác thì tệp robots.txt được lưu trữ trên server hosting của website. Bạn có thể xem file robot.txt của một trang web bằng cách nhập đầy đủ URL và thêm “/robots.txt” vào sau. Ví dụ: https://dgm.vn/robots.txt
Lưu ý: Robots.txt phải luôn nằm tại tên miền gốc hoặc thư mục chính của website, chẳng hạn www.example.com thì sẽ là www.example.com/robots.txt. Nếu đặt sai công cụ tìm kiếm sẽ cho rằng website của bạn không có tệp robots.txt.
Tại sao cần robots.txt
Tối ưu Crawl Budget:
Crawl Budget là chỉ số đề cập đến số lượng trang, bài viết mà Google sẽ thu thập dữ liệu trong cũng một khoảng thời gian nhất định. Số lượng này có thể thay đổi tùy theo lượng backlinks, dung lượng, sức mạnh của website.
Nếu vượt quá ngân sách này, website của bạn sẽ có các URL không được lập chỉ mục, nghĩa là không được xếp hạng và xuất hiện trên trang kết quả của Google.
Việc chặn quét các trang không cần thiết bằng file robots.txt sẽ giúp tối ưu Crawl Budget tập trung vào các trang, bài viết quan trọng.
Ngăn chặn các nội dung trùng lặp
Bằng cách không cho phép quét các nội dung bạn khai báo sẽ giúp tránh khói việc các nội dung trùng lặp nhau xuất hiện trên các trang kết quả của công cụ tìm kiếm và ảnh hưởng đến website.
Ngoài ra, đối với các trang bạn không SEO từ khóa tệp robots.txt sẽ không quét đến và giữ chế độ riêng tư cho các trang đó.
Ẩn các nội dung không cần thiết:
Tệp robots.txt sẽ giúp ngăn lập chỉ mục các tệp như ảnh, tài liệu, pdf,… không cần thiết.
Máy chủ không bị quá tải
Chỉ định crawl delay giúp máy chủ bị quá tải khi trình thu thập dữ liệu tải nhiều nội dung một lúc trên website.
Các cú pháp của file robots.txt
The User-Agent: là tên của trình thu thập dữ liệu cụ thể của các công cụ tìm kiếm. Ví dụ đối với Google, bạn không muốn Google bot thu thập dữ liệu trang quản trị website thì cú pháp sẽ là:
User-agent: Googlebot
Disallow: /wp-admin/
Disallow
Lệnh yêu cầu các user-agent không được phép thu thập dữ liệu của các URL cụ thể. Lưu ý rằng mỗi URL chỉ được 1 dòng disallow trong file
- Allow: Lệnh cho phép các user-agent được phép thu thập dữ liệu của các trang hoặc thư mục con dù trang mẹ hay thư mục mẹ không được cho phép.
- Sitemap: là lệnh chỉ thị sitemap cho các công cụ tìm kiếm sẽ tìm sitemap.xml của website ở đâu. Chỉ áp dụng các công cụ tìm kiếm là Bing, Yandex và Google. Sitemap sẽ bao gồm các trang, bài viết mà bạn muốn công cụ tìm kiếm index. Lệnh này thường nằm ở đầu hoặc ở cuối tệp robots.txt và có dạng như sau: “Sitemap: https://dgm.vn/sitemap.xml”
- Crawl-Delay: Là lệnh trì hoãn tốc độ thu thập dữ liệu để tránh việc quá tải đối với máy chủ. Tuy nhiên hiện tại Google không hỗ trợ trì hoãn thu thập nữa mà thay vào đó bạn có thể điều chỉnh tốc độ thu thập trong Google Search Console. Còn đối với Bing và Yandex thì bạn có thể khai báo. Ví dụ bạn muốn yêu cầu độ trễ thu thập dữ liệu là 15s thì sẽ khai báo như sau:
- User-agent: *Crawl-delay: 15
Allow
Bằng cách không cho phép quét các nội dung bạn khai báo sẽ giúp tránh khói việc các nội dung trùng lặp nhau xuất hiện trên các trang kết quả của công cụ tìm kiếm và ảnh hưởng đến website.
Ngoài ra, đối với các trang bạn không SEO từ khóa tệp robots.txt sẽ không quét đến và giữ chế độ riêng tư cho các trang đó.
Sitemap
Là lệnh chỉ thị sitemap cho các công cụ tìm kiếm sẽ tìm sitemap.xml của website ở đâu. Chỉ áp dụng các công cụ tìm kiếm là Bing, Yandex và Google. Sitemap sẽ bao gồm các trang, bài viết mà bạn muốn công cụ tìm kiếm index. Lệnh này thường nằm ở đầu hoặc ở cuối tệp robots.txt và có dạng như sau: “Sitemap: https://dgm.vn/sitemap.xml”
Crawl-Delay
Chỉ định crawl delay giúp máy chủ bị quá tải khi trình thu thập dữ liệu tải nhiều nội dung một lúc trên website.
Là lệnh trì hoãn tốc độ thu thập dữ liệu để tránh việc quá tải đối với máy chủ. Tuy nhiên hiện tại Google không hỗ trợ trì hoãn thu thập nữa mà thay vào đó bạn có thể điều chỉnh tốc độ thu thập trong Google Search Console. Còn đối với Bing và Yandex thì bạn có thể khai báo. Ví dụ bạn muốn yêu cầu độ trễ thu thập dữ liệu là 15s thì sẽ khai báo như sau:
User-agent: *
Crawl-delay: 15
Hướng dẫn tạo file robots txt cho website
The User-Agent: là tên của trình thu thập dữ liệu cụ thể của các công cụ tìm kiếm. Ví dụ đối với Google, bạn không muốn Google bot thu thập dữ liệu trang quản trị website thì cú pháp sẽ là:
User-agent: Googlebot
Disallow: /wp-admin/
Bước 1: Tạo một tệp .txt và đặt tên là Robots.txt
Bước 2: Thêm nhóm lệnh vào File robot.txt với các thông tin:
- User-agent
- Allow
- Disallow
- SItemap
File robots.txt chuẩn sẽ dạng như sau:
User-agent: Googlebot
Disallow: /clients/
Disallow: /not-for-google
User-agent: *
Disallow: /archive/
Disallow: /support/
Sitemap: https://www.yourwebsite.com/sitemap.xml
Bước 3: Tải tệp robots.txt lên
Cách tải tệp phù thuộc vào cấu trúc file của website và web hosting với các cách tải lên của mỗi nền tảng
Bước 4: Kiểm tra file Robots.txt của bạn
Đầu tiên kiểm tra xem file robots.txt của bạn đã được công khai hay chưa bằng cách mở tab ẩn danh và search đường link file robots.txt của website bạn.Ví dụ: https://yourwebsite.com/robots.txt.
<p “=”” dir=”ltr” tve-droppable”=””>Nếu thấy file robots.txt đã xuất hiện, bây giờ bạn có thể kiểm các lệnh khai báo (mã html) trong file bằng 1 trong 2 cách:
- <li “=”” dir=”ltr” tve-droppable”=””>The robots.txt Tester trong Google Search Console <li “=”” dir=”ltr” tve-droppable”=””>Thư viện Google’s open-source robots.txt
Đối với cách thứ 2 bạn phải là nhà phát triển nâng cao mới có thể thực hiện nên hãy thực hiện đơn giản hơn qua Google Search Console.
- Truy cập Trình kiểm tra robots.txt và nhấp vào “Mở Trình kiểm tra robots.txt ”.
- Nếu bạn chưa liên kết trang web của mình với tài khoản Google Search Console, thì trước tiên bạn cần phải xác minh sở hữu và liên kết đến website.
- Nó sẽ xác định các cảnh báo cú pháp hoặc lỗi logic. Và hiển thị tổng số cảnh báo và lỗi bên dưới trình chỉnh sửa. Bạn có thể chỉnh sửa lỗi hoặc cảnh báo trực tiếp trên trang và kiểm tra lại.
- Mọi thay đổi được thực hiện trên đây sẽ không lưu vào trang web, nó chỉ kiểm tra bản sao được lưu trữ trong công cụ. Để thực hiện bất kỳ thay đổi nào, hãy sao chép và dán bản sao kiểm tra và chỉnh sửa hoàn chỉnh vào tệp robots.txt trên website.
Cách tạo robots txt cho wordpress
Robots.txt bằng Yoast SEO
Robots.txt bằng AIO SEO
Robots.txt bằng Rank Math
Lưu ý khi tạo file robots.txt
-
Đảm bảo rằng file robots.txt của bạn không chặn các URL quan trọng mà bạn muốn công cụ tìm kiếm thu thập thông tin.
-
Các liên kết bị chặn sẽ không được theo dõi và thu thập dữ liệu, vì vậy các nội dung, tài nguyên trên URL đó sẽ không được lập chỉ mục, xếp hạng.
-
Không nên sử dụng robots.txt để ngăn các dữ liệu riêng tư, bảo mật như thông tin cá nhân,… Vì các trang liên kết trực tiếp đến các trang này vẫn có thể được lập chỉ mục. Bạn nên sử dụng cách khác như bảo mật bằng mật khẩu hay meta robot ngăn chỉ mục.
-
Một số công cụ tìm kiếm như Google sẽ có nhiều user-agent như Googlebot, Googlebot-image,… Các user-agent cùng một công cụ tìm kiếm thì tuân theo quy tắc giống nhau và không cần khai báo các lệnh cho tình trình thu thập.
Các công cụ tìm kiếm sẽ lưu robots.txt vào cache và thường cập nhật ít nhất 1 lần mỗi ngày. Nếu bạn muốn cập nhật nhanh hơn có thể gửi URL robots.txt tới Google
Một số hạn chế khi tạo file robots.txt
File robots.txt chỉ là tệp chứa các chỉ thị chứ không phải mệnh lệnh hoàn toàn cho công cụ tìm kiếm.
Các trang không được cho phép truy cập đối với công cụ tìm kiếm bởi tệp robots.txt nhưng nếu có liên kết liên quan đến chúng vẫn có thể xuất hiện trong SERP nếu chúng được liên kết từ một trang được cho phép thu thập dữ liệu.
Tệp robots.txt được lưu vào bộ nhớ đệm tối đa là 2 giờ nên bạn cần cân nhắc khi thực hiện các thay đổi và tránh lưu robots.txt vào bộ đệm ẩn làm cho công cụ tìm kiếm mất nhiều thời gian hơn để có thể tìm thấy.
Câu hỏi thường Gặp
- Booking báo chí và Digital PR ảnh hưởng đến ranking SEO ntn?
- Cách sử dụng Google Webmaster Tools
- Các kỹ năng cần có của một Digital Marketing Manager
- Cách chặn quảng cáo trên Youtube
- Update Khóa học Content cho SEO 2.0
- Dịch vụ review mỹ phẩm
- Cách để làm video trở thành hiện tượng viral trên Tiktok
- So sánh Inbound Marketing và Outbound Marketing
- AMP – Accelerated Mobile Pages
- Mọi thứ về Slide miễn phí đẹp cho bạn