Robots.txt: tất cả những gì bạn cần biết về SEO

Try Proseoai — it's free
AI SEO Assistant
SEO Link Building
SEO Writing

Robots.txt: tất cả những gì bạn cần biết về SEO

Mục lục

  1. Tệp robots.txt là gì?
  2. Nguyên tắc cơ bản của tệp robots.txt
  3. Các chỉ thị khởi tạo trong tệp robots.txt
  4. Các chỉ thị cơ bản trong tệp robots.txt
  5. Chỉ thị Sitemap trong tệp robots.txt
  6. Chỉ thị Disallow trong tệp robots.txt
  7. Chỉ thị Allow trong tệp robots.txt
  8. Chỉ thị Crawl Delay trong tệp robots.txt
  9. Chỉ thị Noindex trong tệp robots.txt
  10. Chỉ thị Nofollow trong tệp robots.txt
  11. Các tình huống đặc biệt với Googlebot
  12. Các tiêu chuẩn tốt nhất cho tệp robots.txt
  13. Các ví dụ sử dụng tệp robots.txt
  14. Sử dụng công cụ SEO Testing để tối ưu hóa

Tệp robots.txt và tối ưu hóa SEO

Tệp robots.txt là một tệp văn bản cung cấp các chỉ thị cho các con robot và bot của các công cụ tìm kiếm về các trang hoặc phần của trang web mà chúng có thể hoặc không thể truy cập. Đây là một tệp quan trọng trong quá trình tối ưu hóa công cụ tìm kiếm (SEO) của trang web của bạn, vì nó giúp đảm bảo máy chủ của bạn không bị quá tải bởi việc truy cập quá nhiều từ các bot và ngăn chúng truy cập vào các phần không mong muốn. Trong bài viết này, chúng ta sẽ tìm hiểu chi tiết về tệp robots.txt và những thực tiễn tốt nhất để sử dụng nó để tối ưu hóa SEO cho trang web của bạn.

1. Tệp robots.txt là gì?

Tệp robots.txt là một tệp văn bản đơn giản, được đặt tại thư mục gốc của một trang web, thông qua đó bạn có thể điều chỉnh cách các con robot và bot của công cụ tìm kiếm truy cập và khám phá trang web của bạn. Tệp này không phải là công cụ tìm kiếm, nhưng đóng vai trò quan trọng trong việc hướng dẫn các công cụ tìm kiếm về những phần của trang web mà nên hoặc không nên truy cập. Điều này giúp kéo dài hiệu quả tìm kiếm và đảm bảo rằng trang web của bạn không bị quá tải.

2. Nguyên tắc cơ bản của tệp robots.txt

Trước khi đi vào chi tiết, hãy tìm hiểu những nguyên tắc cơ bản của tệp robots.txt:

- Vị trí và tên: Tệp robots.txt phải được đặt tại thư mục gốc của trang web và có tên là "robots.txt". Ví dụ: www.example.com/robots.txt.

- Phạm vi áp dụng: Tệp robots.txt chỉ có hiệu lực đối với khu vực (domain) và giao thức cụ thể. Nó không gian lặp lại trên các tên miền con và không xấp xỉ các thư mục con của trang web.

- Mã hóa: Tệp robots.txt phải được mã hóa bằng chuẩn UTF-8 để đảm bảo khả năng đọc và hiểu đúng thông tin.

- Chỉ thị đơn: Mỗi dòng trong tệp robots.txt chỉ có thể chứa một chỉ thị duy nhất. Mỗi chỉ thị phải nằm trên một dòng riêng biệt.

- Độ nhạy cảm với chữ viết: Chỉ thị trong tệp robots.txt phân biệt chữ hoa và chữ thường. Điều này có nghĩa là "/" và "/ABC" được xem là khác nhau.

- Bình luận: Bạn có thể thêm các bình luận trong tệp robots.txt bằng cách sử dụng ký hiệu "#". Các bình luận này không ảnh hưởng đến việc duyệt web của robot.

- Thứ tự ưu tiên: Các công cụ tìm kiếm thường đọc tệp robots.txt từ trên xuống dưới và áp dụng các chỉ thị theo thứ tự gặp phải. Chúng thường chỉ tuân theo một nhóm chỉ thị và bỏ qua các nhóm chỉ thị khác nếu có xung đột.

- Công cụ tìm kiếm không gửi yêu cầu: Nếu một công cụ tìm kiếm không gửi yêu cầu đến tệp robots.txt, nó sẽ mặc định rằng không có hạn chế trong việc truy cập vào trang web của bạn.

3. Các chỉ thị khởi tạo trong tệp robots.txt

Trước khi chúng ta đi vào chi tiết về các chỉ thị cụ thể trong tệp robots.txt, hãy tìm hiểu về các chỉ thị khởi tạo quan trọng:

- User-agent: Chỉ thị User-agent (tác nhân người dùng) xác định tên của bot hoặc robot nào mà chỉ thị tiếp theo sẽ áp dụng. Ví dụ: User-agent: Googlebot.

- Allow: Chỉ thị Allow (cho phép) chỉ ra rằng một bot được phép truy cập vào các phần của trang web mà chỉ thị tiếp theo áp dụng. Ví dụ: Allow: /products/.

- Disallow: Chỉ thị Disallow (cấm) chỉ ra rằng một bot không được phép truy cập vào các phần của trang web mà chỉ thị tiếp theo áp dụng. Ví dụ: Disallow: /admin/.

- Sitemap: Chỉ thị Sitemap xác định URL của sitemap XML của trang web, giúp cho các bot dễ dàng tìm thấy sitemap này. Ví dụ: Sitemap: https://www.example.com/sitemap.xml.

- Crawl-delay: Chỉ thị Crawl-delay (độ trễ truy cập) xác định thời gian đợi giữa các yêu cầu truy cập của bot, nhằm tránh quá tải máy chủ. Ví dụ: Crawl-delay: 5.

- Noindex: Chỉ thị Noindex (không được chỉ mục) xác định rằng các URL không nên được chỉ mục trong kết quả tìm kiếm. Ví dụ: Noindex: /private-page/.

- Nofollow: Chỉ thị Nofollow (không theo sau) xác định rằng các liên kết trong URL không nên được theo sau bởi bot. Ví dụ: Nofollow: /external-link/.

4. Các chỉ thị cơ bản trong tệp robots.txt

Trong tệp robots.txt, các chỉ thị sau đây là những chỉ thị cơ bản mà bạn có thể sử dụng để kiểm soát truy cập của bot vào trang web:

- Disallow dạng đơn: Chỉ thị Disallow dạng đơn được sử dụng để cấm bot truy cập vào một trang hoặc một phần của trang web cụ thể. Ví dụ: Disallow: /admin/ sẽ cấm bot truy cập vào các trang trong thư mục "/admin/".

- Disallow dạng đa dạng: Chỉ thị Disallow dạng đa dạng được sử dụng để cấm bot truy cập vào nhiều trang hoặc phần của trang web. Ví dụ: Disallow: /private/Disallow: /admin/ sẽ cấm bot truy cập vào các trang trong thư mục "/private/" và "/admin/".

- Allow dạng đơn: Chỉ thị Allow dạng đơn được sử dụng để cho phép bot truy cập vào một trang hoặc phần của trang web cụ thể. Ví dụ: Allow: /products/ sẽ cho phép bot truy cập vào các trang trong thư mục "/products/".

- Allow dạng đa dạng: Chỉ thị Allow dạng đa dạng được sử dụng để cho phép bot truy cập vào nhiều trang hoặc phần của trang web. Ví dụ: Allow: /products/Allow: /services/ sẽ cho phép bot truy cập vào các trang trong thư mục "/products/" và "/services/".

5. Chỉ thị Sitemap trong tệp robots.txt

Chỉ thị Sitemap trong tệp robots.txt được sử dụng để chỉ định URL của sitemap XML của trang web. Một sitemap XML đơn giản là một tệp chứa thông tin về cấu trúc và các trang quan trọng của trang web, giúp bot dễ dàng tìm thấy và hiểu được sự sắp xếp của trang web. Điều này quan trọng để tối ưu hóa SEO của trang web. Ví dụ:

Sitemap: https://www.example.com/sitemap.xml

Bằng cách cung cấp URL của sitemap XML trong tệp robots.txt, bạn đảm bảo rằng các bot tìm kiếm sẽ biết vị trí của sitemap và có thể nhanh chóng truy cập vào nó để cập nhật thông tin về trang web của bạn.

6. Chỉ thị Disallow trong tệp robots.txt

Chỉ thị Disallow trong tệp robots.txt được sử dụng để cấm bot truy cập vào một trang hoặc phần của trang web cụ thể. Chỉ thị này có thể đặt tại các mức độ khác nhau, từ cấm toàn bộ trang web đến cấm một số phần cụ thể của trang web. Ví dụ:

Disallow: /admin/

Chỉ thị trên sẽ cấm bot truy cập vào bất kỳ trang nào trong thư mục "/admin/". Điều này đảm bảo rằng thông tin quan trọng không được nhìn thấy hoặc truy cập bởi những ai không có quyền truy cập. Cách khác để sử dụng chỉ thị Disallow là cấm bot truy cập vào một số tệp tin hoặc phần cụ thể của một trang web. Ví dụ:

Disallow: /private-page.html

Chỉ thị trên sẽ cấm bot truy cập vào trang "/private-page.html" và đảm bảo rằng trang web của bạn không bị tìm thấy hoặc chỉ mục bởi các công cụ tìm kiếm.

7. Chỉ thị Allow trong tệp robots.txt

Chỉ thị Allow trong tệp robots.txt được sử dụng để cho phép bot truy cập vào một trang hoặc phần của trang web được cấm truy cập bởi một chỉ thị Disallow khác. Chỉ thị Allow được sử dụng để ghi đè vào chỉ thị Disallow và cho phép bot truy cập vào những trang hoặc phần cụ thể của trang web. Ví dụ:

Disallow: /private/
Allow: /private-page.html

Trong đoạn mã trên, chỉ thị Disallow cấm bot truy cập vào tất cả các trang trong thư mục "/private/", nhưng chỉ thị Allow tiếp theo cho phép bot truy cập vào trang "/private-page.html" trong thư mục đó. Điều này cho phép bạn kiểm soát chính xác quyền truy cập của bot vào các trang hoặc phần cụ thể của trang web.

8. Chỉ thị Crawl Delay trong tệp robots.txt

Chỉ thị Crawl-delay trong tệp robots.txt được sử dụng để giới hạn tần suất các yêu cầu truy cập của bot vào trang web, nhằm tránh quá tải máy chủ. Một số bot và công cụ tìm kiếm hỗ trợ chỉ thị này, và nó cho phép bạn xác định khoảng thời gian giữa các yêu cầu truy cập từ bot. Ví dụ:

Crawl-delay: 5

Chỉ thị trên đặt thời gian chờ là 5 giây giữa các yêu cầu truy cập từ bot. Điều này giúp đảm bảo rằng máy chủ không bị quá tải bởi việc nhận quá nhiều yêu cầu truy cập cùng một lúc. Tuy nhiên, chỉ thị này không được hỗ trợ bởi tất cả các bot và công cụ tìm kiếm, và mỗi bot có thể hiểu số giây chờ khác nhau.

9. Chỉ thị Noindex trong tệp robots.txt

Chỉ thị Noindex trong tệp robots.txt được sử dụng để ngăn các trang hoặc phần của trang web không được chỉ mục và xuất hiện trong kết quả tìm kiếm của các công cụ tìm kiếm. Tuy nhiên, chỉ thị này đã không còn được Google hỗ trợ từ năm 2019, nên không nên sử dụng nó. Thay vào đó, bạn nên sử dụng các phương pháp khác như thẻ meta robots hoặc thuộc tính noindex của trang để đạt được kết quả tương tự.

10. Chỉ thị Nofollow trong tệp robots.txt

Chỉ thị Nofollow trong tệp robots.txt được sử dụng để ngăn bot của công cụ tìm kiếm theo sau các liên kết trong trang web. Nó tương tự như các thẻ nofollow trong trang, nhưng các chỉ thị Nofollow trong tệp robots.txt áp dụng cho tất cả các liên kết trên trang web thay vì chỉ áp dụng cho một liên kết cụ thể. Tuy nhiên, chỉ thị này không được hỗ trợ bởi tất cả các công cụ tìm kiếm, vì vậy nó không phổ biến và không được khuyến nghị sử dụng.

11. Các tình huống đặc biệt với Googlebot

Googlebot là một trong những con bot quan trọng nhất trên web và có một số tình huống đặc biệt mà bạn nên biết:

- Xử lý chỉ thị không hợp lệ: Googlebot sẽ bỏ qua những dòng không hợp lệ trong tệp robots.txt, không tải thông tin không cần thiết và không áp dụng các quy định sai cho việc thu thập dữ liệu. Ý tưởng chính là bỏ qua những lỗi trong tệp robots.txt để thu thập dữ liệu hiệu quả.

- Xử lý mã trạng thái khác nhau: Googlebot xử lý mã trạng thái HTTP trả về từ tệp robots.txt theo cách khác nhau. Nếu các mã trạng thái lỗi khác 429 (Quá nhiều lượt truy cập), Googlebot hiểu rằng không có giới hạn truy cập và tiếp tục thu thập dữ liệu. Sau 30 ngày mà tệp robots.txt vẫn không thể truy cập, Googlebot giả định rằng không có giới hạn truy cập và tiếp tục thu thập dữ liệu.

- Hỗ trợ nhiều Sitemap: Googlebot hỗ trợ sử dụng nhiều tệp Sitemap trong tệp robots.txt của bạn. Điều này cho phép bạn đệ trình nhiều sitemap khác nhau cho các phần khác nhau của trang web của bạn.

12. Các tiêu chuẩn tốt nhất cho tệp robots.txt

Dưới đây là một số tiêu chuẩn tốt nhất cho việc sử dụng tệp robots.txt:

- Dùng Disallow để đơn giản hóa: Sử dụng chỉ thị Disallow dạng đa dạng và kết hợp các chỉ thị Disallow có cùng tiền tố để đơn giản hóa quá trình chỉ định.

- Đặt user agent đặc biệt trên cùng: Đặt các chỉ thị áp dụng cho các user agent đặc biệt lên trên cùng của tệp robots.txt, sau đó sau đó đặt các chỉ thị áp dụng cho tất cả các user agent vào cuối tệp.

- Sử dụng chỉ thị Allow để ghi đè: Sử dụng chỉ thị Allow để ghi đè lên các chỉ thị Disallow khi bạn muốn cho phép bot truy cập vào một số trang hoặc phần cụ thể của trang web.

- Cấm truy cập vào các thư mục quan trọng: Hãy cẩn thận khi cấm bot truy cập vào các thư mục quan trọng như /admin/ hoặc /private/. Điều này giúp đảm bảo rằng những thông tin quan trọng không bị truy cập hoặc chỉ bị truy cập bởi những người có quyền truy cập.

- Kiểm tra thật kỹ trước khi triển khai: Trước khi triển khai tệp robots.txt, hãy kiểm tra kỹ rằng tất cả các chỉ thị và quy tắc hoạt động như mong đợi bằng cách sử dụng công cụ kiểm tra tệp robots.txt và công cụ kiểm tra công cụ tìm kiếm của Google.

13. Các ví dụ sử dụng tệp robots.txt

Dưới đây là một số ví dụ về cách sử dụng tệp robots.txt để kiểm soát truy cập bot vào trang web của bạn:

- Ví dụ 1: Chỉ cấm truy cập vào thư mục /admin/

User-agent: *
Disallow: /admin/

Trong ví dụ này, tất cả các bot sẽ bị cấm truy cập vào các trang trong thư mục "/admin/".

- Ví dụ 2: Cấm truy cập vào các trang với phần mở rộng .pdf và .txt

User-agent: *
Disallow: /*.pdf$
Disallow: /*.txt$

Trong ví dụ này, tất cả các bot sẽ bị cấm truy cập vào các trang có phần mở rộng là .pdf và .txt.

- Ví dụ 3: Chỉ cho phép bot truy cập vào thư mục /products/

User-agent: *
Disallow: /
Allow: /products/

Trong ví dụ này, tất cả các bot sẽ bị cấm truy cập vào tất cả các trang, trừ các trang trong thư mục "/products/".

- Ví dụ 4: Sử dụng Sitemap và Crawl-delay

User-agent: *
Disallow: /admin/
Crawl-delay: 5
Sitemap: https://www.example.com/sitemap.xml

Trong ví dụ này, tất cả các bot sẽ bị cấm truy cập vào các trang trong thư mục "/admin/", và sẽ có một khoảng thời gian chờ là 5 giây giữa các yêu cầu truy cập từ bot. Đồng thời, sitemap của trang web được chỉ định là "https://www.example.com/sitemap.xml".

14. Sử dụng công cụ SEO Testing để tối ưu hóa

Để tận dụng hết dữ liệu từ Google Search Console và tối ưu hóa SEO cho trang web của bạn, sử dụng công cụ SEO Testing để thiết lập các thử nghiệm SEO và biết được những thay đổi nào đóng góp vào việc tăng lượng truy cập. SEO Testing cung cấp một thử nghiệm miễn phí trong 14 ngày để bạn kiểm tra công cụ của chúng tôi. Đăng ký sử dụng công cụ qua liên kết trong phần mô tả video. Chúng tôi hy vọng rằng bài viết này đã giúp bạn hiểu và áp dụng hiệu quả tệp robots.txt cho việc tối ưu hóa SEO của trang web của bạn.

Are you spending too much time on seo writing?

SEO Course
1M+
SEO Link Building
5M+
SEO Writing
800K+
WHY YOU SHOULD CHOOSE Proseoai

Proseoai has the world's largest selection of seo courses for you to learn. Each seo course has tons of seo writing for you to choose from, so you can choose Proseoai for your seo work!

Browse More Content