Tìm hiểu về file robots.txt và cách tạo một file đầy hiệu quả

Try Proseoai — it's free
AI SEO Assistant
SEO Link Building
SEO Writing

Tìm hiểu về file robots.txt và cách tạo một file đầy hiệu quả

Mục lục

  1. Giới thiệu
  2. Tìm hiểu về file robots.txt
  3. Tạo và đặt vị trí của file robots.txt
  4. Cú pháp của file robots.txt
  5. User-agent và tác dụng của nó
  6. Cấu trúc của file robots.txt
    • 6.1. Cấu trúc chung của file robots.txt
    • 6.2. User-agent: *
    • 6.3. Disallow:
    • 6.4. Allow:
    • 6.5. Sitemap:
  7. Những điều cần lưu ý khi sử dụng file robots.txt
    • 7.1. Đặt file robots.txt đúng vị trí
    • 7.2. Kiểm tra cú pháp của file robots.txt
    • 7.3. Cẩn thận với tùy chọn Disallow
    • 7.4. Sitemap không nên đặt trong file robots.txt
    • 7.5. Xóa các tệp tin không cần thiết trong file robots.txt
  8. Ví dụ về file robots.txt
  9. Giới thiệu về Robots Exclusion Protocol (REP)
  10. Tổng kết

👉 Tìm hiểu về file robots.txt

Trong quá trình tối ưu hóa SEO cho website, việc sử dụng file robots.txt là một phần không thể thiếu. File này được sử dụng để chỉ định cho các công cụ tìm kiếm biết được những phần nào của trang web không nên được truy cập và chỉ rõ các tập tin và thư mục nào nên được tìm thấy.

Lợi ích của việc sử dụng file robots.txt:

✔️ Tránh việc thu thập thông tin không cần thiết từ website.

✔️ Giảm thiểu tải trọng của website, giúp tăng tốc độ tải trang.

✔️ Bảo mật thông tin.

✔️ Hướng dẫn các công cụ tìm kiếm chỉ tập trung vào các phần quan trọng.

✔️ Tăng khả năng hiển thị và tìm kiếm trang chủ của website.

👉 Tạo và đặt vị trí của file robots.txt

File robots.txt là một tệp văn bản đơn giản, được tạo ra bằng cách sử dụng công cụ tạo và tuân thủ ngắn gọn nhằm chỉ ra cho các công cụ tìm kiếm những phần không nên truy cập và không cần index. Khi tạo file robots.txt, bạn cần đặt nó trong thư mục gốc (root) của website của bạn.

Ví dụ, nếu bạn đang sử dụng Wordpress cho website của mình, file robots.txt nên được đặt tại địa chỉ "yourdomain.com/robots.txt". Trong trường hợp đặc biệt, nếu bạn đã định cấu hình một thư mục chính khác như "public_html" hoặc "www", bạn có thể đặt file robots.txt tại "yourdomain.com/public_html/robots.txt" hoặc "yourdomain.com/www/robots.txt".

Một số trường hợp ngoại lệ, file robots.txt không thể hiển thị công khai trên trang web, đây là khi bạn muốn bảo vệ thông tin, bạn có thể đặt file này tại thư mục gốc của hosting của bạn và chuyển nó vào thư mục công khai chỉ khi cần thiết.

👉 Cú pháp của file robots.txt

File robots.txt có cấu trúc đơn giản, sử dụng cú pháp sau:

User-agent: [tên robot]
Disallow: [thư mục/đường dẫn cần khóa]

Trong đó:

  • User-agent: tên của robot mà bạn muốn chỉ định. Ví dụ: *
  • Disallow: thư mục hoặc đường dẫn bạn muốn chặn truy cập của robot. Ví dụ: /private/

Các tùy chọn khác có thể được sử dụng như "Allow" để cho phép truy cập vào các thư mục cụ thể và "Sitemap" để chỉ định sitemap của trang web.

👉 User-agent và tác dụng của nó

Trong file robots.txt, User-agent là một phần quan trọng để chỉ định rõ robot hoặc công cụ tìm kiếm mà bạn muốn áp dụng các chỉ định.

User-agent: * Đây là một tùy chọn sử dụng trong trường hợp bạn muốn áp dụng chỉ định cho tất cả các robot. Ví dụ:

User-agent: *
Disallow: /private/

Trong ví dụ trên, tất cả các robot đều bị chặn truy cập vào thư mục /private/.

User-agent: [tên robot]

Đây là tùy chọn sử dụng khi bạn chỉ muốn áp dụng chỉ định cho một robot cụ thể. Ví dụ:

User-agent: Googlebot
Disallow: /private/

Trong ví dụ trên, chỉ có Googlebot bị chặn truy cập vào thư mục /private/.

👉 Cấu trúc của file robots.txt

6.1. Cấu trúc chung của file robots.txt

User-agent: [tên robot]
Disallow: [thư mục/đường dẫn cần khóa]
Allow: [thư mục/đường dẫn cần cho phép]
Sitemap: [đường dẫn đến sitemap của trang web]

6.2. User-agent: *

Để áp dụng chỉ định cho tất cả robot, bạn có thể sử dụng User-agent: *

Ví dụ:

User-agent: *
Disallow: /private/
Allow: /public/
Sitemap: https://yourdomain.com/sitemap.xml

Trong ví dụ trên, tất cả các robot bị chặn truy cập vào thư mục /private/ và được phép truy cập vào thư mục /public/. Đồng thời, sitemap của trang web được chỉ định là https://yourdomain.com/sitemap.xml.

6.3. Disallow:

Tùy chọn Disallow được sử dụng để chỉ định những phần của trang web mà bạn muốn chặn truy cập của robot.

Ví dụ:

User-agent: Googlebot
Disallow: /private/
Disallow: /admin/

Trong ví dụ trên, robot Googlebot bị chặn truy cập vào thư mục /private/ và /admin/ trên trang web.

6.4. Allow:

Tùy chọn Allow được sử dụng để chỉ định những phần của trang web mà bạn muốn cho phép truy cập của robot.

Ví dụ:

User-agent: Bingbot
Disallow: /private/
Allow: /public/

Trong ví dụ trên, robot Bingbot bị chặn truy cập vào thư mục /private/ và được phép truy cập vào thư mục /public/ trên trang web.

6.5. Sitemap:

Tùy chọn Sitemap được sử dụng để chỉ định đường dẫn đến sitemap của trang web. Sitemap giúp cho các công cụ tìm kiếm hiểu rõ về cấu trúc trang web và tìm thấy các trang web một cách nhanh chóng.

Ví dụ:

Sitemap: https://yourdomain.com/sitemap.xml

Trong ví dụ trên, sitemap của trang web được đặt là https://yourdomain.com/sitemap.xml.

👉 Tiếp tục đọc phần tiếp theo bên dưới

Are you spending too much time on seo writing?

SEO Course
1M+
SEO Link Building
5M+
SEO Writing
800K+
WHY YOU SHOULD CHOOSE Proseoai

Proseoai has the world's largest selection of seo courses for you to learn. Each seo course has tons of seo writing for you to choose from, so you can choose Proseoai for your seo work!

Browse More Content