Hướng dẫn tối ưu hóa Robots.txt cho Wordpress
Table of Contents
- Giới thiệu
- Subheading: Vai trò của file robots.txt
- Các quy tắc cơ bản
- Subheading: User-agent
- Subheading: Disallow
- Subheading: Allow
- Các user-agent phổ biến
- Subheading: Googlebot
- Subheading: Bingbot
- Subheading: Imagebot
- Phân quyền truy cập
- Subheading: Disallow từng thư mục
- Subheading: Disallow từng tệp
- Subheading: Disallow toàn bộ website
- Tối ưu hóa robots.txt cho WordPress
- Subheading: Ẩn thư mục admin
- Subheading: Plugin chặn bot xấu
- Kết hợp với Google Webmaster Tools
- Subheading: Tải lên sitemap
- Subheading: Kiểm tra lỗi
- Tạo và chỉnh sửa robots.txt
- Subheading: Sử dụng File Manager
- Subheading: Sử dụng FTP
- Mẹo và lưu ý
- Subheading: Kiểm tra robots.txt hiện tại
- Subheading: Ẩn các trang đặc biệt
- Subheading: Kiểm tra lỗi crawling
🤖 Giới thiệu
Trong hướng dẫn này, chúng ta sẽ tìm hiểu về những quy tắc tốt nhất cho tệp robots.txt của bạn. Nếu bạn có bất kỳ câu hỏi hoặc ý kiến nào, hãy để lại bình luận bên dưới. Tôi sẽ cố gắng trả lời chúng một cách tốt nhất. Tên tôi là Bjorn và chúng tôi là WP Learning Lab, nơi chúng tôi giúp bạn nhanh chóng nắm bắt WordPress để bạn có thể kiếm nhiều hơn cho chính mình, cho khách hàng của bạn và cho doanh nghiệp của bạn. Nếu bạn chưa đăng ký thì hãy nhấp vào nút Đăng ký để không bỏ lỡ video mới của chúng tôi. Bây giờ hãy bắt đầu!
🤖 Vai trò của file robots.txt
File robots.txt đóng vai trò quan trọng trong việc thông báo cho các bộ máy tìm kiếm về cách truy cập các phần của trang web của bạn. Nó cho phép bạn kiểm soát việc bot tìm kiếm có quyền truy cập vào các thư mục, tệp cụ thể trên trang web của bạn hay không. Điều này giúp bạn kiểm soát quá trình lập chỉ mục và hiển thị kết quả tìm kiếm của trang web của bạn trên các công cụ tìm kiếm.
🤖 Các quy tắc cơ bản
User-agent
Đây là chỉ thị đầu tiên trong tệp robots.txt và nó xác định nhóm bot tìm kiếm nào phải tuân thủ các quy tắc được chỉ định sau đó. User-agent được sử dụng để xác định bot tìm kiếm nào đang truy cập trang web của bạn.
Disallow
Chỉ thị Disallow được sử dụng để chỉ rõ các phần của trang web mà bạn không muốn bot tìm kiếm truy cập. Bằng cách chỉ định các thư mục hoặc tệp cụ thể, bạn có thể hạn chế bot tìm kiếm chỉ truy cập vào các phần quan trọng và không cần thiết trên trang web của bạn.
Allow
Chỉ thị Allow được sử dụng để cho phép bot tìm kiếm truy cập vào các phần cụ thể của trang web mà bạn muốn được lập chỉ mục. Điều này đảm bảo rằng bot tìm kiếm không bị cấm truy cập vào các phần quan trọng của trang web.
🤖 Các user-agent phổ biến
Googlebot
Đây là user-agent của Googlebot, bot tìm kiếm của Google. Bằng cách sử dụng chỉ thị User-agent và Disallow, bạn có thể kiểm soát quá trình lập chỉ mục của Googlebot trên trang web của bạn.
Bingbot
Đây là user-agent của Bingbot, bot tìm kiếm của Bing. Tương tự như với Googlebot, bạn có thể sử dụng chỉ thị User-agent và Disallow để kiểm soát việc lập chỉ mục của Bingbot trên trang web của bạn.
Imagebot
Imagebot là một user-agent của Googlebot và được sử dụng để quét các hình ảnh trên trang web của bạn. Bạn có thể sử dụng chỉ thị User-agent và Disallow để chỉ định các thư mục hoặc tệp cụ thể mà bạn không muốn Imagebot truy cập.
🤖 Phân quyền truy cập
Disallow từng thư mục
Bạn có thể sử dụng chỉ thị Disallow để hạn chế bot tìm kiếm truy cập vào các thư mục cụ thể trên trang web của bạn. Điều này đảm bảo rằng các phần quan trọng của trang web không được lập chỉ mục và hiển thị trong kết quả tìm kiếm.
Disallow từng tệp
Ngoài việc hạn chế bot tìm kiếm truy cập vào các thư mục, bạn cũng có thể sử dụng chỉ thị Disallow để ngăn chặn truy cập vào các tệp cụ thể trên trang web của bạn. Điều này hữu ích khi bạn muốn ẩn đi các tệp quan trọng mà bạn không muốn hiển thị trong kết quả tìm kiếm.
Disallow toàn bộ website
Nếu bạn muốn cấm hoàn toàn bot tìm kiếm truy cập vào trang web của bạn, bạn có thể sử dụng chỉ thị Disallow với dấu "/" để chỉ định rằng toàn bộ trang web không được lập chỉ mục.
🤖 Tối ưu hóa robots.txt cho WordPress
Ẩn thư mục admin
Trên WordPress, một phần quan trọng mà bạn muốn ẩn khỏi bot tìm kiếm là thư mục admin. Bằng cách sử dụng chỉ thị Disallow và chỉ rõ đường dẫn đến thư mục admin, bạn có thể ngăn bot tìm kiếm truy cập vào trang quản trị của WordPress.
Plugin chặn bot xấu
Một cách hiệu quả để chặn các bot xấu và bot SEO gây ảnh hưởng đến hiệu suất máy chủ của bạn là sử dụng plugin chặn bot như "Blackhole for Bad Bots" của Jeff Starr. Plugin này sẽ tự động chặn các bot không tuân thủ quy tắc trong tệp robots.txt của bạn, giúp giữ cho trang web của bạn luôn hoạt động ổn định.
🤖 Kết hợp với Google Webmaster Tools
Tải lên sitemap
Để giúp cho các bot tìm kiếm lập chỉ mục nội dung trên trang web của bạn một cách tốt nhất, bạn nên tải lên sitemap của mình vào Google Webmaster Tools và Bing Webmaster Tools. Nhờ vào chỉ thị Sitemap trong tệp robots.txt, các bot tìm kiếm sẽ biết được sitemap của bạn nằm ở đâu và có thể lập chỉ mục nhanh chóng.
Kiểm tra lỗi
Google Webmaster Tools và Bing Webmaster Tools cung cấp các công cụ để kiểm tra lỗi liên quan đến robots.txt của bạn. Bằng cách kiểm tra lỗi và điều chỉnh tệp robots.txt của bạn, bạn có thể đảm bảo rằng các bot tìm kiếm không gặp khó khăn trong việc truy cập và lập chỉ mục trang web của bạn.
🤖 Tạo và chỉnh sửa robots.txt
Sử dụng File Manager
Để tạo hoặc chỉnh sửa tệp robots.txt của bạn, bạn có thể sử dụng File Manager trong tài khoản hosting của mình. Hãy mở File Manager và tìm đến thư mục public_html. Nếu bạn đã có tệp robots.txt, hãy chỉnh sửa nó. Nếu không, hãy tạo một tệp mới với tên là robots.txt. Sau đó, dán nội dung tệp robots.txt phù hợp vào và lưu lại thay đổi.
Sử dụng FTP
Nếu bạn đã thiết lập FTP cho trang web của mình, bạn cũng có thể sử dụng nó để tạo và chỉnh sửa tệp robots.txt. Mở FTP client và kết nối đến trang web của bạn. Tìm thư mục gốc và tìm hoặc tạo một tệp có tên là robots.txt. Sau đó, dán nội dung tệp robots.txt phù hợp vào và lưu lại thay đổi.
🤖 Mẹo và lưu ý
Kiểm tra robots.txt hiện tại
Để kiểm tra tệp robots.txt hiện tại của bạn đang hoạt động như thế nào, bạn có thể sử dụng công cụ "robots.txt tester" trong Google Search Console hoặc Bing Webmaster Tools. Điều này giúp bạn kiểm tra xem các quy tắc được chỉ định trong tệp robots.txt có được tải lên và hiệu quả hay không.
Ẩn các trang đặc biệt
Nếu bạn muốn ẩn đi các trang đặc biệt trên trang web của bạn khỏi bot tìm kiếm, hãy sử dụng chỉ thị Disallow để ngăn bot truy cập vào những trang đó. Điều này đảm bảo rằng những trang không cần thiết không xuất hiện trong kết quả tìm kiếm.
Kiểm tra lỗi crawling
Để đảm bảo rằng các bot tìm kiếm không gặp khó khăn trong việc truy cập và lập chỉ mục trang web của bạn, hãy kiểm tra các lỗi crawling định kỳ trong Google Search Console và Bing Webmaster Tools. Các lỗi crawling có thể làm ảnh hưởng đến hiệu suất của trang web, vì vậy hãy sửa chúng ngay khi phát hiện.