AI Crawlability: Hướng dẫn cấu hình robots.txt cho AI bot

✍️ Tác giả: |📅 Xuất bản: 24/03/2026
🔄 Cập nhật: 24/03/2026|11 phút đọc|👁 1 lượt xem

AI Crawlability là khả năng các bot của hệ thống AI (GPTBot, Google-Extended, ClaudeBot, DeepSeek Bot, PerplexityBot) truy cập và đọc nội dung website của bạn. Cấu hình robots.txt đúng cách là yếu tố đầu tiên và quan trọng nhất trong Lớp 1: Data Accessibility của VGEO Framework.

ai-crawlability-huong-dan-cau-hinh-robots-txt-cho-ai-bot
ai-crawlability-huong-dan-cau-hinh-robots-txt-cho-ai-bot

Một file robots.txt tối ưu phải cho phép tất cả các bot AI quan trọng, đồng thời chặn các thư mục nhạy cảm (wp-admin, private). Bài viết này hướng dẫn chi tiết cách cấu hình, kèm ví dụ cụ thể và các lưu ý dành cho thị trường Việt Nam, giúp bạn đảm bảo AI bot có thể thu thập nội dung, từ đó tăng khả năng được trích dẫn trong câu trả lời của ChatGPT, Gemini, Perplexity.

📊 Cấu trúc nội dung

Mở đầu: Tại sao AI Crawlability là bước đầu tiên của GEO?

Trong thế giới SEO truyền thống, bạn đã quen với việc cấu hình robots.txt để hướng dẫn Googlebot. Nhưng với sự phát triển của AI Search, bạn cần quan tâm đến một loạt các “bot” mới: GPTBot (OpenAI), Google-Extended (Google AI), ClaudeBot (Anthropic), DeepSeek Bot (DeepSeek), PerplexityBot (Perplexity). Nếu các bot này bị chặn, nội dung của bạn sẽ không bao giờ xuất hiện trong câu trả lời của ChatGPT, Gemini, hay Perplexity – bất kể bạn có tối ưu nội dung đến đâu.

AI Crawlability là yếu tố đầu tiên (A1) trong 20 yếu tố của VGEO Framework, thuộc Lớp 1: Data Accessibility. Nó quyết định liệu các hệ thống AI có thể đọc website của bạn hay không. Bài viết này sẽ hướng dẫn bạn cấu hình robots.txt một cách tối ưu, kèm theo giải thích chi tiết và các lưu ý quan trọng.

Các AI bot quan trọng cần cho phép

Dưới đây là danh sách các bot AI phổ biến mà bạn nên cho phép trong robots.txt, cùng với user-agent tương ứng:

AI Bot User-Agent Nguồn gốc Mức độ quan trọng tại Việt Nam
GPTBot GPTBot OpenAI (ChatGPT) 🔴 Rất cao
Google-Extended Google-Extended Google (Gemini, SGE) 🔴 Rất cao
ClaudeBot ClaudeBot Anthropic (Claude) 🟠 Cao
DeepSeek Bot DeepSeek Bot 深度求索 (DeepSeek) 🔴 Rất cao (phổ biến tại VN)
PerplexityBot PerplexityBot Perplexity AI 🟠 Cao
FacebookBot FacebookBot Meta (AI) 🟡 Trung bình
Common Crawl CCBot Common Crawl (huấn luyện nhiều LLM) 🟡 Trung bình

Bạn có thể kiểm tra log server để biết bot nào thường xuyên truy cập website của mình, từ đó ưu tiên cấu hình.

Cấu hình robots.txt tối ưu cho AI bot

Dưới đây là mẫu robots.txt hoàn chỉnh, có thể áp dụng cho hầu hết các website WordPress (điều chỉnh các đường dẫn chặn phù hợp với cấu trúc của bạn).

# robots.txt cho website cuonggeo.com (ví dụ)
User-agent: *
Allow: /
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /private/
Disallow: /draft/

# Cho phép các AI bot chính
User-agent: GPTBot
Allow: /
Disallow: /wp-admin/
Disallow: /private/

User-agent: Google-Extended
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: DeepSeek Bot
Allow: /

User-agent: PerplexityBot
Allow: /

# Các bot tìm kiếm truyền thống vẫn cần thiết
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# Sitemap
Sitemap: https://cuonggeo.com/sitemap_index.xml

Giải thích từng phần:

  • User-agent: * – Quy tắc chung cho tất cả bot. Cho phép truy cập toàn bộ, nhưng chặn các thư mục không cần thiết (wp-admin, wp-includes, cache, private, draft).
  • User-agent: GPTBot, Google-Extended, … – Các quy tắc riêng cho từng bot AI. Với GPTBot, chúng ta cho phép truy cập mọi nơi ngoại trừ các khu vực nhạy cảm (wp-admin, private). Với Google-Extended, cho phép toàn bộ (có thể tùy chỉnh nếu muốn). Với các bot khác, tương tự.
  • User-agent: Googlebot, Bingbot – Vẫn giữ để hỗ trợ SEO truyền thống.
  • Sitemap – Khai báo đường dẫn sitemap để bot dễ dàng tìm thấy nội dung.

Lưu ý: Nếu bạn sử dụng WordPress, thư mục /wp-admin//wp-includes/ nên bị chặn để tiết kiệm “crawl budget”. Các thư mục như /private/ hay /draft/ nếu có cũng nên chặn.

Kiểm tra và xác minh

Sau khi cập nhật robots.txt, bạn cần kiểm tra để đảm bảo không có lỗi và các bot AI đã được phép:

  1. Kiểm tra cú pháp: Truy cập https://cuonggeo.com/robots.txt trên trình duyệt để xem file có hiển thị đúng nội dung không.
  2. Dùng Google Search Console: Vào mục “Cài đặt” → “Tệp robots.txt” để kiểm tra và gửi yêu cầu kiểm tra. Google sẽ thông báo lỗi nếu có.
  3. Theo dõi log server: Xem log để biết các bot AI có thực sự truy cập và không gặp lỗi 403 (Forbidden) hay 404 (Not Found). Bạn có thể dùng plugin WordPress như “WP Log Viewer” hoặc xem log qua hosting.
  4. Kiểm tra với công cụ mô phỏng: Một số công cụ trực tuyến cho phép bạn kiểm tra một URL cụ thể có bị chặn bởi robots.txt không (ví dụ: Google’s robots.txt Tester trong Search Console).

Những lưu ý đặc biệt cho thị trường Việt Nam

  • DeepSeek Bot rất quan trọng: Với tỷ lệ sử dụng DeepSeek tại Việt Nam lên tới 38% (theo khảo sát Q1/2026), việc cho phép DeepSeek Bot là ưu tiên hàng đầu. Hãy đảm bảo dòng User-agent: DeepSeek Bot có trong robots.txt.
  • Chú ý đến các bot AI từ Trung Quốc: Ngoài DeepSeek, còn có các bot khác như Baiduspider (cho Baidu AI) – nếu bạn nhắm đến thị trường Trung Quốc, có thể cân nhắc cho phép.
  • Kết hợp với sitemap đa dạng: Để AI bot hiểu cấu trúc, nên có sitemap riêng cho bài viết, thực thể, sản phẩm. Điều này giúp bot ưu tiên crawl nội dung quan trọng.

Những sai lầm thường gặp

  • Chặn GPTBot vô tình: Nhiều website vẫn còn dòng Disallow: / cho GPTBot. Hãy kiểm tra lại.
  • Thiếu Google-Extended: Google có hai bot: Googlebot (dành cho tìm kiếm truyền thống) và Google-Extended (dành cho AI). Nếu chỉ cho phép Googlebot, Gemini sẽ không đọc được nội dung.
  • Không khai báo sitemap: Dù không bắt buộc, nhưng sitemap giúp bot khám phá nội dung nhanh hơn.
  • Chặn quá nhiều thư mục quan trọng: Đôi khi vô tình chặn cả thư mục chứa nội dung chính. Hãy kiểm tra kỹ trước khi áp dụng.

Kết luận

AI Crawlability là bước nền tảng để website của bạn được các Generative Engine truy cập và đánh giá. Cấu hình robots.txt đúng cách, cho phép các bot AI quan trọng (GPTBot, Google-Extended, ClaudeBot, DeepSeek Bot, PerplexityBot) là việc đầu tiên cần làm khi áp dụng VGEO Framework. Sau khi hoàn tất, hãy kiểm tra và theo dõi log để đảm bảo không có lỗi. Tiếp theo, bạn sẽ chuyển sang các lớp tiếp theo: Content Structuring, Entity & Knowledge Graph, v.v.

Đừng quên kết hợp với các bài viết liên quan như AI IndexabilityStructured Data để tối ưu toàn diện.

Câu hỏi thường gặp (FAQ) về AI Crawlability

1. Làm thế nào để biết AI bot đã truy cập website của tôi?

Xem log server (có thể yêu cầu nhà cung cấp hosting cung cấp) hoặc dùng Google Search Console để theo dõi hoạt động của Googlebot và Google-Extended. Một số plugin WordPress cũng hiển thị log truy cập.

2. Có nên chặn một số AI bot để tiết kiệm tài nguyên?

Không nên, trừ khi bạn có lý do đặc biệt (ví dụ: bot gây quá tải). Các bot AI hiện nay thường có cơ chế tôn trọng robots.txt và không gây ảnh hưởng lớn đến hiệu suất. Hãy cho phép tất cả để tối đa cơ hội được trích dẫn.

3. Tôi có cần cấu hình robots.txt riêng cho từng ngôn ngữ?

Không, robots.txt là file toàn cục. Tuy nhiên, nếu bạn có các phiên bản ngôn ngữ khác nhau trên subdomain, mỗi subdomain cần có robots.txt riêng.

4. Nếu tôi chặn GPTBot, liệu ChatGPT có còn biết đến website của tôi không?

ChatGPT có thể vẫn biết đến nếu website được nhắc đến trong các nguồn khác (ví dụ: báo chí, Wikipedia), nhưng cơ hội trích dẫn trực tiếp sẽ giảm đáng kể. Hãy luôn cho phép GPTBot.

5. Có cách nào kiểm tra nhanh xem robots.txt có chặn bot AI không?

Bạn có thể dùng công cụ “robots.txt Tester” của Google Search Console, hoặc một số công cụ trực tuyến khác. Ngoài ra, bạn có thể dùng lệnh curl với user-agent giả lập: curl -A "GPTBot" https://cuonggeo.com để xem phản hồi.


Bài viết thuộc chuyên mục Kỹ thuật GEO của cuonggeo.com – Bản quyền © 2026 Nguyễn Đình Cường.
Cập nhật lần cuối: 24/03/2026.

Bài viết này hữu ích đến mức nào?

Hãy nhấp vào số sao để đánh giá!

Đánh giá trung bình / 5. Số đánh giá:

Chưa có ai bình chọn! Hãy là người đầu tiên đánh giá bài viết này.

Chúng tôi rất tiếc vì bài viết này không hữu ích với bạn!

Hãy cùng nhau cải thiện bài viết này!

Hãy cho chúng tôi biết làm thế nào để cải thiện bài viết này?