robots.txt: Tấm Biển Cảnh Báo, Không Phải Bức Tường Chống Đạn – 8 Con Đường AI Vẫn Âm Thầm Đọc Website Của Bạn

Bạn đã cẩn thận cấu hình robots.txt như thế này để ngăn chặn các bot AI:

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: *
Disallow: /

Bạn đã kích hoạt Cloudflare Bot Management, thiết lập Akamai, thậm chí là tường thanh toán (paywall) phía máy chủ. Thế nhưng, khi bạn hỏi ChatGPT về sản phẩm của mình, nó vẫn trích dẫn website của bạn làm nguồn. Điều này thật khó hiểu, phải không?

Làm cách nào mà điều này lại xảy ra?

Trong các dự án Tối ưu hóa Công cụ Tạo sinh (Generative Engine Optimization – GEO), chúng tôi thường xuyên kiểm tra cách các Mô hình Ngôn ngữ Lớn (LLM) đại diện cho các thương hiệu. Chúng tôi phân tích hàng ngàn cặp câu hỏi-trả lời và liên tục phát hiện ra rằng 10-20% phản hồi của LLM vẫn trích dẫn website của chính thương hiệu đó làm nguồn — ngay cả khi mọi bot được biết đến đều đã bị chặn.

Dưới đây là 8 con đường kỹ thuật mà chúng tôi đã ghi nhận, kèm theo các nguồn học thuật và dữ liệu ngành.

1. Dữ Liệu Lịch Sử Từ 'Thư Viện Internet' Khổng Lồ: Common Crawl

Đây là yếu tố lớn nhất và cũng là ít được hiểu rõ nhất. Common Crawl là một tổ chức phi lợi nhuận đã lưu trữ web từ năm 2007. Những con số đáng kinh ngạc:

Hơn 9.5 petabyte dữ liệu, với hơn 300 tỷ tài liệu.
Khoảng 2/3 trong số 47 LLM được phát hành từ 2019-2023 sử dụng Common Crawl làm dữ liệu huấn luyện.
Các mô hình nổi tiếng như GPT-3, LLaMA, T5, Red Pajama đều được huấn luyện dựa trên kho dữ liệu này.
Bộ dữ liệu C4 của Google: 750 GB được lọc từ Common Crawl.

Việc chặn các trình thu thập thông tin (crawler) vào thời điểm hiện tại không thể xóa bỏ nội dung đã được thu thập từ trước. Những bản chụp đó là tài nguyên công khai, vĩnh viễn.

2. Vượt Qua Tường Thanh Toán 'Yếu Đuối' Phía Client

Common Crawl không thực thi JavaScript. Nếu tường thanh toán của bạn phụ thuộc vào JS phía client, nó có thể dễ dàng bị qua mặt:

<!-- Tường thanh toán của bạn tải sau khi DOM sẵn sàng -->
<script>
  document.addEventListener('DOMContentLoaded', () => {
    showPaywall();
  });
</script>

<!-- Nhưng crawler đã chụp toàn bộ HTML trước đó -->

Trình thu thập thông tin sẽ lấy được toàn bộ bài viết trước khi JavaScript kịp chạy. Alex Reisner đã ghi nhận điều này vào tháng 11/2025 cho tờ The Atlantic: Common Crawl đã thu thập toàn bộ bài viết từ NYT, WSJ, The Economist và chính The Atlantic.

3. Chiêu Trò Thay Đổi Danh Tính: Giả Mạo User-Agent

Một số bot AI thay đổi danh tính của chúng khi bị chặn. Cloudflare đã ghi nhận (tháng 8/2024) rằng Perplexity đã sử dụng:

# User-agent khai báo
PerplexityBot/1.0

# User-agent thực tế được gửi
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 Chrome/120.0.0.0

Ngoài ra, chúng còn sử dụng xoay vòng Mã số Hệ thống Tự trị (ASN) để né tránh việc chặn dựa trên IP. Hệ sinh thái né tránh này bao gồm các công cụ như FlareSolverr (kết hợp Selenium và undetected-chromedriver), Scrapfly (tỷ lệ vượt qua 94–98%), và xoay vòng proxy dân cư.

4. Nội Dung Lan Truyền Ngoài Tầm Kiểm Soát: Kênh Phân Phối

Một khi nội dung của bạn rời khỏi tên miền gốc thông qua bất kỳ kênh phân phối nào, tệp robots.txt của bạn sẽ trở nên vô nghĩa:

Tên miền gốc (robots.txt: Disallow)
  → RSS feed (không có robots.txt)
  → Apple News (tên miền khác)
  → Bản tin email (được lưu trữ trên web)
  → Đăng chéo lên mạng xã hội (bị bot quét)
  → Bộ tổng hợp API (được định dạng lại ở hạ nguồn)

Mỗi kênh này tạo ra một bản sao nội dung nằm ngoài tầm kiểm soát của bạn.

5. Kho Lưu Trữ Web Vĩnh Cửu: Wayback Machine

Internet Archive là một kho lưu trữ khổng lồ với hơn 1 tỷ trang và hơn 99 petabyte dữ liệu. web.archive.org thậm chí là tên miền đứng thứ 187 trong bộ dữ liệu C4 của Google. WARC-GPT của Harvard cho phép bạn nạp trực tiếp các kho lưu trữ WARC vào các đường ống RAG. Tính đến tháng 2/2026, các nhà xuất bản lớn như The Guardian và NYT đã bắt đầu chặn Wayback Machine do lo ngại về AI.

6. Truy Cập Dữ Liệu Tức Thì: Cơ Chế RAG Hiện Đại

Các LLM hiện đại không chỉ dựa vào dữ liệu huấn luyện. Chúng còn tìm nạp nội dung theo thời gian thực:

Bot	Tăng trưởng 2024–2025	Cơ chế
ChatGPT-User	+2,825%	Tìm nạp khi người dùng “tìm kiếm web”
PerplexityBot	+157,490%	Tìm nạp ở mỗi truy vấn
Meta-ExternalFetcher	Mới trong 2024	Tính năng AI của Meta

Những bot này tuyên bố việc tìm nạp là do "người dùng khởi xướng" (không phải thu thập thông tin tự động), nhằm tìm cách miễn trừ khỏi quy định của robots.txt. Cloudflare báo cáo rằng các bot của Anthropic có tỷ lệ thu thập-đến-giới thiệu từ 38.000:1 đến 70.000:1. Tức là, mỗi lần chúng gửi lưu lượng truy cập trở lại, chúng đã thu thập hàng chục ngàn lần.

7. 'Trang Trại Nội Dung' Tái Chế: Kẻ Thù Thầm Lặng

Các "trang trại nội dung" – dù do con người hay AI vận hành – sẽ viết lại bài viết của bạn trên các tên miền không bị hạn chế:

1. Quét/sao chép bài viết gốc
2. Viết lại để tránh bị phát hiện đạo văn
3. Xuất bản trên tên miền không có hạn chế robots.txt
4. Trình thu thập AI lập chỉ mục bản viết lại
5. LLM tiếp thu phiên bản đã viết lại

Trong vụ kiện Bartz v. Anthropic PBC, tòa án đã phán quyết rằng việc huấn luyện AI bằng nội dung từ "các trang web vi phạm bản quyền" được coi là sử dụng hợp lý. Điều này tạo tiền lệ cho cả nội dung được viết lại.

8. Phớt Lờ Trắng Trợn: Các Bot Không Tuân Thủ robots.txt

Con đường đơn giản nhất: các bot chỉ đơn giản là bỏ qua robots.txt.

12.9% số bot bỏ qua hoàn toàn (tăng từ 3.3%) – Paul Calvano, tháng 8/2025.
Đại học Duke (2025): "một số loại trình thu thập thông tin liên quan đến AI không bao giờ yêu cầu robots.txt".
Kim & Bock (ACM IMC 2025): các trình quét ít có khả năng tuân thủ các chỉ thị hạn chế hơn.

Tình trạng pháp lý đã rõ ràng: trong vụ Ziff Davis v. OpenAI (2025), thẩm phán đã mô tả robots.txt "giống như một tấm biển hơn là một hàng rào" – không phải là một biện pháp công nghệ "kiểm soát hiệu quả quyền truy cập" theo DMCA.

Thực Trạng Tuân Thủ: Những Con Số Đáng Báo Động

Chỉ số	Giá trị	Nguồn
Bot bỏ qua robots.txt	12.9%	Paul Calvano, 2025
10K trang hàng đầu có quy tắc bot AI	Chỉ 14%	Phân tích thị trường 2025
Trang web có bất kỳ robots.txt nào	94%	Nghiên cứu toàn cầu 2025

Vậy, Chúng Ta Nên Làm Gì Để Bảo Vệ Nội Dung Của Mình?

Chỉ chặn không hiệu quả. Các biện pháp phòng thủ có thể giảm trực tiếp việc thu thập thông tin từ 40–60% đối với các bot tuân thủ, nhưng chúng không thể chạm tới dữ liệu lịch sử, các bản sao đã được phân phối, hoặc nội dung được viết lại từ các trang trại nội dung.

Giải pháp thay thế là một chiến lược tấn công: kiểm soát câu chuyện thay vì cố gắng che giấu nó. Điều này bao gồm việc tối ưu hóa cách nội dung của bạn được các LLM hiểu và trình bày, đảm bảo rằng thông tin chính xác và mong muốn của bạn luôn nổi bật trong các phản hồi của AI.

Mẹo Hay Khi Dùng robots.txt và Đối Phó Với AI

Để tăng cường khả năng kiểm soát nội dung của bạn trong kỷ nguyên AI, hãy cân nhắc những mẹo sau:

Sử dụng X-Robots-Tag HTTP header cho nội dung nhạy cảm: Đối với các trang đã được lập chỉ mục hoặc bạn muốn kiểm soát chặt chẽ hơn, X-Robots-Tag trong HTTP header là một chỉ thị mạnh mẽ hơn robots.txt vì nó được xử lý ngay cả khi trình thu thập đã truy cập URL.
Ưu tiên triển khai tường thanh toán phía máy chủ (Server-side Paywall): Thay vì dựa vào JavaScript phía client, hãy đảm bảo rằng nội dung chỉ được tải hoặc hiển thị sau khi xác thực quyền truy cập từ phía máy chủ. Điều này ngăn chặn các bot không thực thi JS lấy được toàn bộ nội dung.
Kiểm tra log server thường xuyên để phát hiện hành vi bất thường: Theo dõi các user-agent và địa chỉ IP trong log server của bạn. Tìm kiếm các mẫu truy cập bất thường, user-agent giả mạo hoặc các bot truy cập quá thường xuyên, quá nhanh, điều này có thể báo hiệu các nỗ lực vượt qua rào cản.
Xây dựng chiến lược nội dung "tấn công" và định hướng AI: Thay vì chỉ cố gắng chặn, hãy chủ động tạo ra và tối ưu hóa nội dung mà bạn muốn AI sử dụng. Điều này có thể bao gồm việc tạo các trang FAQ, tóm tắt sản phẩm hoặc hướng dẫn sử dụng được cấu trúc rõ ràng, dễ hiểu và dễ trích dẫn cho AI, giúp bạn kiểm soát thông điệp cốt lõi.

Bạn đã từng gặp phải nghịch lý này chưa? Chặn mọi thứ nhưng nội dung vẫn xuất hiện trong kết quả của LLM? Chúng tôi rất muốn nghe những gì bạn đã quan sát được trong cơ sở hạ tầng của mình.

1. Dữ Liệu Lịch Sử Từ 'Thư Viện Internet' Khổng Lồ: Common Crawl

2. Vượt Qua Tường Thanh Toán 'Yếu Đuối' Phía Client

3. Chiêu Trò Thay Đổi Danh Tính: Giả Mạo User-Agent

4. Nội Dung Lan Truyền Ngoài Tầm Kiểm Soát: Kênh Phân Phối

5. Kho Lưu Trữ Web Vĩnh Cửu: Wayback Machine

6. Truy Cập Dữ Liệu Tức Thì: Cơ Chế RAG Hiện Đại

7. 'Trang Trại Nội Dung' Tái Chế: Kẻ Thù Thầm Lặng

8. Phớt Lờ Trắng Trợn: Các Bot Không Tuân Thủ robots.txt

Thực Trạng Tuân Thủ: Những Con Số Đáng Báo Động

Vậy, Chúng Ta Nên Làm Gì Để Bảo Vệ Nội Dung Của Mình?

Mẹo Hay Khi Dùng robots.txt và Đối Phó Với AI

Bài viết liên quan

Biến Ý Tưởng Thành Hình Ảnh: Loạt Công Cụ AI Miễn Phí Không Thể Bỏ Lỡ Trong Năm 2026

Chuyển Đổi Quản Lý Nhân Sự: Top Phần Mềm HRM Hàng Đầu Doanh Nghiệp Cần Biết

FPT AI Factory Lột Xác: Bứt Phá Giới Hạn Trí Tuệ Nhân Tạo Cùng Nvidia HGX B300

Tư Duy AI First: Chìa Khóa Định Hình Tương Lai Doanh Nghiệp và Marketing Số