robots.txt è un file di testo semplice nella radice di un dominio (/robots.txt) che indica ai crawler quali percorsi possono o non possono accedere, seguendo il Protocollo di Esclusione dei Robots.
Formato: le regole sono raggruppate per User-agent seguite da modelli Allow e Disallow:
User-agent: Googlebot
Disallow: /cart
Disallow: /checkout
Allow: /
User-agent: GPTBot
Allow: /
User-agent: *
Disallow: /admin
Disallow: /apiPer l'ecommerce nel 2026, robots.txt ha un ambito ampliato: ora necessita di politiche esplicite per i crawler AI (GPTBot, ClaudeBot, anthropic-ai, PerplexityBot, Google-Extended, OAI-SearchBot, ChatGPT-User, CCBot). La maggior parte dei negozi di ecommerce consente questi percorsi di marketing per massimizzare la citazione nelle ricerche AI, mentre li esclude dai percorsi di carrello, checkout, account e amministrazione.
robots.txt è consultivo, non vincolante — i crawler ben comportati lo rispettano, quelli malevoli lo ignorano. Per contenuti sensibili, combinare con autenticazione e meta tag noindex.