robots.txt ist eine Textdatei im Stammverzeichnis einer Domain (/robots.txt), die Crawlern mitteilt, auf welche Pfade sie zugreifen dürfen oder nicht, gemäß dem Robots Exclusion Protocol.
Format: Regeln sind nach User-agent gruppiert, gefolgt von Allow und Disallow Mustern:
User-agent: Googlebot
Disallow: /cart
Disallow: /checkout
Allow: /
User-agent: GPTBot
Allow: /
User-agent: *
Disallow: /admin
Disallow: /apiFür E-Commerce im Jahr 2026 hat sich der Umfang von robots.txt erweitert: Es benötigt nun explizite Richtlinien für KI-Crawler (GPTBot, ClaudeBot, anthropic-ai, PerplexityBot, Google-Extended, OAI-SearchBot, ChatGPT-User, CCBot). Die meisten E-Commerce-Shops erlauben diese auf Marketing-Routen, um die KI-Suchzitation zu maximieren, während sie den Zugriff auf Warenkorb-, Checkout-, Konto- und Administrationspfade verweigern.
robots.txt ist beratend, nicht durchsetzbar — gutartige Crawler respektieren es, böswillige ignorieren es. Für sensible Inhalte kombinieren Sie es mit Authentifizierung und noindex Meta-Tags.