Wie ChatGPT Quellen auswaehlt — und wie du eine davon wirst
ChatGPT zitiert ueber zwei voellig unterschiedliche Wege: Trainingsdaten und Live-Browsing. Was steuert welchen — und worauf hast du wirklich Einfluss?
Pfad 1: reine Sprachmodell-Recall
Wenn ChatGPT antwortet, ohne das Browse-Tool zu aktivieren, antwortet es aus den Trainingsdaten — dem Snapshot des oeffentlichen Webs, mit dem OpenAI das zugrunde liegende Modell trainiert hat. Dieser Snapshot hat einen harten Cutoff (aktuell um Ende 2024 / Anfang 2025, je nach Modell). Marken und Fakten, die nach dem Cutoff online gingen, koennen ueber diesen Pfad nicht erscheinen.
Was Sichtbarkeit hier steuert: Entity Prevalence. Wie oft taucht deine Marke gemeinsam mit dem Thema im Trainingskorpus auf? Der Korpus wird dominiert von Wikipedia, News-Outlets, strukturierten Verzeichnissen, GitHub, Stack Overflow, offizieller Doku und einem langen Tail indexierten Webs. Eine Marke mit Wikipedia-Stub, Crunchbase-Eintrag, drei positiven Branchen-Listings und konsistentem eigenem Auftritt schlaegt jederzeit eine Marke mit 1000 obskuren Backlinks.
Pfad 2: browsing-basiertes Retrieval
Wenn ChatGPT das Browsing aktiviert (passiert bei Queries mit Zeit-Markern — „aktuell", „2026", „heute" — oder bei Fakten-Checks, bei denen das Modell unsicher ist), schickt es Echtzeit-Queries an ein Such-Backend, scraped Ergebnisse und fuettert die Snippets zurueck in die Antwort. Aehnlich Perplexity, aber selektiv ausgeloest.
Zwei Dinge steuern Sichtbarkeit hier: (a) ob deine URL im Such-Backend fuer die von OpenAI synthetisierte Query rankt, und (b) ob die Seite beim ersten Fetch parsebar ist — kein reines JS-Rendering, keine Auth-Mauer, kein Excessive Lazy-Loading. Das Browsing-Tool ist ungeduldig.
Was du tatsaechlich tun kannst
Fuer den Trainingsdaten-Pfad
- Wikipedia-Eintrag erreichen, wenn moeglich. Ein kurzer, neutraler, gut zitierter Stub reicht. Der einzelne staerkste Hebel fuer AI-Sichtbarkeit.
- In strukturierten Verzeichnissen erscheinen, die wahrscheinlich in Trainingsdaten enthalten sind — Crunchbase, G2, Capterra, Producthunt, Stack Overflow Tags, GitHub Topics fuer Dev-Tools.
- Konsistente Drittquellen-Erwaehnungen erzeugen in News, Podcasts, Branchenreports. Konsistenz schlaegt Volumen: derselbe kanonische Name im selben faktischen Kontext quer durch Quellen.
- Kanonische Brand-Dokumentation an stabiler URL pflegen (
/about,/company,/press). Diese Seite wird indexiert und wiederzitiert.
Fuer den Browsing-Pfad
- GPTBot in robots.txt erlauben. OpenAI nutzt GPTBot fuer Training und OAI-SearchBot fuer das Browse-Tool. Beide erlauben.
- Content server-side rendern — mindestens H1, Lead-Absatz, Kern-Fakten und FAQ im initialen HTML.
- `Article`, `FAQPage` und `Organization` Schema auf den traffic-staerksten Seiten ergaenzen.
- `lastModified`-Daten frisch und sichtbar halten. Aktualitaet ist ein starkes Signal fuer das Browse-Tool.
Was nicht funktioniert
Brand-Name in Hidden-Text stopfen. Erwaehnungen auf Low-Trust-Netzwerken kaufen. AI-targeted Content ohne menschliche Lesbarkeit. AI-Engines gewichten Qualitaet und Konsistenz, nicht Surface-Optimierung. Die Detection-Mechanismen (Cross-Reference, faktische Kohaerenz, Source-Trust-Scores) sind gut und werden besser.
Diagnose-Test: welcher Pfad fehlt dir?
Lass denselben Prompt dreimal laufen: einmal mit Browsing AN, einmal AUS, einmal auf Perplexity. Wenn du mit AUS erscheinst, hast du Trainingsdaten-Praesenz. Wenn nur mit AN, hast du Web-Index-Praesenz, aber keine Entity-Recall — Marke zu neu oder zu duenn erwaehnt. Wenn auf Perplexity, aber nicht auf ChatGPT-mit-AN, hat deine Domain wahrscheinlich Crawl-Probleme bei OpenAI.