scoutciteScanner mon site

GPTBot, ClaudeBot, PerplexityBot : faut-il autoriser les robots d'IA sur ton site ?

La liste des crawlers IA (OpenAI, Anthropic, Perplexity, Google), ce que chacun fait vraiment, le robots.txt recommandé, et le compromis bloquer l'entraînement sans perdre les citations.

Par l'équipe Scoutcite · Publié le · 6 min de lecture

Si tu veux être cité par les IA, la réponse courte est oui : autorise les robots de recherche IA (OAI-SearchBot, ClaudeBot, PerplexityBot, Google-Extended). Un moteur qui ne peut pas lire ton site ne peut pas te citer. Le vrai choix stratégique se joue sur les robots d'entraînement (GPTBot, CCBot), que tu peux bloquer sans perdre les citations.

Qui sont ces robots, et que fait chacun

RobotÉditeurSert àSi tu le bloques
GPTBotOpenAICollecte pour l'entraînement des modèlesTon contenu n'alimente plus l'entraînement ; les citations ChatGPT Search ne passent pas par lui
OAI-SearchBotOpenAIIndex de ChatGPT SearchTes pages ne sont plus remontées ni citées dans ChatGPT Search
ChatGPT-UserOpenAIRequêtes en direct quand un utilisateur demande à ChatGPT de visiter une pageChatGPT ne peut plus consulter tes pages à la demande
ClaudeBotAnthropicCrawl pour Claude (recherche et entraînement)Claude ne peut plus lire ni citer ton site
PerplexityBotPerplexityIndex de PerplexityTu sors des réponses (et citations) de Perplexity
Google-ExtendedGoogleContrôle l'usage de ton contenu par Gemini (le crawl reste fait par Googlebot)Ton contenu n'alimente plus Gemini ; le Search classique n'est pas affecté
CCBotCommon CrawlCorpus public utilisé pour entraîner de nombreux modèlesTon contenu sort des futurs corpus d'entraînement ; aucune citation perdue

Les listes officielles font foi : OpenAI, Anthropic, Perplexity, Google.

Le compromis intelligent : citations oui, entraînement à toi de voir

Le débat "faut-il bloquer les IA" mélange deux questions distinctes :

  • La recherche et la citation (OAI-SearchBot, PerplexityBot, ClaudeBot en usage recherche) : c'est de la visibilité. La bloquer revient à sortir des réponses que tes acheteurs lisent.
  • L'entraînement (GPTBot, CCBot, Google-Extended) : c'est une position d'éditeur sur l'usage de ton contenu. La bloquer est défendable, surtout pour du contenu premium, et ne coûte pas de citations à court terme.

Pour une marque qui veut être recommandée par les IA, la configuration rationnelle est donc :

# Autoriser la recherche IA (citations)
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Allow: /

# Choix éditeur : bloquer l'entraînement seul
User-agent: CCBot
Disallow: /

# (GPTBot et Google-Extended : Allow si la
#  présence dans les modèles t'importe plus
#  que le contrôle de l'entraînement)

Les pièges classiques

  • Le blocage hérité. Beaucoup de sites ont ajouté des Disallow globaux en 2023-2024 "en attendant d'y réfléchir", puis ont oublié. Vérifie : c'est deux minutes, et c'est le premier signal que mesure notre grille de visibilité IA.
  • Le blocage par le pare-feu. Certains CDN et protections anti-bot servent des 403 aux crawlers IA même quand robots.txt les autorise. Dans notre baromètre des SaaS français, un site était intégralement illisible pour cette raison, sans que l'équipe le sache forcément.
  • Confondre GPTBot et OAI-SearchBot. Bloquer GPTBot en croyant se protéger, c'est souvent bien ; bloquer OAI-SearchBot en croyant faire pareil, c'est renoncer aux citations ChatGPT.

Vérifie en 30 secondes

Le scan gratuit Scoutcite lit ton robots.txt, teste l'accessibilité réelle de tes pages et vérifie les 6 robots d'IA majeurs, avec le reste des signaux du Score de Visibilité IA. Si un blocage hérité te rend invisible, tu le sauras aujourd'hui.

Questions fréquentes

Bloquer GPTBot empêche-t-il d'apparaître dans ChatGPT ?

Bloquer GPTBot empêche l'utilisation de ton contenu pour l'entraînement des modèles OpenAI. Pour la recherche et les citations dans ChatGPT, c'est OAI-SearchBot qui compte : s'il est bloqué, tes pages ne peuvent pas être remontées ni citées dans ChatGPT Search.

Les robots d'IA respectent-ils vraiment robots.txt ?

Les crawlers des grands acteurs (OpenAI, Anthropic, Google, Perplexity pour son crawl d'index) documentent publiquement leurs user-agents et déclarent respecter robots.txt. Des manquements ont été rapportés par la presse pour certains acteurs, mais robots.txt reste le mécanisme standard, et le signal que tout le monde lit.

Comment vérifier ce que mon robots.txt autorise ?

Ouvre tonsite.com/robots.txt et cherche les user-agents GPTBot, OAI-SearchBot, ClaudeBot, PerplexityBot, Google-Extended et CCBot. Le scan gratuit Scoutcite fait cette vérification automatiquement, avec le reste du diagnostic de visibilité IA.