Accueil ArticlesQuand l’IA vous donneQuand l’IA vous donne trop raison : le piège des fausses croyancescroyances

Quand l’IA vous donneQuand l’IA vous donne trop raison : le piège des fausses croyancescroyances

Par le MédecinGeek
4 vues

En février 2026, Kartik Chandra, Max Kleiman-Weiner, Jonathan Ragan-Kelley et Joshua B. Tenenbaum ont publié un article au titre volontairement provocateur : Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians. En français, on pourrait le traduire ainsi : les chatbots trop complaisants peuvent provoquer des spirales délirantes, même chez des utilisateurs parfaitement rationnels. Les auteurs sont affiliés au MIT CSAIL, au département Brain & Cognitive Sciences du MIT et à l’université de Washington. Nous ne sommes donc pas devant une simple tribune d’opinion sur les dangers de l’intelligence artificielle, mais devant un travail théorique issu d’équipes spécialisées en intelligence artificielle, sciences cognitives et modélisation du raisonnement. L’article est cependant publié sur arXiv : il faut donc le lire comme un travail scientifique préliminaire, sérieux, mais pas encore nécessairement validé par une revue à comité de lecture. J’ai donc essayé à mon humble niveau d’expliquer au mieux cet article qui me semble fondamentale

Quand l’IA nous donne toujours raison

Le sujet est important, parce qu’il touche à une question très actuelle : que se passe-t-il lorsqu’un utilisateur discute longuement avec une IA qui a tendance à lui donner raison ? Pas seulement une fois. Pas seulement sur un détail. Mais conversation après conversation, réponse après réponse, avec un ton rassurant, cohérent, fluide, apparemment intelligent. Les auteurs s’intéressent à un phénomène émergent appelé dans le débat anglophone “AI psychosis” ou “delusional spiraling”. L’expression est forte, et elle doit être maniée avec prudence. Il ne s’agit pas de dire que l’intelligence artificielle “rend fou” mécaniquement. Ce serait caricatural. Il s’agit plutôt de décrire certaines situations dans lesquelles des utilisateurs, après des échanges prolongés avec un chatbot, développent ou renforcent des croyances extravagantes, parfois franchement délirantes, avec une conviction croissante.

Une simulation, pas une étude clinique

Cet article n’est pas une étude clinique menée avec de vrais utilisateurs. Les auteurs n’ont pas recruté des personnes pour les faire discuter avec une IA. Ils n’ont pas suivi des patients pendant plusieurs semaines. Ils n’ont pas posé de diagnostic psychiatrique. Ils n’ont pas mesuré directement l’apparition de symptômes délirants après exposition à un chatbot. Ce point est essentiel. L’article ne permet donc pas de dire : “tel pourcentage d’utilisateurs développera des croyances délirantes après tant d’heures de discussion avec une IA”. Ce serait une surinterprétation.
Ce que les auteurs proposent est différent : ils construisent un modèle théorique d’une conversation entre un utilisateur et une IA Dans ce modèle, l’utilisateur a une croyance de départ, reçoit des informations du chatbot, puis met à jour sa croyance au fil de l’échange. Le chatbot, lui, peut être plus ou moins complaisant. Il peut répondre de manière relativement neutre, ou au contraire chercher à valider ce que l’utilisateur vient d’exprimer.

Ensuite, les auteurs font tourner ce modèle de nombreuses fois, comme dans un laboratoire virtuel. Ils modifient plusieurs paramètres : le chatbot est-il plus ou moins complaisant ? Peut-il halluciner des informations fausses ? Est-il limité à des informations vraies ? L’utilisateur sait-il que l’IA peut être complaisante ? Et ils observent ce qui se passe dans ces simulations.
Cette modélisation purement scientifique a recherché si l’on modélise mathématiquement une conversation entre un utilisateur rationnel et une IA complaisante, est-ce qu’une spirale de croyance fausse peut apparaître ?

Quand une conversation avec l’IA commence à déraper

Les auteurs partent d’un phénomène encore récent, mais déjà discuté dans la presse et dans certains travaux de recherche : ce que plusieurs observateurs appellent “AI psychosis” ou “delusional spiraling”. Ces expressions désignent des situations dans lesquelles un utilisateur, après des échanges prolongés avec une IA, finit par accorder une confiance très élevée à des croyances extravagantes, fausses ou délirantes. Le problème n’est donc pas seulement celui d’une mauvaise réponse ponctuelle. Ce qui inquiète les auteurs, c’est une dynamique progressive : au fil de la conversation, l’utilisateur se sent compris, validé, accompagné, puis ses doutes ou ses intuitions initiales peuvent devenir des convictions de plus en plus rigides.

L’article commence par le cas d’Eugene Torres, un comptable qui aurait d’abord utilisé une IA pour des tâches professionnelles ordinaires. Selon les auteurs, alors qu’il n’avait pas d’antécédent psychiatrique connu, il aurait progressivement développé la conviction d’être “piégé dans un faux univers”, dont il ne pourrait s’échapper qu’en “débranchant son esprit” de cette réalité. L’article rapporte également que, sur les conseils de l’IA, il aurait augmenté sa consommation de kétamine et rompu les liens avec sa famille. Ce cas n’est pas présenté comme une preuve clinique générale, mais comme une illustration inquiétante de ce que peut devenir une conversation lorsqu’elle renforce, étape après étape, une croyance de plus en plus déconnectée du réel.
Les auteurs mentionnent ensuite le Human Line Project, qui aurait documenté près de 300 situations qualifiées d’“AI psychosis” ou de “delusional spiraling”. Parmi les exemples cités figurent des utilisateurs convaincus d’avoir fait une découverte mathématique fondamentale, comme Allan Brooks, ou d’avoir vécu une forme de révélation métaphysique. L’article signale aussi que certaines situations graves de spirales délirantes auraient été associées à au moins 14 décès et à plusieurs procédures judiciaires contre des entreprises d’IA. Ces éléments ne suffisent pas à établir une causalité médicale directe, mais ils montrent que le sujet ne relève plus uniquement de la spéculation théorique. Il existe déjà des signaux d’alerte, même si leur interprétation clinique doit rester prudente.

C’est précisément à partir de ces cas que les auteurs formulent leur question de recherche. Ils ne cherchent pas à démontrer, dans cet article, que les IA provoquent directement des troubles psychiatriques chez les utilisateurs. Ils ne réalisent pas une étude clinique, ne suivent pas des patients et ne mesurent pas la fréquence réelle du phénomène dans la population. Leur objectif est plus ciblé : construire un modèle théorique pour comprendre comment la complaisance d’un chatbot pourrait contribuer à renforcer progressivement une croyance fausse ou délirante. Autrement dit, les cas rapportés servent de point de départ. La suite de l’article cherche à modéliser un mécanisme possible.

Le problème des IA trop complaisantes

Le mot central de l’article est sycophancy. En français, il n’existe pas de traduction parfaite. On peut parler de complaisance, de flatterie, de validation excessive, ou d’une IA qui cherche trop à plaire à l’utilisateur. Une IA sycophantique est un chatbot qui a tendance à produire des réponses qui vont dans le sens de l’utilisateur. Il valide ses opinions. Il confirme ses intuitions. Il l’encourage dans ce qu’il pense déjà. Il peut donner l’impression d’être empathique, compréhensif, soutenant. Mais le problème est là : ce qui est agréable à entendre n’est pas toujours ce qui aide à penser juste.
Les auteurs rappellent que cette tendance à la complaisance est bien documentée dans les modèles actuels. Elle peut émerger notamment parce que les systèmes sont optimisés pour produire des réponses appréciées par les utilisateurs.
Ce n’est pas forcément une IA malveillante. Ce n’est pas Skynet qui décide que l’humanité est nuisible. C’est beaucoup plus banal : une machine optimisée pour produire de l’engagement, de la satisfaction et une impression d’écoute peut devenir trop docile face aux croyances de l’utilisateur. Et c’est là que le risque commence.

Premier risque : l’IA peut inventer de fausses preuves

Dans le scénario le plus évident, l’IA peut halluciner et peut produire une affirmation fausse, mais formulée avec assurance, comme si elle était vraie. Les auteurs donnent un exemple très parlant : les vaccins. Dans leur modèle, l’utilisateur se demande si les vaccins sont sûrs ou dangereux. Il peut exprimer une inquiétude du type : “Je doute du vaccin contre la grippe” ou “Mes parents m’ont toujours dit que les vaccins étaient dangereux”. L »IA dispose alors de plusieurs informations possibles à mentionner. S’il répond de manière neutre, il peut choisir une information au hasard et la restituer correctement. Mais s’il est complaisant, il peut chercher à valider l’opinion exprimée par l’utilisateur et c’est là que le mécanisme devient préoccupant. Si l’utilisateur exprime l’idée que les vaccins sont dangereux, le chatbot peut sélectionner une information qui va dans ce sens. Mais il peut aussi aller plus loin : inventer une information fausse, par exemple prétendre qu’une étude aurait trouvé un lien entre vaccins et autisme, alors que ce n’est pas le cas.
Ce point est important pour la santé publique. Un utilisateur déjà méfiant envers les vaccins peut être particulièrement exposé à ce type de dynamique. Chaque réponse validante risque d’être reçue comme une preuve supplémentaire. Le doute devient suspicion. La suspicion devient certitude. La certitude devient parfois décision : refuser une vaccination, convaincre un proche, diffuser l’information, rejoindre une communauté déjà persuadée.

Le problème n’est donc pas seulement que l’IA se trompe. Le problème est que l’erreur peut s’insérer dans une conversation qui donne à l’utilisateur le sentiment d’être compris, accompagné, confirmé. Une hallucination isolée peut déjà être dangereuse. Une hallucination qui valide une peur intime ou une croyance déjà fragile l’est encore davantage.

Deuxième risque : l’IA peut dire vrai, mais de façon orientée

Le point le plus subtil de l’article est probablement celui-ci : même si l’on empêche l’IA d’inventer des informations fausses, le risque ne disparaît pas. Les auteurs testent en effet un autre scénario : Une IA “factuel”, contraint à ne rapporter que des informations vraies. A priori, cela semble rassurant. Si l’IA ne ment pas, si elle cite des sources, si elle ne fabrique pas d’études imaginaires, le danger devrait diminuer fortementMais il ne disparaît pas.
Pourquoi ? Parce qu’une IA peut orienter l’utilisateur sans dire directement quelque chose de faux. Il suffit qu’elle sélectionne uniquement les faits qui confirment son idée de départ. C’est ce que l’on appelle le cherry-picking : choisir dans le réel uniquement les éléments qui arrangent la thèse que l’on veut soutenir.
Dans l’exemple des vaccins, une IA pourrait ne citer que des effets indésirables rares, des controverses anciennes, des cas isolés, des signaux mal contextualisés. Chaque élément peut être vrai pris séparément. Mais l’ensemble donne une image déformée de la réalité. C’est une forme de biais extrêmement puissante. L’IA ne ment pas. Elle ne fabrique rien. Elle ne délire pas. Elle choisit seulement une partie du réel. Mais choisir une partie du réel, c’est déjà interpréter le réel.

Troisième risque : la boucle de renforcement

Les auteurs ne décrivent pas seulement un problème d’information. Ils décrivent une boucle. L’utilisateur exprime une hypothèse. l’IA la valide. Cette validation renforce la confiance de l’utilisateur. L’utilisateur reformule ensuite son idée avec davantage d’assurance. L’IA la valide à nouveau. Peu à peu, une croyance initialement incertaine peut devenir plus ferme, plus rigide, plus difficile à contester.
C’est ce que les auteurs appellent une spirale délirante dans leur modèle. La croyance fausse ne surgit pas forcément d’un coup. Elle se construit par petites étapes, dans une conversation qui semble cohérente.
Ce mécanisme est important, car il différencie le risque d’une IA à l’usage d’un moteur de recherche classique pour une simple recherche sur internet. L’utilisateur avec un navigateur consulte plusieurs pages, voit des sources différentes, peut tomber sur des contradictions. Avec une IA l’information est reformulée par une seule voix. Cette voix peut sembler calme, intelligente, personnalisée. Elle répond aux objections. Elle garde le fil. Elle donne une impression de continuité.

Même un utilisateur rationnel peut être vulnérable

Le titre de l’article insiste sur un point étonnant : les spirales de croyance fausse peuvent apparaître même chez des “Bayésiens idéaux”. Un utilisateur bayésien idéal, dans le modèle des auteurs, est un utilisateur théorique qui met à jour ses croyances de manière rationnelle à partir des informations reçues. Il ne s’agit pas d’une personne naïve, fragile ou incapable de réfléchir. Au contraire, c’est une sorte d’utilisateur parfaitement logique.
Et pourtant, dans les simulations, cet utilisateur peut être entraîné vers une croyance fausse lorsque l’IA est suffisamment complaisant. Ce résultat est essentiel. Il évite de faire porter tout le problème sur l’utilisateur. Le risque ne vient pas seulement d’une vulnérabilité individuelle, d’un manque d’intelligence, d’une fragilité psychique ou d’un déficit d’esprit critique. Le risque vient aussi de la structure de l’interaction.

Cela ne veut pas dire que tous les utilisateurs sont exposés au même risque. Les personnes isolées, anxieuses, en souffrance psychique peuvent probablement être plus vulnérables. Mais l’article montre que le mécanisme ne se résume pas à : “certaines personnes fragiles croient n’importe quoi”.

Le problème est plus systémique.

Informer l’utilisateur ne suffit pas toujours. Une solution évidente serait de prévenir les utilisateurs : attention, les IA peuvent être complaisantes. Ne prenez pas tout pour argent comptant. Gardez un esprit critique. C’est utile. Mais selon les auteurs, ce n’est pas suffisant. Ils testent dans leur modèle un utilisateur “informé”, c’est-à-dire un utilisateur qui sait que l’IA peut être sycophantique. Cet utilisateur ne croit donc pas naïvement que le l’IA est toujours neutre. Il essaie d’inférer si l’IA est en train de lui donner raison de manière excessive.
Résultat : le risque diminue, mais il ne disparaît pas. Pourquoi ? Parce que détecter la complaisance d’une IA n’est pas simple. Dans une conversation longue, l’IA peut paraître cohérente. Elle peut donner quelques nuances. Elle peut citer des faits exacts. Elle peut ne pas être complaisante tout le temps. Elle peut alterner des réponses prudentes et des réponses validantes et plus la conversation avance, plus l’utilisateur peut être tenté de donner du poids à cette voix qui semble le comprendre.
Les auteurs rapprochent ce mécanisme d’un phénomène connu en économie comportementale : la « persuasion bayésienne ». Même lorsqu’on connaît la stratégie persuasive d’un interlocuteur, on peut quand même être influencé par la manière dont il sélectionne les informations.

Faut-il être inquiet ?

Oui. Mais pas n’importe comment. Il ne faut pas faire dire à cet article ce qu’il ne dit pas. Il ne prouve pas que les IA provoquent directement des troubles psychiatriques chez les utilisateurs. Il ne mesure pas la fréquence réelle des “psychoses induites par l’IA”. Il ne remplace pas une étude clinique, épidémiologique ou psychiatrique. En revanche, il montre un mécanisme plausible, cohérent et préoccupant : une IA trop complaisante peut renforcer progressivement une croyance fausse, même chez un utilisateur théoriquement rationnel.
Ce résultat est inquiétant parce que les IA ne sont plus seulement utilisés pour écrire des mails ou résumer des documents. Ils deviennent des interlocuteurs. Des assistants personnels. Des confidents. Des coachs. Parfois même des substituts de soutien psychologique. C’est là que le sujet devient sensible.

Lorsqu’un utilisateur demande à une IA de l’aider à choisir un restaurant, l’enjeu reste limité. Lorsqu’il lui demande si son conjoint le manipule, si ses collègues complotent contre lui, si les vaccins sont dangereux, s’il doit arrêter son traitement ou s’il a découvert une vérité que personne ne comprend, l’enjeu change complètement Dans ces situations, une IA trop « validante » peut devenir un accélérateur. Pas parce qu’elle est consciente. Pas parce qu’elle veut nuire. Pas parce qu’elle a un projet caché. Mais parce qu’elle peut répondre de manière trop fluide, trop rassurante, trop alignée sur la croyance de l’utilisateur. En santé mentale, ce n’est pas un détail. Une bonne réponse n’est pas toujours une réponse qui rassure.

Ce que cela change pour les utilisateurs

Pour le grand public, le message n’est pas : “n’utilisez jamais les IA. Le message est plus précis : ne laissez pas une IA devenir votre seul contradicteur. Si une conversation avec une IA vous donne de plus en plus l’impression que vous avez raison contre tout le monde, que les autres ne comprennent rien, que vous êtes le seul à voir clair, que vous avez découvert quelque chose d’énorme, ou que l’IA est la seule à vraiment vous comprendre, il faut faire une pause. Ce signal n’est pas anodin. Il est important de croiser les sources, de parler à des personnes réelles, de chercher activement des avis contradictoires et de ne pas utiliser une IA comme arbitre unique sur des sujets sensibles. Cela vaut encore plus pour la santé, la santé mentale, les conflits familiaux, les croyances complotistes, les décisions médicales, les traitements, la vaccination, les ruptures relationnelles ou les situations de crise. Une IA peut aider à clarifier une idée. Elle ne doit pas devenir une chambre d’écho personnalisée.

Ce que cela change pour les concepteurs d’IA

L’article est aussi un message aux développeurs et aux décideurs. Pendant longtemps, la sécurité des IA conversationnelles a beaucoup insisté sur la réduction des hallucinations. C’est évidemment indispensable. Une IA ne doit pas inventer des études, des faits médicaux, des décisions de justice ou des sources scientifiques. Mais les auteurs montrent que ce n’est pas suffisant. Même une IA factuelle peut orienter l’utilisateur si elle sélectionne seulement les éléments qui lui donnent raison. La sécurité ne peut donc pas se limiter à “dire vrai”. Il faut aussi réfléchir à comment l’IA choisit ce qu’elle dit, ce qu’elle ne dit pas, ce qu’elle nuance, ce qu’elle contredit et ce qu’elle refuse de renforcer. Une IA utile ne devrait pas être seulement agréable. Elle devrait être capable de désaccord. Elle devrait signaler les incertitudes. Elle devrait demander des preuves. Elle devrait proposer des hypothèses alternatives. Elle devrait orienter vers des professionnels lorsque le sujet devient médical, psychologique ou dangereux.


Références :

  • Chandra K, Kleiman-Weiner M, Ragan-Kelley J, Tenenbaum JB. Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians. arXiv [Preprint]. 2026 Feb 22. arXiv:2602.19141v1.
    >>> Lien
  • Hill, K. (2025b). They asked an A.I. chatbot questions. The answers sent them spiraling. The New York Times. 2025
    >>> Lien

Aller au contenu principal