Demandez à Claude comment piloter la stratégie commerciale avec cinq nouveaux clients. La réponse sera structurée et étayée, avec des recommandations crédibles. Régulièrement, vous lui dites ce qu'il se passe et vous lui demandez si vous devez changer de stratégie. Généralement, si ça se passait bien avant, il vous dira de ne rien changer.
Cette tendance a un nom dans la recherche en sciences cognitives. On l'appelle l'absence d'exploration dirigée (la capacité à essayer délibérément une option incertaine pour réduire son incertitude). Et c'est probablement une des compétences qui fait le génie humain. Au moment où les agents IA prennent de plus en plus de décisions à notre place, il est important que vous compreniez le biais fondamental d'une IA face à l'incertitude.
Pourquoi l'adaptation à l'incertitude devient critique en 2026
L'usage des agents IA pour piloter des arbitrages a explosé en 2025-2026. Allocation de portefeuille publicitaire, priorisation de tickets support, gestion d'un pipeline commercial, choix de fournisseurs, sélection automatique de candidats dans un ATS. L'IA ne remplace plus que les tâches administratives, elle prend aussi des micro-décisions. Elle ingère vos données et vous recommande une décision. Elle a l'air sûre d'elle, et après tout, ce sont vos données qu'elle a ingéré, alors pourquoi ne pas lui faire confiance ?
Parce qu'il y a une asymétrie que la plupart des équipes produit ne formulent pas. Les LLM ont été entraînés sur des données figées. La majorité de leurs benchmarks de raisonnement portent sur des situations stables, bien définies. Ce qu'ils ne savent pas faire de manière fiable, c'est gérer un environnement qui dérive. Un marché qui se retourne. Un client dont les besoins évoluent. Une équipe dont les forces se transforment.
Marcel Binz et Eric Schulz, du Max Planck Institute, l'ont montré rigoureusement les premiers. Dans un article publié à PNAS en 2023, ils ont fait passer à GPT-3 une batterie de tâches canoniques de psychologie cognitive. Des protocoles validés depuis cinquante ans sur les humains. Verdict : sur les tâches en environnement stable, GPT-3 fait jeu égal ou bat l'humain. Mais il ne montre aucune trace d'exploration dirigée. Et de petites perturbations l'égarent de façon spectaculaire.
Trois ans plus tard, chez Smarter Than AI, nous avons reconfirmé l'écart alors que les modèles se sont considérablement amélioré.
Ce que l'IA sait, et ce qu'elle ne fait pas
L'étude la plus complète à ce jour vient d'une équipe de Toronto (Zhang, Wang, Chen, Mansur, Sarhangian), publiée en mai 2025. Ils ont comparé GPT-4, Gemini 1.5, DeepSeek-V3 et des participants humains sur une tâche bien connue des sciences cognitives. Un dispositif de plusieurs machines à sous, où chacune rapporte une récompense incertaine. Le joueur décide à chaque tour sur quelle machine tirer. Deux versions du test : une stationnaire (chaque machine a une qualité figée), une non-stationnaire (la qualité change en continu).
C'est l'objet du test que nous avons repliqué, et comprenez que nous ne pouvons révéler exactement le changement de façon publique car les candidats qui liraient le blog seraient bien avantagés.
Le plus important est que notre résultat reproduit Binz & Schulz, plus finement.
En environnement stationnaire, GPT-4 avec raisonnement explicite (mode « thinking ») atteint le niveau humain. La machine explore, apprend, et ne fait pas pire qu'une stratégie quasi-optimale.
En environnement non-stationnaire, le tableau s'effondre. Les modèles, même en mode thinking, n'atteignent pas le niveau humain. Les auteurs concluent que les LLM peinent à égaler l'adaptabilité humaine quand l'environnement change. Nous, humains, comprenons l'incertitude de façon plus fine que les LLM.
Deux autres études en 2025-2026 ont confirmé la robustesse du constat. Une équipe a fait jouer GPT-4, Gemini 1.5 et DeepSeek-V3 contre un adversaire qui change sa stratégie. Les modèles se surengagent prématurément, se figent rapidement (Adversarial Testing, mai 2025). Un travail plus récent montre une rigidité quasi-mécanique des LLM sur le bandit-manchot (nom scientifique du test des machines à sous) : un verrouillage précoce sur une option, et une transformation du bruit aléatoire en biais persistant (Rigidity in LLM Bandits, début 2026).
Le motif est partout le même. L'IA aime ce qui a marché et pense que ça marchera tout le temps. L'IA aura investit tout son or sur Nokia et Kodak.
Le cas d'usage : votre meilleur stratège est celui qui sait quand ignorer l'IA
Imaginez maintenant la scène. Votre chargé de marketing arrive devant un dashboard qui montre que LinkedIn Ads, son meilleur canal depuis huit mois, vient de doubler son CPM. TikTok, qu'il avait écarté, est devenu rentable du jour au lendemain. Il a vingt minutes pour proposer une réallocation. Il ouvre ChatGPT et lui décrit la situation.
Avec une probabilité non négligeable, le modèle va lui proposer de rester sur le modèle actuel. La recommandation est prudente mais ne valorise pas l'exploration. Cette décision est coûteuse, parce qu'elle ignore le signal que le marketer a sous les yeux : le canal qu'il connaissait s'érode pendant que l'autre décolle. Lui ne le voit peut-être pas encore, mais il pourrait le sentir. L'IA ne le voit pas, et ne peut pas le voir.
Maintenant, passons au moment où vous avez recrutez votre chargé de marketing. Vous l'avez évalué en entretien. Le vocabulaire était probablement matrisé et il avait de bonnes expériences professionnelles. Mais vous êtes peut-être passé à coté d'un profil qui savait lire les chiffres d'une façon que l'IA ne sait pas lire. Et à un moment où l'on délègue de plus en plus l'analyse à l'IA, cette compétence devient cruciale pour certains métiers.
Comment les distinguer ?
| Sans la bonne évaluation | Avec la bonne évaluation |
|---|---|
| Vous testez en entretien avec une étude de cas figée. Les deux candidats répondent bien. | Vous mettez le candidat face à un environnement qui change pendant qu'il décide. Vous mesurez comment il ajuste ses choix quand le contexte bascule. |
| Vous lui confiez le budget acquisition. Il vous faudra six mois pour découvrir qu'il a tenu la stratégie de jour 1 alors que le marché a changé. | Vous mesurez en quinze minutes sa capacité à explorer une option incertaine quand l'option exploitée perd en performance. |
| Difficile d'estimer les gains non effectués, vous voyez juste une performance non optimale, sans le savoir | Vous l'embauchez en connaissance de cause, avec ses zones de coaching identifiées dès le premier mois. |
Comment on évalue cette compétence
La littérature sur l'exploration-exploitation comme test de complémentarité humain-IA est mûre. Les paradigmes utilisés sont des standards des sciences cognitives depuis Wilson et al. 2014. Ils sont calibrés sur des décennies de données humaines. Notre approche s'appuie sur deux fondations.
D'abord, on part d'un paradigme éprouvé. Le test Machines à sous est adapté du protocole publié par Daw et al. en 2006 et rejoué récemment par Zhang et al. en 2025. Il met le candidat face à un environnement de décision séquentielle où la qualité des options change continûment, et où le changement suit certes une règle humaine, mais quasiment impossible à deviner. Le format a été validé sur des dizaines de configurations dans la recherche académique.
Ensuite, on confronte ce paradigme aux modèles récents. Avant qu'un test ne soit présenté à un candidat humain, on le rejoue contre Claude, GPT, Gemini dans des conditions documentées et contrôlées. C'est la seule manière de savoir où l'écart humain-IA se cristallise sur les modèles que les recruteurs et leurs candidats ont sous la main. Les benchmarks pour Machines à sous sont en cours de mesure (calibration mai 2026).
Notre test ne prétend pas suffire à mesurer la performance globale d'un candidat. Vous pourriez vous baser sur un test de personnalité pour repérer les profils stables ou faire passer des études de cas en entretien. Ces outils gardent leur valeur. Nous proposons d'ajouter une brique essentielle qui permet de tester la valeur ajoutée de votre candidat par rapport à une analyse générée par IA.
Pour aller plus loin
Vous voulez essayer ce test ?
La seconde : intégrez ce test pour votre prochain recrutement : Créer une campagne →
Sur un thème proche
L'autre compétence où l'IA s'écroule dès qu'elle quitte la théorie : la négociation commerciale. Elle récite parle comme un requin mais agit comme un lapin. Lisez notre article dédié à la compétence Négociation commerciale.
Questions fréquentes
Pourquoi les LLM ont-ils du mal en environnement instable ?
Parce qu'ils ont été pré-entraînés sur des données figées. Ils n'ont pas développé de mécanisme natif pour détecter qu'un signal a changé. Quand vous leur soumettez une nouvelle donnée qui contredit le récit qu'ils ont construit, ils tendent à intégrer mollement la nouveauté plutôt qu'à réviser leur croyance. C'est ce que Marcel Binz appelait l'absence d'exploration dirigée chez GPT-3 en 2023. Le phénomène persiste sur les modèles récents en environnement non-stationnaire.
Le mode « thinking » des modèles récents agmente-t-il leur exploration ?
Il l'aténue. L'étude de Zhang et al. en 2025 montre qu'activer le raisonnement explicite, c'est-à-dire leur demander explicitement de justifier leur réponse, rapproche les LLM du comportement humain en environnement stable (exploitation efficace). Mais en environnement instable, le thinking n'est pas suffisant pour combler l'écart IA - Humain. Le modèle réfléchit mieux à ce qu'il fait, mais il continue à minimiser l'intérêt de l'exploration.
Quels métiers sont concernés en priorité ?
Tout poste qui mobilise des décisions séquentielles dans un environnement qui change. En tête : marketing, trading, acheteur, account manager, product manager, stratège, consultant. À l'opposé : un poste à process stable et règles fixes mobilise peu cette compétence.
L'évaluation est-elle robuste ? Que se passe-t-il si un candidat qui a passé l'évaluation discute avec un autre candidat qui n'a pas encore passé l'évaluation ?
Nous avons conçu un groupe de séquences testées et valides mathématiquement pour présenter un caractère aléatoire sans être dans l'absurdite des cas limites qu'on peut avoir par l'aléatoire. Chaque session tire aléatoirement une séquence et nous ne revélons jamais le numéro de séquence tiré. Aucun chemin gagnant ne peut être appris à l'avance ni partagé entre candidats. Le paradigme sous-jacent est connu du milieu universitaire spécialisé mais quasiment inconnu du grand public, et l'environnement précis vu par chaque candidat est unique.
Peut-on tricher à votre test si on utilise l'IA avec un autre appareil ?
Utiliser l'IA, peu importe le modèle, dégradera fortement votre performance.
Sources
- Binz, M. & Schulz, E. (2023). Using cognitive psychology to understand GPT-3. PNAS, 120(6), e2218523120. Lien
- Zhang, Y., Wang, X., Chen, S., Mansur, R., Sarhangian, V. (2025). Comparing Exploration-Exploitation Strategies of LLMs and Humans. arXiv:2505.09901. Lien
- Wilson, R. C., Geana, A., White, J. M., Ludvig, E. A., Cohen, J. D. (2014). Humans use directed and random exploration to solve the explore-exploit dilemma. Journal of Experimental Psychology: General, 143(6), 2074–2081.
- Daw, N. D., O'Doherty, J. P., Dayan, P., Seymour, B., Dolan, R. J. (2006). Cortical substrates for exploratory decisions in humans. Nature, 441, 876–879.
- Adversarial Testing in Cognitive Tasks (2025). arXiv:2505.13195. Lien
- Google DeepMind. (2025). LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities. arXiv:2504.16078. Lien
