Demandez à Claude d'expliquer la dichotomie chasseurs/fermiers chez les commerciaux : la réponse arrivera, impeccable et structurée, en quinze lignes. Demandez-lui ensuite de négocier l'achat d'un casque audio à 60 euros. Il acceptera un deal médiocre, ou fera une contre-offre plus haute que le prix de départ.
Ce comportement a un nom. Il s'appelle le knowing-doing gap, la différence entre "savoir quoi faire" et "vraiment faire", et il a été longuement étudié vingt-cinq ans avant l'émergence de l'intelligence artificielle. En 2000, deux chercheurs de Stanford l'avaient déjà décrit chez les entreprises humaines. Vingt-cinq ans plus tard, on le retrouve à l'identique dans les modèles de langage les plus avancés. Et c'est probablement la compétence la moins surveillée chez les commerciaux qui s'appuient sur l'IA.
Pourquoi la négociation devient critique en 2026
Un commercial en 2026 ne travaille plus seul. Il a un copilot ouvert sur son deuxième écran. Avant l'appel, il demande à ChatGPT une stratégie pour son prospect. Pendant l'appel, des outils comme Gong ou Cresta lui suggèrent des relances en temps réel. Après l'appel, un agent résume la conversation et propose la prochaine étape. La compétence « négocier » devient à 80% « savoir quoi accepter et quoi rejeter dans ce que les outils me soufflent ».
Or la recherche est sans appel. Les modèles connaissent la théorie de la négociation comme des docteurs, mais vendent comme des collégiens. Et des mauvais. Jeffrey Pfeffer et Robert Sutton, professeurs à la Stanford Graduate School of Business, avaient nommé ce mécanisme dès 2000. Dans leur ouvrage The Knowing-Doing Gap, ils résument : produire un discours sophistiqué sur le problème procure une satisfaction cognitive qui dispense d'agir. Ils l'observaient chez les dirigeants d'entreprise.
Ce que l'IA sait, et ce qu'elle ne fait pas
Le chiffre qui résume tout est venu d'une équipe de Google DeepMind en avril 2025. Dans une étude intitulée LLMs are Greedy Agents, les chercheurs ont demandé à des modèles de raisonner sur des décisions successives puis d'agir. Le résultat est brutal : sur les tâches étudiées, le raisonnement énoncé par le modèle était correct dans 87% des cas. L'action effectivement choisie ne l'était que dans 21%.
En négociation, ce gap a été mesuré dès février 2024 par l'équipe de Huao Xia (Tsinghua, université de Pittsburgh, États-Unis). Dans leur étude Measuring Bargaining Abilities of LLMs, ils font négocier les modèles comme acheteurs et comme vendeurs. Des dizaines de produits, des opponents calibrés. Premier verdict : tous les modèles testés ont un profit net négatif à chaque transaction conclue. Pas faible. Négatif. GPT-4, le meilleur de l'échantillon, ne respecte même pas la règle de base donnée dans son prompt (« n'achète rien au-dessus de ton budget »). Le taux de réponses valides plafonne à 42,7%.
Une équipe de Stanford (Bianchi, Chia, Jurafsky, Zou) a quantifié un autre symptôme dans NegotiationArena. Quand un acheteur LLM se voit présenter un produit à 30 dollars qu'il valorise à 600, un humain raisonnable accepte immédiatement. GPT-4, lui, fait une contre-offre plus haute que le prix initial dans 41% des cas. Il coupe la poire en deux même quand c'est absurde.
Une étude plus récente (décembre 2025, LLM Rationalis?) a montré le même angle mort sous une autre forme. Dans une négociation avec une ZOne d'Accord Possible entre 225 000 et 235 000 dollars (Zone of Possible Agreement ou ZOPA), les négociateurs humains ancrent leurs offres autour de 229 500. Au milieu de la zone. Ils signalent ainsi qu'ils ont reconnu la marge de négociation. Les acheteurs LLM, eux, ancrent uniformément au plancher : 225 000. Les auteurs concluent à une incapacité à inférer l'espace stratégique disponible.
Sur notre propre test, calibré le 4 mai 2026 contre Claude Sonnet 4.5 et GPT-4o, les résultats convergent. Sur cinq négociations successives en jeu de rôle vendeur-acheteur, Claude Sonnet 4.5 capture en moyenne 51% du gap de marge potentielle. GPT-4o, 22%. Les premiers candidats humains testés, même non-vendeurs, font en moyenne 60%. Un mauvais vendeur pourrait mieux vendre que la meilleure des IA.
Maintenant imaginez la scène. Votre commercial décrit à ChatGPT son prospect (entreprise, contexte, contrepartie négociée, estimation de la BATNA adverse) et lui demande une stratégie. Il aura une réponse fluide et plausible, très élégante car faisant référence à des concepts commerciaux techniques, et sera assenée avec la certitude d'un expert. Sauf que les critères sur lesquels le modèle se base n'ont aucune réalité empirique. Ce n'est que de la théorie pure. L'IA récite un bouquin. Votre commercial pense consulter un expert en négociation fort de milliards de ventes, il s'adresse à un professeur qui n'a jamais vendu un vélo sur Leboncoin.
Le cas d'usage : votre meilleur commercial est celui qui sait quand ignorer l'IA
Autre scène concrète. Vous êtes une ESN et recrutez un commercial junior. Le poste implique des négociations B2B sur des contrats à six chiffres, face à des acheteurs professionnels formés à toutes les techniques classiques (ancrage, salami, walk-away). Le candidat aura accès aux outils internes : copilot conversationnel, suggestions en temps réel pendant les calls, agent de préparation de réunion. Il aura aussi ChatGPT dans sa poche pour le dépanner.
Deux profils se présentent. Vous les évaluez en entretien. Les deux maîtrisent parfaitement le vocabulaire de la négociation, n'emploient jamais de mot négatifs, parlent même de ZOPA et BATNA sans hésiter. Les deux ont des premières expériences crédibles dans leur CV. Mais l'un sait quand suivre l'IA et quand l'ignorer. L'autre la suit aveuglément.
Comment les distinguer ?
| Sans la bonne évaluation | Avec la bonne évaluation |
|---|---|
| Vous posez les questions classiques (« racontez-moi une négociation difficile »). Les deux candidats donnent une réponse fluide. | Vous mettez le candidat en situation face à un acheteur stratégique. Vous mesurez la marge capturée, son ancrage, sa résistance aux concessions précoces. |
| Vous ne voyez pas qu'il accepte le premier deal médiocre qu'on lui propose. | Vous voyez en vingt minutes qu'il bloque sur les concessions trop précoces, qu'il ancre au milieu de la ZOPA, qu'il identifie les bluffs. |
| Vous l'embauchez avec un angle mort. Ce sera ses premières expériences qui vous renseigneront sur sa capacité réelle à négocier | Vous l'embauchez en connaissance de cause, avec ses axes de coaching identifiés dès le premier mois. |
Comment on évalue cette compétence
La littérature scientifique sur la négociation comme test de complémentarité humain-IA est solide. Notre approche s'appuie sur deux fondations : des paradigmes éprouvés issus de la recherche académique et un rejeu systématique des tests contre les modèles les plus récents.
D'abord, nous partons de paradigmes éprouvés. Le test Bargain Buyer est adapté du protocole publié par Xia et al. en 2024 : cinq produits négociés successivement, six tours maximum par produit, métrique de profit normalisée NP ∈ [0, 1]. Ce protocole a déjà été validé sur des dizaines de modèles et des centaines de configurations dans la recherche.
Ensuite, nous prolongeons ces études en confrontant les datasets historiques aux modèles récents. Avant qu'un test soit présenté à un candidat humain, on le rejoue contre Claude, GPT, Gemini, dans des conditions expérimentales documentées et contrôlées. C'est la seule manière de savoir où l'écart humain-IA se cristallise aujourd'hui, pas dans la littérature de 2024. Nos derniers benchmarks internes datent de mai 2026 et seront re-mesurés à chaque génération de modèles.
Le test ne prétend pas suffire à mesurer la performance commerciale globale du candidat. Vous pourriez vous baser sur un test de personnalité pour voir les profils qui maximisent l'extraversion et la conscienciosité (traits de personnalité corrélés scientifiquement à de bonnes performances en vente), faire des mises en situation ou faire passer d'autres simulations de vente.
Notre test propose une mesure objective de la capacité à négocier un produit : vous voyez quelle est la marge réelle de votre acheteur par rapport au prix minimum qu'il aurait pu avoir.
Pour aller plus loin
Vous voulez essayer ce test ?
La première : passez le test vous-même. Quinze à vingt minutes face à un LLM vendeur, cinq produits issus d'Amazon, un score final sur 100 et une comparaison avec IA et humains. Afin de ne pas permettre aux candidats de s'entrainer, l'opportunité de réaliser nos tests est réservée aux recruteurs qui ont déjà souscrit une offre chez nous. Essayer les tests →
La seconde : intégrez ce test dès à présent dans votre processus de recrutement. Créer une campagne →
Sur un thème proche
Sur un thème proche, voulez-vous tester la performance dans un climat incertain ? Lisez notre article dédié à la compétence « Adaptation à l'incertitude » : Machines à sous.
Questions fréquentes
Pourquoi l'IA est-elle meilleure en théorie qu'en pratique sur la négociation ?
La théorie de la négociation est massivement représentée dans les corpus d'entraînement des modèles : manuels universitaires, cas d'école, articles de management. Mais la transformation de cette connaissance en action séquentielle, face à un adversaire stratégique qui s'ajuste, mobilise des capacités que le pré-entraînement n'optimise pas. C'est le knowing-doing gap décrit par Pfeffer & Sutton en 2000, transposé aux machines. Il y a tellement de choix et tellement d'actions qui semblent pertinentes pour la même situation que l'IA se prend les pieds dans le tapis et s'écrase quasi systématiquement.
Faut-il pour autant ne pas utiliser l'IA en négociation ?
Non. L'IA reste utile pour préparer une négociation (analyse de contexte, recherche d'antécédents), pour résumer après coup, pour suggérer des relances. Mais elle ne doit pas substituer le sens commercial pendant la négociation.
Quelles entreprises utilisent ce type d'évaluation ?
Ce test est prévu pour tout type d'entreprises. L'angle « complémentarité humain-IA » est encore neuf mais les entreprises de la tech commencent à adapter leur recrutement pour prendre en compte l'IA. La concurrence (AssessFirst, PerformanSe) reste centrée sur la détection de compétences générales, pas sur la mesure des compétences que l'IA n'a pas. Cela impliquerait une revue documentaire intense que seule Smarter Than AI fait pour l'instant.
Sources
- Pfeffer, J. & Sutton, R. I. (2000). The Knowing-Doing Gap: How Smart Companies Turn Knowledge into Action. Harvard Business School Press. Fiche éditeur
- Xia, H., et al. (2024). Measuring Bargaining Abilities of LLMs: A Benchmark and a Buyer-Enhancement Method. arXiv:2402.15813. Lien
- Bianchi, F., Chia, P. J., Yuksekgonul, M., Tagliabue, J., Jurafsky, D., Zou, J. (2024). NegotiationArena: A Benchmark for Autonomous Negotiation Agents. arXiv:2402.05863. Lien
- Google DeepMind. (2025). LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities. arXiv:2504.16078. Lien
- LLM Rationalis? Measuring Bargaining Capabilities of LLMs (2025). arXiv:2512.13063. Lien
