Trouver des règles avec peu d'exemples : la compétence qui résiste encore à l'IA

L'IA est connue pour être extrêmement bonne en logique, mais rate certains tests de logique. Pourquoi ?

En 1936, un Britannique voulait mesurer rapidement les capacités mentales de patients, sans se heurter aux barrières culturelles. Il créa alors un jeu de tests visuels qui s'avéra extrêmement performant pour mesurer la capacité éductive des gens, c'est-à-dire le fait de saisir des relations, donner du sens à du désordre ou déduire des règles. Il créa les matrices progressives de Raven. Son premier client fut ... l'armée britannique. En 1942, en pleine Guerre Mondiale, tous les soldats passaient ce test de 20 minutes. Cela permettait à l'armée de savoir très rapidement qui était destiné à des tâches techniques, et qui avait le potentiel de devenir officier. Manager, dirait-on aujourd'hui.

Aujourd'hui, un Français, François Chollet, a décidé de l'adapter pour les IA. Ce test s'appelle ARC-AGI (Abstraction and Reasoning Corpus, le corpus d'abstraction et de raisonnement), et s'inspire des Raven pour créer un test que l'IA ne peut pas passer.

Il mesure une compétence que vous mobilisez souvent, lorsque vous tombez sur un problème : votre capacité à voir un schéma compliqué qui se répète.

Voici une épreuve, dans sa forme d'origine. Deux paires vous montrent une transformation. À vous de deviner ce que devient la troisième grille.

Test · Abstraction · Facile#ARC-6150A2BD

Pourquoi la capacité d'abstraction devient critique en 2026 ?

Parce que l'IA absorbe déjà tout ce qui suit un modèle connu. La valeur d'un humain se déplace vers les problèmes neufs, ceux où aucune recette n'existe encore, et c'est précisément ce que cette compétence mesure.

La capacité d'abstraction, c'est inférer une règle nouvelle à partir de quelques exemples :

Vous savez que les oiseaux chantent fort le matin
Un client qui tarde à répondre n'est pas très intéressé
Quand votre conjoint ne dit rien, quelque chose le tracasse

Vous grappillez des bouts d'information ici et là, et vous en faites des règles. Et en 2026, cette compétence change tout car l'IA fait déjà tout le reste.

Rédiger un compte rendu, résumer un dossier, écrire du code déjà vu mille fois : les modèles le font, souvent mieux que vous. Ce qui reste à l'humain, c'est la zone où il n'existe pas encore de modèle à recopier. Remplir un Excel déjà formaté, l'IA sait faire. Ajouter la colonne qui manque, beaucoup moins.

C'est la thèse que défendait François Chollet, chercheur en IA et créateur de la bibliothèque Keras, dans son article On the Measure of Intelligence en 2019. Selon lui, l'intelligence ne se mesure pas à la performance sur des tâches connues, mais à l'efficacité avec laquelle on acquiert une compétence nouvelle face à l'inconnu. Un modèle qui a tout lu n'est pas intelligent à ce compte. Il est cultivé. La nuance est subtile !

Que savent faire les modèles, et qu'est-ce qui leur résiste ?

Ils excellent sur tout ce qui ressemble à du déjà-vu, et calent quand il faut inférer une règle vraiment nouvelle. C'est le cœur de l'écart que mesure le test ARC-AGI.

Sur l'abstraction à partir de peu d'exemples, les modèles ont longtemps affiché un score proche de zéro là où l'humain réussissait sans effort. ARC-AGI a été publié en 2019. Pendant près de cinq ans, les modèles de langage classiques ont plafonné sous les 5 %, quand un panel humain résout la grande majorité des énigmes.

Le contraste est documenté. Dans l'étude H-ARC (Solim LeGris et collègues, université de New York, 2024), 1 729 personnes ont passé le test. En moyenne, elles résolvent 64,2 % des énigmes de l'ensemble d'évaluation public, et 790 des 800 tâches ont été résolues par au moins une personne. Le test est facile pour nous, dur pour la machine.

Fin 2024, un modèle a brisé ce plafond. Le système o3 d'OpenAI a atteint 87,5 % au test, contre quelques pourcents pour ses prédécesseurs. La nuance est dans la facture. D'après le décompte de l'ingénieur Simon Willison, il a fallu près de 6 700 dollars de calcul pour 400 énigmes dans la version la plus économe du modèle, et un ordre de grandeur du million de dollars pour la version la plus performante, qui consomme 172 fois plus. Surtout, o3 ne devine pas la règle d'un coup d'œil : il fonctionne par recherche de programmes, en explorant des milliers de raisonnements possibles jusqu'à en trouver un qui colle, une forme de force brute déguisée en intuition.

Et la suite a confirmé le motif. En 2025, Chollet et son équipe ont publié ARC-AGI-2, une version conçue pour rester facile aux humains et dure aux machines. À sa sortie, les humains résolvent en moyenne 75 % des énigmes, en 2 à 3 minutes chacune, pendant que les systèmes les plus avancés retombaient à quelques pourcents. On en est aujourd'hui à une troisième version, toujours plus dure pour les machines. Notre test s'appuie, lui, sur le corpus d'origine, celui sur lequel les modèles ont buté pendant cinq ans. Vos candidats sauront-ils résoudre ce que l'IA peine encore à intuiter ?

Le cas d'usage : recruter pour les problèmes sans mode d'emploi

Pour un employé, le risque n'est pas que l'IA se taise. C'est qu'elle réponde même quand elle n'est pas sûre. Face à un problème vraiment nouveau, le modèle va chercher dans son immense bibliothèque la page qui ressemble le plus, et vous la sert avec aplomb. Quand la bonne page n'existe pas, il en fabrique une, du même ton assuré. C'est souvent vrai, et parfois faux. Vous ne pourrez pas le savoir, car l'IA aura la même confiance. Un test sur la "sur-confiance" arrive bientôt sur Smarter Than AI.

Prenons une situation concrète. Vous êtes une ESN et vous recrutez un consultant junior pour une mission chez un client. Une partie du travail est balisée, et l'IA y aide bien. L'entreprise est assez classique et rencontre des difficultés ordinaires, qu'il a vu durant ses cours ou son alternance. Mais en étant confronté à des situations nouvelles, votre consultant n'a pas de mode d'emploi à consulter. Il va donc analyser le peu de données qu'il a, faire jouer ses connaissances, observer les émotions (deux tests sur l'intelligence émotionnelle sont en cours de finalisation et seront bientôt disponibles) : bref, il va essayer de comprendre ce qui se passe, et de donner du sens au désordre qu'il observe. Et c'est là que ce test est critique.

Auparavant, deux candidats se sont présentés. En entretien, les deux maîtrisent le vocabulaire, citent les bons frameworks, ont des expériences crédibles. La différence ne se voit pas en discutant mais l'un sait reconstruire la logique d'une situation jamais vue à partir de trois indices. L'autre recopie la réponse confiante de l'IA, sans voir qu'elle ne saisit pas ce qu'il se passe.

Sans la bonne évaluation	Avec la bonne évaluation
Vous posez des questions classiques (« racontez-moi un problème difficile que vous avez résolu »). Les deux candidats répondent bien.	Vous mettez le candidat face à un problème neuf, sans procédure, avec quelques exemples seulement, et vous regardez s'il en infère la règle.
Vous ne voyez pas qu'il force un schéma appris quand la situation ne s'y prête pas.	Vous voyez en vingt minutes s'il reconstruit une logique inédite ou s'il force un modèle connu sur un cas qui n'y rentre pas.
Vous l'embauchez avec un angle mort. Ce sont les premières missions qui révéleront s'il sait gérer l'inédit ou pas.	Vous l'embauchez (ou pas) en sachant où il en est, et vous ciblez son accompagnement dès le premier mois.

Comment évaluer la capacité d'abstraction d'un candidat ?

En le plaçant devant une règle vraiment neuve à deviner avec presque rien. Notre test s'appuie sur ARC-AGI, le corpus de François Chollet, rejoué contre les modèles récents avant d'être proposé à des humains.

Les outils RH classiques mesurent mal cette compétence. Un diplôme atteste de connaissances acquises, un entretien est souvent le reflet d'un entrainement, un test de logique standard récompense la reconnaissance de formats déjà vus. Aucun ne place le candidat devant une règle vraiment neuve à inférer avec presque rien. Pourtant, c'est LA situation où l'humain garde l'avantage sur l'IA. Analyser ce qui n'a jamais été analysé avant.

Notre approche part d'une fondation publiée. Le test d'abstraction s'appuie sur ARC-AGI, le corpus construit par Chollet et étudié par toute une communauté de recherche depuis 2019.

Nous prolongeons ce travail en rejouant les épreuves contre les modèles récents (Claude, GPT, Gemini), dans des conditions documentées, avant de les présenter à un candidat humain. Nous avons également calibré ces exercices initialement prévus pour être joués par des IA pour qu'ils soient jouables par des humains. C'est la seule façon de savoir où l'écart humain-IA se situe. Nos données datent du printemps 2026 et seront refaites à chaque nouvelle génération de modèles.

Le test ne prétend pas mesurer l'intelligence générale d'un candidat, ni prédire sa réussite dans le poste. Il donne une mesure d'une chose précise : sa capacité à donner du sens au désordre, lorsqu'il y a un sens à donner. Les tests de personnalité, les mises en situation et les entretiens gardent toute leur place à côté.

Pour aller plus loin

Vous voulez voir le test de l'intérieur ?

La première option : passez-le vous-même. Quelques grilles à transformer, la règle à deviner, et une comparaison de votre score avec celui des modèles d'IA. Pour éviter que les candidats s'entraînent avant leur évaluation, l'accès aux tests est réservé aux recruteurs déjà abonnés. Demander à voir les tests→

La seconde : discutons-en ! Prenez rendez-vous et posez toutes vos questions. Posez vos questions →

Sur un thème proche

Si l'angle vous parle, deux autres compétences que l'IA gère mal : la négociation commerciale, où les modèles connaissent la théorie et perdent quand même de l'argent, dans notre article pourquoi l'IA perd en négociation, et l'adaptation à l'incertitude, où ils restent figés quand le contexte bouge, dans pourquoi l'IA reste figée quand le marché bouge.

Questions fréquentes

L'IA est-elle vraiment incapable de raisonnement abstrait ?

Non, mais avec deux réserves. Fin 2024, le modèle o3 a atteint 87,5 % sur la première version du test, au prix d'un calcul colossal et par recherche de programmes plutôt que par intuition. Et dès qu'une version plus exigeante du test est sortie, l'écart avec l'humain s'est rouvert. Sur les cas vraiment nouveaux, l'avantage humain tient encore, à la date où nous écrivons cet article (06/2026).

Un test de QI ou de logique classique ne suffit-il pas ?

Pas pour cette compétence. Les tests classiques récompensent la reconnaissance de formats et l'entraînement. La capacité d'abstraction au sens d'ARC-AGI mesure autre chose : inférer une règle inédite à partir de quelques exemples, sans pouvoir s'appuyer sur un type d'exercice connu.

Faut-il interdire l'IA sur ces tâches ?

A vous de voir mais notre avis est le suivant : non, mais il faut l'encadrer par un humain. L'IA reste utile partout où le problème ressemble à du déjà-vu, et c'est la majorité du travail. L'enjeu est de repérer les personnes qui savent quand la suivre et quand reprendre la main, au moment précis où le problème devient nouveau.

Sources

Chollet, F. (2019). On the Measure of Intelligence. arXiv:1911.01547. Lien
LeGris, S., Vong, W. K., Lake, B. M., Gureckis, T. M. (2024). H-ARC: A Robust Estimate of Human Performance on the Abstraction and Reasoning Corpus Benchmark. arXiv:2409.01374. Lien
Chollet, F., et al. (2025). ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems. arXiv:2505.11831. Lien
ARC Prize (2024). OpenAI o3 Breakthrough High Score on ARC-AGI-Pub. Lien
Willison, S. (2024). OpenAI o3 breakthrough high score on ARC-AGI-PUB. Lien
ARC Prize. ARC-AGI-1 (présentation du benchmark). Lien