Quarante ans. Trois métriques. Zéro qui tient la route.

Un nouveau mot circule dans la Silicon Valley : le tokenmaxxing.

Il désigne la pratique de maximiser sa consommation de tokens d’IA – pour prouver qu’on travaille. Un token, c’est l’unité de base de l’inférence : à peu près un mot, ce qu’un agent consomme quand il agit ou écrit. Pendant deux ans, c’était un détail d’ingénieur. Aujourd’hui, c’est un indicateur RH.

Les exemples concrets ne manquent pas. Chez Meta, début avril, un employé a mis en ligne un classement interne des 85 000 salariés selon leur consommation de tokens. Le premier en a brûlé 281 milliards à lui seul – soit au moins 1,4 million de dollars. Jensen Huang, le patron de Nvidia, a posé la logique sans ambiguïté : « Si un ingénieur à 500 000 dollars ne consomme pas au moins 250 000 dollars de tokens par an, je serais profondément inquiet. »

Quand j’ai lu ça, j’ai reconnu quelque chose.

Pas une innovation. Un piège. Un piège que j’ai vu se refermer trois fois en quarante ans d’industrie.

Dans les années 80, on comptait les lignes de code. Le bon développeur, c’était celui qui en produisait le plus. On a vite découvert que les meilleurs ingénieurs en écrivaient souvent moins – parce qu’ils résolvaient les problèmes avec élégance plutôt qu’avec du volume.

Dans les années 2000, on a compté les jours-homme et les TJM. Les cabinets de conseil et les ESN ont prospéré sur cette logique : facturer le temps plutôt que le résultat. Plus un projet traînait, plus il rapportait. La métrique rémunérait l’inefficacité.

Aujourd’hui, on compte les tokens.

Même erreur. Même mécanique. Même confiance aveugle dans le chiffre facile.

À chaque fois, la métrique s’impose vite parce qu’elle est mesurable, pas parce qu’elle est juste. Et à chaque fois, elle finit par servir celui qui la vend : hier les ESN qui facturaient le temps, aujourd’hui Nvidia et les laboratoires d’IA qui facturent les tokens.

Ce n’est pas un hasard. Les métriques qui dominent sont rarement celles qui mesurent le mieux la valeur. Ce sont celles qui s’alignent sur les intérêts économiques de l’acteur le plus puissant dans la chaîne.

Jensen Huang ne se trompe pas de calcul. Il se trompe de question – ou plutôt, il pose exactement la bonne question pour Nvidia.

Le problème technique est réel, et il s’appelle le context rot – le pourrissement du contexte.

Une fenêtre de contexte surchargée ne produit pas un meilleur résultat. Elle produit un modèle qui décroche. Les fichiers trop nombreux, les sessions autonomes qui dérivent, les outils chargés inutilement – tout ça dégrade la cohérence du raisonnement. Plus la fenêtre est lourde, plus l’IA perd le fil.

Un agent qui consomme massivement de tokens, ça peut vouloir dire deux choses très différentes : un travail dense et bien ciblé, ou une session qui dérive et qu’un humain va passer des heures à réparer. La consommation brute ne fait pas la distinction.

Reid Hoffman, cofondateur de LinkedIn et défenseur du tokenmaxxing, l’a lui-même concédé : « ce n’est pas un exemple parfait de productivité. »

Ce n’est pas un exemple parfait. C’est un exemple faux.

Le manager qui veut mesurer la productivité à l’ère des agents doit d’abord comprendre ce qu’est un contexte, comment il se construit, comment il se dégrade, et ce qui distingue une session productive d’une session qui tourne en rond.

Sans cette compréhension, il ne mesurera pas ce qu’il croit mesurer. Il paiera pour du volume. Et il appellera ça de la performance.

Quarante ans. Trois métriques. Zéro qui tient la route.

La vraie question n’a pas changé : qu’est-ce qui a été accompli, et pour combien ? Tout le reste est du bruit – du bruit facturable.