← Ressources

IA finance & comptabilite · PennyPilot · fiabilité IA comptabilité

L'IA calcule juste, mais sait-elle le prouver ? Notre benchmark sur les chiffres comptables

Mis à jour le 2026-06-09 · Lecture 8 min

Peut-on confier les chiffres d'un dossier comptable à une IA ? Nous avons durci notre benchmark, puis nous l'avons rejoué sur une vraie balance comptable anonymisée de 575 millions d'euros de flux, au centime, en demandant les calculs de tête.

Le résultat renverse une idée reçue. Les grands modèles de raisonnement (Anthropic, OpenAI) calculent désormais juste et de façon parfaitement stable, même en sommant des centaines de lignes au centime. Le danger n'est plus le calcul. Il s'est déplacé : quand une IA vous donne un chiffre, vous ne pouvez ni savoir quelle ligne vient d'une source fiable plutôt que d'une estimation, ni le reproduire à l'identique, ni le prouver à un réviseur ou à l'administration. C'est ce vide que comble une couche de preuve.

Résultats du benchmark

Sommes exactes sur une vraie balance de 575 M€ (101 comptes, au centime, calcul de tête)

Anthropic
modèle de raisonnement
100 % · 30 / 30 exacts
OpenAI
modèle de raisonnement
100 % · 30 / 30 exacts

Six agrégats clés recalculés sur la vraie balance, vérité terrain confirmée par le connecteur comptable

AgrégatVérité terrainAnthropicOpenAI
Total des charges (classe 6)105 971 845,03 €5/55/5
Total des produits (classe 7)122 967 510,17 €5/55/5
Charges nettes46 339 262,26 €5/55/5
Produits nets46 279 014,66 €5/55/5
Chiffre d'affaires (comptes 70)45 147 894,90 €5/55/5
Résultat de l'exercice-60 247,60 €5/55/5

Lecture : chaque agrégat est rejoué 5 fois et comparé au centime. « 5/5 » signifie exact les 5 fois. Vérité terrain recalculée par programme et recoupée avec le connecteur comptable.

Une méthode durcie, conçue pour être incontestable

La force d'un benchmark tient à une chose : pouvoir le rejouer. Nous l'avons durci sur tous les axes, jusqu'à le faire tourner sur une vraie balance plutôt que sur des cas d'école.

  • Vérité terrain déterministe : chaque valeur attendue est recalculée en Python, puis recoupée avec les sous-totaux du connecteur comptable, au centime.
  • Notation stricte : la réponse est lue de façon isolée et doit correspondre exactement, pas seulement apparaître quelque part dans le texte.
  • Cas réels et de masse : une vraie balance de 575 M€, 101 comptes au centime, en plus des dossiers synthétiques durcis.
  • Constance mesurée : chaque calcul rejoué plusieurs fois, pour distinguer un modèle juste d'un modèle qui tombe juste par hasard.
  • Usage réaliste : calcul de tête, sans exécution de code, comme un assistant interrogé en cabinet.

Le calcul n'est plus le problème. La preuve, oui.

Sur nos tests, les modèles de raisonnement ne se trompent plus sur l'arithmétique de masse : 575 millions sommés au centime, de tête, sans une erreur ni une variation d'un essai à l'autre. L'ancienne peur, l'IA qui rate un total, n'est largement plus le bon procès à faire aux grands modèles de raisonnement.

Le risque a simplement changé de nature. Un système génératif produit un chiffre, il ne le démontre pas. Même juste, ce chiffre n'est pas tracé (quelle ligne vient d'une source, laquelle d'une estimation ?), pas garanti reproductible à l'identique, pas opposable à un réviseur ou à un contrôle. Pour un cabinet, un chiffre juste mais improuvable reste un chiffre que l'on ne peut pas signer.

Ce que change une couche de preuve, et pourquoi la souveraineté n'a plus de prix à payer

C'est le rôle de PennyPilot, édité par HOLCO. Les agrégats sensibles (totaux, équilibre, résultat, TVA) sont calculés de façon déterministe à partir des données Pennylane ou Odoo, puis chaque chiffre est tracé jusqu'à sa source. L'IA travaille alors sur des chiffres déjà vérifiés, et sa sortie devient reproductible et opposable.

Conséquence directe sur le choix du modèle : dès lors que la justesse du chiffre est garantie par la couche déterministe, elle ne dépend plus du modèle sous-jacent. Choisir une IA souveraine pour protéger les données du cabinet ne coûte donc plus rien en fiabilité. La souveraineté redevient un pur levier, sans arbitrage contre l'exactitude.

  • Calcul déterministe des agrégats avant toute interprétation par l'IA.
  • Provenance par ligne : chaque chiffre est relié à sa source, ou signalé comme estimation.
  • Sortie reproductible et opposable, tracée par utilisateur et par dossier.
  • Justesse indépendante du modèle : la voie souveraine ne se paie plus en fiabilité.

Transparence et limites

Nous disons nos limites nous-mêmes. Ces résultats valent pour les modèles de raisonnement testés, en calcul de tête, sur des dossiers synthétiques durcis et une première vraie balance ; nous les élargirons à d'autres dossiers de cabinet anonymisés, dont seuls les écarts seront publiés, jamais les données. Un modèle peut aussi progresser ou changer à la prochaine version : c'est précisément pourquoi notre thèse ne repose pas sur la performance d'un modèle, mais sur la preuve, qui, elle, ne se périme pas. La méthode et l'oracle restent à disposition de tout cabinet qui veut rejouer le test.

A retenir

  • Une méthode durcie, conçue pour être incontestable
  • Le calcul n'est plus le problème. La preuve, oui.
  • Ce que change une couche de preuve, et pourquoi la souveraineté n'a plus de prix à payer

Questions a poser

  • Quel modèle est le plus fiable pour la comptabilité ?
  • Pourquoi calculer la vérité terrain en Python ?
  • Une IA peut-elle remplacer le calcul du cabinet ?

Preuves a verifier

  • Anthropic, documentation des modèles
  • OpenAI, documentation des modèles
  • Mistral AI, modèles

Plan d'action recommande

Etape 1

Qualifier l'intention

Clarifier la question principale : fiabilité IA comptabilité, utilisateurs cibles, donnees necessaires et decision attendue.

Etape 2

Verifier les sources

Lister les systemes, documents et pages officielles qui doivent soutenir la reponse avant de produire du contenu ou brancher un agent.

Etape 3

Limiter le risque

Demarrer en lecture seule, documenter les droits, afficher les limites et garder la validation humaine sur les sorties sensibles.

Etape 4

Mailler et mesurer

Relier cette ressource aux pages produit, aux guides voisins, au sitemap et aux fichiers machine-readable, puis suivre indexation et citations IA.

Maillage interne

Sources professionnelles

FAQ

Quel modèle est le plus fiable pour la comptabilité ?

Sur nos tests durcis, et jusque sur une vraie balance de 575 M€ au centime, les modèles de raisonnement d'Anthropic et d'OpenAI calculent juste à 100 % et de façon stable. La vraie question n'est donc plus le classement des modèles sur le calcul, mais la capacité à prouver et reproduire le chiffre, ce qu'aucun modèle ne fait seul.

Pourquoi calculer la vérité terrain en Python ?

Parce que la notation doit être objective. Chaque valeur attendue est calculée par programme à partir du dossier, puis recoupée avec les sous-totaux du connecteur comptable, donc certaine et reproductible, sans jugement humain qui pourrait être contesté.

Une IA peut-elle remplacer le calcul du cabinet ?

Non. Non pas parce que l'IA calcule mal, elle calcule désormais juste, mais parce qu'un chiffre comptable doit être prouvable et reproductible. Les agrégats sont calculés de façon déterministe et tracés ; l'IA apporte l'analyse, l'explication et la détection d'anomalies, sur des chiffres déjà vérifiés.

La voie souveraine dégrade-t-elle la qualité des chiffres ?

Non. Comme la justesse du chiffre est garantie par la couche déterministe, elle ne dépend plus du modèle. Une voie souveraine protège les données du cabinet sans rien sacrifier sur l'exactitude.

Le test est-il reproductible ?

Oui. La vérité terrain est recalculée par programme et recoupée au centime avec le connecteur comptable, et la méthode comme l'oracle sont disponibles pour qu'un cabinet rejoue l'étude sur ses propres modèles.