11,7 milliards d'euros, 28 fichiers, et un PDF de 2 000 pages

Paris gère 11,7 milliards d'euros par an. La loi oblige la ville à publier ses données financières. Elle le fait. Le portail opendata.paris.fr met à disposition 28 jeux de données liés au budget et aux finances.

On a voulu les utiliser. Voici ce qu'on a trouvé.

Ce que "Open Data" veut dire en pratique

Sur 28 jeux de données financières publiés par la Ville de Paris, 20 n'ont pas été mis à jour depuis 2020 ou 2021. La dette propre de la ville ? Figée depuis juillet 2019. L'état du personnel ? Décembre 2018. Les budgets votés par arrondissement ? Plus rien depuis 2021.

Ces fichiers ont une URL, une fiche descriptive, parfois même une jolie vignette. Personne ne les alimente.

Pour les fichiers qui sont à jour, le niveau de détail est inégal. Les investissements détaillés — les "Autorisations de Programme" — s'arrêtent à 2022. Pour savoir quels projets ont été financés en 2023 ou 2024, il faut ouvrir l'annexe 5, tome 3, page 1418 d'un PDF scanné de plus de 2 000 pages.

Et dans les fichiers de subventions : 2,5 milliards d'euros versés en 2020 et 2021 dont les bénéficiaires sont absents. Le montant est là. La colonne "Nom" est vide.

Le piège du double comptage

Si vous téléchargez le fichier du Compte Administratif et additionnez toutes les lignes, vous obtenez un budget deux fois supérieur à la réalité. Ce n'est pas une erreur. En comptabilité publique, certaines lignes sont des écritures internes dites "pour ordre" — l'argent passe d'une case à l'autre sans quitter la mairie. Rien ne le signale dans le fichier. Aucun avertissement.

Le Centre d'Action Sociale de la Ville de Paris apparaît sous 4 noms différents selon les fichiers : "CASVP", "CENTRE ACTION SOCIALE VILLE PARIS", "C.A.S.V.P.", "Centre d'Action Sociale de la Ville de Paris". Cherchez le total : vous obtenez 4 résultats partiels.

Les données sont publiques. Elles ne sont pas utilisables.

Pas de coupables

Ce n'est pas un réquisitoire contre l'administration. Derrière ces fichiers, il y a des agents territoriaux qui travaillent avec des logiciels de comptabilité qui datent parfois des années 90. Ils appliquent la nomenclature M57 — un standard comptable conçu pour des experts-comptables, pas pour des citoyens.

La loi dit que les données doivent être publiées. Elle ne dit pas qu'elles doivent être compréhensibles.

Ce qu'on a construit

Un pipeline de données qui collecte, nettoie, relie et vérifie les fichiers financiers de Paris. Concrètement :

Collecte. Les données viennent de l'API Open Data Paris (CSV), et quand les CSV sont incomplets, de l'extraction automatique des annexes PDF (pdfplumber, PyMuPDF). On a écrit des parseurs pour deux formats différents : le format legacy (2020-2022) et le format croisé (2023-2026). Notre couverture : 2019 à 2026, là où le portail officiel s'arrête souvent à 2021.

Nettoyage. On filtre les opérations "pour ordre". On harmonise les noms de colonnes entre le Budget Voté et le Compte Administratif (qui n'utilisent pas les mêmes intitulés). On réconcilie les variantes d'entités — le CASVP, c'est un seul organisme, 1 940 M€ cumulés. On vérifie que chaque total correspond au centime près aux documents officiels.

Classification. Les données brutes sont organisées par codes comptables (Chapitre 012, Chapitre 65). Pas par thèmes. On a construit un système de classification qui traduit ça en catégories lisibles — Éducation, Culture, Sport, Solidarité. Pour les 40 000+ bénéficiaires de subventions, ça fonctionne en cascade : reconnaissance de motifs (74%), IA (21%), rattachement par direction (4,5%). Résultat : 99,5% des subventions classées par thème. Sur le portail brut : 0%.

Géolocalisation. Les projets d'investissement dans les fichiers bruts ont des descriptions textuelles, pas de coordonnées. On extrait les adresses par regex, on associe les noms de bâtiments publics connus, on utilise un modèle IA pour les cas ambigus, puis on vérifie via l'API Adresse du gouvernement. 43% des projets sont placés sur une carte, avec un score de confiance. Sur le portail brut : 0.

Vérification. 42 tests automatiques s'exécutent à chaque mise à jour du pipeline. Si un total ne correspond pas, si une année est incomplète, si une classification a dérapé, le pipeline s'arrête.

Ce que ça produit

On connecte le Budget Primitif (ce qui est voté) au Compte Administratif (ce qui est réellement dépensé), année par année, poste par poste. On calcule des taux d'exécution. On signale les écarts.

Quand un chiffre est affiché sur le dashboard, il porte un badge :

Exécuté — chiffre définitif, constaté par le Compte Administratif
Voté — prévision votée par le Conseil de Paris
Estimé — projection basée sur les tendances historiques, avec intervalles de confiance

Si une donnée manque, c'est écrit. Si un chiffre est estimé, c'est écrit.

Vérifiable

Tout le pipeline est open-source. Le code de collecte, les modèles SQL (dbt), les algorithmes de classification, les prompts IA, les scripts d'export, le frontend Next.js. De la première requête API au dernier pixel.

Si vous lisez "9,3 milliards en fonctionnement en 2024" sur le dashboard, vous pouvez remonter le fil : du chiffre affiché au fichier JSON, du JSON au modèle SQL, du SQL à la source brute. Vous pouvez cloner le repo et reproduire le résultat. Vous pouvez contester un filtre, une classification, un choix méthodologique. Tout est documenté, tout est testable.

C'est la différence entre "faites-nous confiance" et "vérifiez vous-même".

Le code est sur GitHub. Aucune affiliation politique, aucun financement, aucune publicité. Un projet citoyen, indépendant, qui transforme des fichiers techniques en réponses.

Données Lumières