Technologie

95 % des projets IA échouent. Et ce n’est pas un problème de technologie.

iD4Connect

17 avril 2026

8 min de lecture

Les entreprises ont investi 40 milliards de dollars dans l’IA en 2025. Résultat : 95 % d’entre elles n’ont aucun retour sur investissement mesurable. Le coupable n’est ni les modèles, ni les GPU, ni les éditeurs. C’est la donnée elle-même : sa qualité, sa gouvernance, sa fraîcheur. Tant que les entreprises alimenteront leurs moteurs d’IA avec des données fragmentées, dupliquées et non gouvernées, l’intelligence artificielle restera une promesse coûteuse.

Le paradoxe des 40 milliards

Le chiffre est brutal. Selon les données compilées par HPCWire et confirmées par plusieurs analystes, 95 % des organisations n’ont pas de retour sur investissement mesurable sur leurs projets pilotes d’IA (source : MIT, The GenAI Divide: State of AI in Business 2025). Pas « insuffisant ». Pas « en cours de mesure ». Pas mesurable.

Parallèlement, McKinsey estime le coût de l’infrastructure IA mondiale à 7 000 milliards de dollars d’ici 2030 (source : McKinsey). Sept mille milliards. Pour des projets dont la quasi-totalité ne génère aujourd’hui aucune valeur démontrable.

La question n’est plus « faut-il investir dans l’IA ? ». Elle est désormais : pourquoi l’IA ne fonctionne pas quand les données qui l’alimentent sont défaillantes ?

Le vrai goulot d’étranglement : la donnée, pas le modèle

Les analyses convergent sur un diagnostic précis. Le blocage principal des projets IA n’est pas technologique. C’est un déficit de qualité et de gouvernance des données.

Trois chiffres éclairent cette réalité mieux que n’importe quel discours :

89 % des dirigeants déclarent ne faire confiance à l’IA que si les données sous-jacentes sont vérifiées et fiables (source : BigDATAwire / Harris Poll). La confiance dans la donnée est devenue le premier critère d’adoption de l’IA en entreprise.

79 % des équipes de sécurité peinent à classifier les données sensibles pour les projets d’IA (source : Bedrock Security, 2025 Enterprise Data Security Confidence Index). Autrement dit, quatre équipes sécurité sur cinq ne savent même pas où se trouvent les données critiques avant de les injecter dans un modèle.

55 % des équipes sont contraintes de corriger manuellement les résultats de l’IA (source : BigDATAwire / Harris Poll). Plus de la moitié du travail produit par l’intelligence artificielle doit être repris à la main, ce qui annule le gain de productivité promis.

Le schéma est le même dans tous les secteurs : les entreprises achètent un modèle d’IA performant, le connectent à des données fragmentées, obsolètes ou non gouvernées, puis s’étonnent que les résultats soient inutilisables. L’IA n’est pas défaillante. Elle est affamée.

Pourquoi les architectures traditionnelles échouent

Pour comprendre l’échec systémique, il faut regarder comment les données arrivent aujourd’hui jusqu’aux modèles d’IA dans la plupart des organisations.

Le pipeline classique suit une séquence bien connue : extraction des données depuis les systèmes sources, chargement dans un entrepôt ou un data lake, transformation par lots, puis exposition aux outils analytiques ou aux modèles d’IA. Chaque étape introduit de la latence, de la duplication et des risques de dégradation de la qualité.

Ce modèle pose quatre problèmes structurels que la technologie IA ne peut pas compenser.

La latence. Les données traitées en batch ont plusieurs heures, voire plusieurs jours de retard. Un modèle de détection de fraude alimenté avec des données de la veille est structurellement aveugle aux attaques en cours.

La duplication. Chaque copie de données crée une dérive potentielle. Quand le même client existe dans trois versions différentes entre le CRM, l’ERP et le data lake, le modèle d’IA travaille sur une réalité fictive.

La gouvernance post-hoc. Les règles de qualité et de conformité sont appliquées après le stockage, pas pendant le transit. Les données incorrectes sont déjà dans le pipeline quand on découvre le problème.

La surface d’exposition. Chaque zone de staging, chaque copie intermédiaire multiplie les points d’accès potentiels pour un attaquant ou un audit réglementaire non conforme. Dans un contexte RGPD/DORA/NIS2, chaque copie est un risque juridique.

Le système SYNAPS-I du Département américain de l’Énergie a récemment démontré qu’une autre approche est possible (source : Argonne National Laboratory / DOE) : une IA intégrée en boucle fermée avec les instruments de mesure, prenant des décisions pendant l’expérience elle-même, et non en post-traitement. Ce changement de paradigme, traiter les données en temps réel sans stockage intermédiaire, valide une intuition que l’industrie commence à intégrer.

La gouvernance by design : résoudre le problème à la source

Si le problème est la qualité des données en amont des modèles, la solution n’est pas d’ajouter une couche de validation après coup. C’est de gouverner les données pendant leur transit, avant qu’elles n’atteignent le modèle.

C’est précisément ce que permet une architecture stateless d’orchestration des données. Le principe : les données ne sont jamais stockées dans une zone intermédiaire. Elles sont traitées, transformées, validées et enrichies pendant leur transit, puis délivrées directement aux consommateurs : outils BI, modèles d’IA, tableaux de bord, alertes. C’est l’approche que porte iD4Connect depuis l’origine.

Cette approche résout structurellement les quatre obstacles identifiés.

Latence éliminée. Le traitement se fait en temps réel, pendant le mouvement de la donnée, pas après son atterrissage dans un entrepôt.

Zéro duplication. Aucune copie intermédiaire, aucune zone de staging. La donnée reste à sa source, les insights sont produits en transit par les DataCells.

Gouvernance native. Les règles de qualité, de conformité RGPD/DORA/NIS2, d’anonymisation et de traçabilité s’appliquent pendant le transit, pas après.

Surface d’exposition réduite à zéro. Pas de stockage, donc pas de données à voler, pas de copie à auditer, pas de risque juridique lié à une matérialisation non conforme.

L’IA reçoit alors des données fraîches, contextualisées et conformes. Exactement ce dont elle a besoin pour produire des résultats fiables. La gouvernance n’est pas un frein à l’IA. C’est sa condition de fonctionnement.

Ce que font les grands acteurs, et ce qu’ils ne peuvent pas faire

Snowflake et Databricks ont parfaitement compris l’enjeu. Les deux plateformes convergent à grande vitesse vers des solutions intégrées données + IA + gouvernance.

Snowflake vient de lancer Project SnowWork (source : Snowflake), un plan de contrôle agentique visant à coordonner intelligence, données et actions entre applications SaaS. Databricks a acquis deux startups spécialisées en sécurité des données et lance Lakewatch, un SIEM agentique sur lakehouse (source : Constellation Research). Les deux acteurs ont simultanément mis Apache Iceberg v3 en disponibilité, confirmant la convergence du marché vers des formats ouverts.

Mais cette course au « tout-en-un » bute sur une limite architecturale fondamentale : ces plateformes reposent sur le stockage centralisé des données. Le data lake, le data warehouse, le lakehouse : quel que soit le nom, le principe est le même. Les données sont déplacées, copiées et stockées avant d’être traitées (voir le positionnement d’iD4Connect).

Ce modèle pose trois problèmes que la sophistication logicielle ne résout pas.

Résidence des données. Les données quittent leur source pour être centralisées dans un cloud, souvent américain, soumis au Cloud Act. Même avec des régions européennes, la juridiction de l’opérateur prime.

Latence structurelle. Les cas d’usage temps réel critique (détection de fraude, pilotage industriel, alertes de sécurité) nécessitent des temps de réponse inférieurs à 100 ms. L’aller-retour vers un cloud centralisé ne le permet pas.

Coût d’infrastructure. Stocker, indexer et gouverner des copies de données coûte cher. Avec un investissement mondial projeté à 7 000 milliards de dollars, les décideurs vont arbitrer en faveur de solutions moins gourmandes en infrastructure.

Fait révélateur : Snowflake vient de lancer une fonctionnalité baptisée « Resharing », la transformation à la volée de données partagées sans matérialisation locale, en la présentant comme une innovation. C’est précisément ce que fait nativement une architecture stateless depuis son origine.

Le contexte réglementaire accélère l’urgence

La pression réglementaire européenne ne fait que renforcer ce constat. En avril 2026, la CNIL a déjà reçu 739 signalements liés aux élections municipales et engagé 4 contrôles avec procédure de sanction (source : CNIL). Les contrôles prioritaires de 2026 ciblent le recrutement, les données électorales, les fédérations sportives et la cybersécurité.

Parallèlement, l’AI Act entre en phase d’accompagnement opérationnel, Gaia-X passe à la phase opérationnelle avec les espaces de données souverains, et la DGFiP a généré 2,8 milliards d’euros via l’exploration de données et l’IA en 2025 (source : economie.gouv.fr), illustrant la montée en puissance des usages data dans le secteur public.

Le message pour les entreprises est clair : la conformité n’est plus un coût, c’est un critère de sélection technologique. Les solutions dont la conformité est native, parce qu’elles ne stockent jamais les données en dehors de leur source, ont un avantage structurel que les plateformes cloud centralisées ne peuvent pas reproduire, même en ajoutant des couches de gouvernance après coup (voir l’architecture iD4Connect).

Le retour sur investissement de l’IA ne dépend pas du modèle choisi. Il dépend de la capacité à alimenter ce modèle avec des données fraîches, gouvernées et conformes, en temps réel, sans les déplacer ni les dupliquer. Les 95 % d’échec ne sont pas une fatalité. Ce sont le symptôme d’une architecture obsolète. La solution existe. Elle s’appelle l’orchestration stateless.

Découvrez comment iD4Connect adresse ces enjeux →

Article précédent

80 % des données d’entreprise ne sont jamais exploitées : pourquoi, et comment y remédier ?

Technologie

Article suivant

Nouveau template DPIA de l’EDPB : quel avantage pour les architectures data-at-source ?

Souveraineté