Las empresas invirtieron 40.000 millones de dólares en IA en 2025. Resultado: el 95 % de ellas no tiene ningún retorno de inversión medible. El culpable no son los modelos, ni las GPU, ni los proveedores. Es el dato en sí mismo: su calidad, su gobernanza, su frescura. Mientras las empresas alimenten sus motores de IA con datos fragmentados, duplicados y no gobernados, la inteligencia artificial seguirá siendo una promesa costosa.
La paradoja de los 40.000 millones
La cifra es brutal. Según los datos recopilados por HPCWire y confirmados por varios analistas, el 95 % de las organizaciones no tiene retorno de inversión medible en sus proyectos piloto de IA (fuente: MIT, The GenAI Divide: State of AI in Business 2025). No «insuficiente». No «en proceso de medición». No medible.
Paralelamente, McKinsey estima el coste de la infraestructura IA mundial en 7 billones de dólares para 2030 (fuente: McKinsey). Siete billones. Para proyectos cuya práctica totalidad no genera hoy ningún valor demostrable.
La pregunta ya no es «se debe invertir en IA?». Ahora es: ¿por qué la IA no funciona cuando los datos que la alimentan son deficientes?
El verdadero cuello de botella: el dato, no el modelo
Los análisis convergen en un diagnóstico preciso. El bloqueo principal de los proyectos de IA no es tecnológico. Es un déficit de calidad y gobernanza de los datos.
Tres cifras ilustran esta realidad mejor que cualquier discurso:
89 % de los directivos declaran confiar en la IA solo si los datos subyacentes están verificados y son fiables (fuente: BigDATAwire / Harris Poll). La confianza en el dato se ha convertido en el primer criterio de adopción de la IA en la empresa.
79 % de los equipos de seguridad tienen dificultades para clasificar los datos sensibles en los proyectos de IA (fuente: Bedrock Security, 2025 Enterprise Data Security Confidence Index). Es decir, cuatro de cada cinco equipos de seguridad ni siquiera saben dónde se encuentran los datos críticos antes de inyectarlos en un modelo.
55 % de los equipos se ven obligados a corregir manualmente los resultados de la IA (fuente: BigDATAwire / Harris Poll). Más de la mitad del trabajo producido por la inteligencia artificial debe rehacerse a mano, lo que anula la ganancia de productividad prometida.
El esquema es el mismo en todos los sectores: las empresas compran un modelo de IA potente, lo conectan a datos fragmentados, obsoletos o no gobernados, y luego se sorprenden de que los resultados sean inutilizables. La IA no está averiada. Está hambrienta.
Por qué las arquitecturas tradicionales fracasan
Para entender el fracaso sistémico, hay que observar cómo llegan hoy los datos a los modelos de IA en la mayoría de las organizaciones.
El pipeline clásico sigue una secuencia bien conocida: extracción de datos de los sistemas fuente, carga en un almacén o un data lake, transformación por lotes y luego exposición a las herramientas analíticas o a los modelos de IA. Cada etapa introduce latencia, duplicación y riesgos de degradación de la calidad.
Este modelo plantea cuatro problemas estructurales que la tecnología IA no puede compensar.
La latencia. Los datos procesados en batch llevan varias horas, incluso varios días de retraso. Un modelo de detección de fraude alimentado con datos de la víspera es estructuralmente ciego ante los ataques en curso.
La duplicación. Cada copia de datos crea una deriva potencial. Cuando el mismo cliente existe en tres versiones diferentes entre el CRM, el ERP y el data lake, el modelo de IA trabaja sobre una realidad ficticia.
La gobernanza post-hoc. Las reglas de calidad y cumplimiento se aplican después del almacenamiento, no durante el tránsito. Los datos incorrectos ya están en el pipeline cuando se descubre el problema.
La superficie de exposición. Cada zona de staging, cada copia intermedia multiplica los puntos de acceso potenciales para un atacante o una auditoría regulatoria no conforme. En un contexto RGPD/DORA/NIS2, cada copia es un riesgo jurídico.
El sistema SYNAPS-I del Departamento de Energía de Estados Unidos demostró recientemente que otro enfoque es posible (fuente: Argonne National Laboratory / DOE): una IA integrada en bucle cerrado con los instrumentos de medición, tomando decisiones durante el propio experimento, y no en posprocesamiento. Este cambio de paradigma, procesar los datos en tiempo real sin almacenamiento intermedio, valida una intuición que la industria comienza a integrar.
La gobernanza by design: resolver el problema en origen
Si el problema es la calidad de los datos aguas arriba de los modelos, la solución no es añadir una capa de validación a posteriori. Es gobernar los datos durante su tránsito, antes de que alcancen el modelo.
Esto es precisamente lo que permite una arquitectura stateless de orquestación de datos. El principio: los datos nunca se almacenan en una zona intermedia. Se procesan, transforman, validan y enriquecen durante su tránsito, y luego se entregan directamente a los consumidores: herramientas BI, modelos de IA, cuadros de mando, alertas. Es el enfoque que iD4Connect defiende desde su origen.
Este enfoque resuelve estructuralmente los cuatro obstáculos identificados.
Latencia eliminada. El procesamiento se realiza en tiempo real, durante el movimiento del dato, no después de su aterrizaje en un almacén.
Cero duplicación. Ninguna copia intermedia, ninguna zona de staging. El dato permanece en su fuente, los insights se producen en tránsito por las DataCells.
Gobernanza nativa. Las reglas de calidad, de cumplimiento RGPD/DORA/NIS2, de anonimización y de trazabilidad se aplican durante el tránsito, no después.
Superficie de exposición reducida a cero. Sin almacenamiento no hay datos que robar, ni copias que auditar, ni riesgo jurídico ligado a una materialización no conforme.
La IA recibe entonces datos frescos, contextualizados y conformes. Exactamente lo que necesita para producir resultados fiables. La gobernanza no es un freno para la IA. Es su condición de funcionamiento.
Lo que hacen los grandes actores, y lo que no pueden hacer
Snowflake y Databricks han comprendido perfectamente lo que está en juego. Las dos plataformas convergen a gran velocidad hacia soluciones integradas datos + IA + gobernanza.
Snowflake acaba de lanzar Project SnowWork (fuente: Snowflake), un plano de control agéntico para coordinar inteligencia, datos y acciones entre aplicaciones SaaS. Databricks ha adquirido dos startups especializadas en seguridad de datos y lanza Lakewatch, un SIEM agéntico sobre lakehouse (fuente: Constellation Research). Ambos actores han puesto simultáneamente Apache Iceberg v3 en disponibilidad general, confirmando la convergencia del mercado hacia formatos abiertos.
Pero esta carrera hacia el «todo en uno» choca con un límite arquitectónico fundamental: estas plataformas se basan en el almacenamiento centralizado de datos. El data lake, el data warehouse, el lakehouse: cualquiera que sea el nombre, el principio es el mismo. Los datos se mueven, se copian y se almacenan antes de ser procesados (ver el posicionamiento de iD4Connect).
Este modelo plantea tres problemas que la sofisticación del software no resuelve.
Residencia de datos. Los datos abandonan su fuente para centralizarse en un cloud, a menudo americano, sometido al Cloud Act. Incluso con regiones europeas, la jurisdicción del operador prevalece.
Latencia estructural. Los casos de uso en tiempo real crítico (detección de fraude, pilotaje industrial, alertas de seguridad) requieren tiempos de respuesta inferiores a 100 ms. El viaje de ida y vuelta a un cloud centralizado no lo permite.
Coste de infraestructura. Almacenar, indexar y gobernar copias de datos es caro. Con una inversión mundial proyectada en 7 billones de dólares, los decisores van a optar por soluciones menos exigentes en infraestructura.
Dato revelador: Snowflake acaba de lanzar una funcionalidad llamada «Resharing», la transformación al vuelo de datos compartidos sin materialización local, presentándola como una innovación. Es precisamente lo que hace nativamente una arquitectura stateless desde su origen.
El contexto regulatorio acelera la urgencia
La presión regulatoria europea no hace sino reforzar esta constatación. En abril de 2026, la CNIL ya ha recibido 739 denuncias relacionadas con las elecciones municipales e iniciado 4 controles con procedimiento sancionador (fuente: CNIL). Los controles prioritarios de 2026 se centran en la contratación, los datos electorales, las federaciones deportivas y la ciberseguridad.
Paralelamente, el AI Act entra en fase de acompañamiento operativo, Gaia-X pasa a la fase operativa con los espacios de datos soberanos, y la DGFiP generó 2.800 millones de euros mediante la exploración de datos y la IA en 2025 (fuente: economie.gouv.fr), ilustrando el auge de los usos de datos en el sector público.
El mensaje para las empresas es claro: el cumplimiento ya no es un coste, es un criterio de selección tecnológica. Las soluciones cuyo cumplimiento es nativo, porque nunca almacenan los datos fuera de su fuente, tienen una ventaja estructural que las plataformas cloud centralizadas no pueden reproducir, ni siquiera añadiendo capas de gobernanza a posteriori (ver la arquitectura de iD4Connect).
Cuatro preguntas para su próximo proyecto de IA
Antes de lanzar o continuar una inversión en IA, cuatro preguntas merecen ser planteadas.
1. ¿Cuál es la frescura real de los datos que alimentan su modelo?
Si sus datos tienen más de unos minutos de retraso, su modelo trabaja sobre una realidad caducada. El tiempo real no es un lujo. Es la condición mínima para que la IA produzca resultados explotables.
2. ¿Cuántas copias de sus datos críticos existen en su pipeline?
Cada copia es una fuente de divergencia, un coste de infraestructura y un riesgo RGPD. Si la respuesta es «más de una», su arquitectura genera incoherencia por construcción.
3. ¿Su gobernanza es nativa o añadida?
Un cumplimiento implementado tras el despliegue depende de la buena voluntad del proveedor. Una gobernanza by design es una propiedad de la propia arquitectura. No puede ser retirada, eludida ni olvidada.
4. ¿Su equipo corrige los resultados de la IA a mano?
Si es así, el problema no es el modelo. Es el dato de entrada. Invertir en un modelo más potente no resolverá nada. Garbage in, garbage out, independientemente del tamaño de la GPU.
El retorno de inversión de la IA no depende del modelo elegido. Depende de la capacidad de alimentar ese modelo con datos frescos, gobernados y conformes, en tiempo real, sin moverlos ni duplicarlos. El 95 % de fracaso no es una fatalidad. Es el síntoma de una arquitectura obsoleta. La solución existe. Se llama orquestación stateless.