
Este post está dirigido a aquellas organizaciones que tienen desplegado ADLS Gen2 en sus organizaciones tengan o no desplegado Power BI. Evidentemente si ya tienen Power BI y sobre todo Fabric, pues con más motivo.Seguramente la transición será natural en el futuro pero por qué. La realidad es que los Lakehouse de Fabric son la evolución de los ADLS Gen2 pero mejorados y potenciados por la integración en la plataforma. A continuación aspectos de por qué apostar sin miedo por el cambio:
- Lakehouse la evolución del Data Lake. ADLS Gen2 es una evolución del almacenamiento en la nube de Microsoft, permitiendo manejar grandes volúmenes de datos con capacidades avanzadas de jerarquía de archivos y compatibilidad con Hadoop. No obstante, se necesitan herramientas externas (Azure Synapse, Databricks) para explotar los datos.
Lakehouse de Fabric es una evolución combinando lo mejor de los data lake y los data warehouse ya que utiliza ficheros Delta Lake (basados en el estándar de ficheros parquet) que permiten transacciones ACID. Esto garantiza la integridad de datos, capacidades time travel con consulta de versiones, y mejorando la lectura/escritura gracias a la indexación automática. Esto mejora muy considerablemente los rendimientos del servicio.
Además de que se incluye en OneLake, esto es, un almacenamiento único para todos los datos de la organización reduciendo costos de trasferencias y latencias. - Integración nativa con todas la funciones del análisis y ciencia de datos y a disposición de la compañía. Implementar un Lakehouse en Fabric automáticamente pone a disposición de la organización todos los servicios necesarios entorno al dato. Integra automáticamente Canalizaciones, Data Flow gen2, Blocs de notas (este nombre nunca me ha gustado porque simplifica toda la potencia de este artilugio), Wharehouse, Power BI, Activator, Real-Time entre otros servicios, la lista es larguísima.
Además, muchos de estos servicios son no-code, lo que presenta un entorno amigable para los diferentes perfiles que intervienen en el proceso de análisis de datos. Se ha utilizado el ecosistema de Power BI para integrar todos estos nuevos (o adaptados) servicios lo que facilita la curva de aprendizaje de las organizaciones que ya está utilizando Power BI. - Optimización de costes. Este es un punto importante porque se controlan de una forma clara los costes incurridos en el proceso de análisis y ciencia de datos. Como se ha comentado en un punto anterior, ya no es necesario contratar otros servicios que además el coste suele ser por uso. En este caso, la contratación es de Fabric que ofrece la totalidad de servicios, es decir, no es necesario la contratación de servicios añadidos.
El coste no depende de la cantidad de servicios utilizados, está asociado a la capacidad contratada. Es verdad que un uso intensivo de los servicios puede provocar la necesidad de contratar más capacidad incurriendo en más coste, pero es una decisión que tiene que tomar la organización y no se aplica de forma directa.
Además, la flexibilidad de subir y bajar la capacidad contratada permite modular el coste en función de los requisitos puntuales del negocio. Por ejemplo procesos de cierre que demandan más procesamientos pueden ser abordados con un aumento de capacidad puntual, pagando sólo por ese uso. - Gobernanza y seguridad de datos. Este aspecto aumenta considerablemente derivado de la integración con Microsoft Purview permitiendo la gobernanza y el linaje de datos en un único lugar. Además, se gestiona con Microsoft Entra ID lo que facilita el despliegue de la seguridad de usuarios y grupos con control granular hasta el dato. Por otro lado, al estar sobre OneLake soporta un enfoqueData Mesh facilitando la descentralización de los datos sin perder el control centralizado de gobernanza y seguridad.
- Respuesta a todos los perfiles demandantes de análisis. Al poder ser atacado con múltiples servicios de manera independiente y segura, da repuesta a demandantes a nivel de dirección y de operaciones. Soporta informes analíticos de Power BI pero también procesos de ciencia de datos con Blocs de notas, así como modelos de Machine learning y Deep learning.

Conclusiones
Evidentemente para aquellas organizaciones que están en el momento de desplegar un almacenamiento centralizado de los datos de la organización o un proceso de gobernanza de datos, mi recomendación sin lugar a dudas es Lakehouse de Fabric. Pero para aquellas organizaciones que ya tienen un ADLS Gen2 desplegado, creo que es más que interesante abordar, mas pronto que tarde, un proceso de migración a un Lakehouse de Fabric ya que los beneficios son más que considerables:
- Mayor rendimiento y gestión de la información
- Menos herramientas externas y más servicios integrados para todas las funciones de análisis y ciencia de datos
- Mejor gestión de costes
- Gobernanza de datos
- Mayor alcance a demandantes de análisis en la compañía
La migración puede ser gradual, tan simple como un Shorcut al ADLS Gen2 y ya iremos andando….
