‘Data mesh’ y ‘Data Fabric’ lógico: una combinación ganadora

Las organizaciones están adoptando cada vez más un paradigma de análisis de datos cuyo objetivo es transformar sus arquitecturas de datos más tradicionales hacia un enfoque descentralizado y flexible. Se trata del concepto de Data Mesh. Pero, ¿en qué consiste?

Data mesh (malla de datos) nace con el fin de solucionar los desafíos de las arquitecturas de datos centralizadas y monolíticas. En estas arquitecturas, un equipo centralizado de IT se encarga de implementar las políticas de gobierno del dato, pero adolecen en la mayor parte de los casos de una comprensión adecuada del negocio. Asimismo, suele recurrirse a plataformas centralizadas con enfoques materializados que carecen de suficiente flexibilidad lo que conlleva a una lentitud en la actualización y modificación de los datos.

En el enfoque Data Mesh, que consiste en un modelo descentralizado, las distintas áreas de negocio (“dominios”) son responsables de gestionar y mostrar sus propios datos al resto de la organización. Cada dominio comprende mejor cómo deben utilizarse sus datos, al ser expertos en los mismos, por lo que, cuando los gestionan, se reducen esfuerzos y mejora la productividad. También aporta agilidad con respecto a las infraestructuras centralizadas, en las que el equipo de IT puede llegar a ser un cuello de botella y ofrece autonomía para utilizar las herramientas que mejor se adapten a sus circunstancias.

Sin embargo, como contrapartida, introducen el riesgo de que se generen silos de datos, que se dupliquen los esfuerzos entre dominios y que, al final, no exista una gobernanza del dato unificada. Precisamente, para hacer frente a estos problemas, Data Mesh introduce varios conceptos. Por un lado, los datos como productos: los datos expuestos por los dominios deben ser fácilmente comprensibles y utilizables por otras unidades de negocio. En segundo lugar, la plataforma de autoservicio de datos: para automatizar y simplificar tareas como la gestión de identidades, trazabilidad e integración de los datos. En tercer lugar, la gobernanza federada: para garantizar la interacción entre los productos de datos de los diferentes dominios con un cierto nivel de normalización y políticas de seguridad comunes.

Para lograr ese acceso unificado a los datos, una mayor seguridad y una capa de gobernanza de datos sobre los sistemas de datos distribuidos, el mejor enfoque consiste en utilizar arquitecturas de Data Fabric lógicas. Esta tecnología es la aliada perfecta a la hora de adoptar el innovador enfoque de gestión de datos conocido como Data Mesh.

El Data Fabric lógico se basa en la tecnología de virtualización de datos y permite a las áreas implementar rápidamente sus productos de datos mediante la generación de modelos virtuales bajo cualquier fuente y formato. Por su facilidad de uso y su capacidad para reducir su replicación, lo hace de manera más inmediata que otras tecnologías. Por eso, la consultora Gartner estima un ahorro de productividad de más del 45% cuando una organización emplea este enfoque de integración lógico en sus procesos.

Este modelo proporciona una capa semántica y oculta a los usuarios de negocio la complejidad que tienen los sistemas subyacentes, como los problemas que generan la procedencia de los datos o los formatos de origen. Los datos se exponen a través de formatos estandarizados como SQL, REST, OData, GraphQL o MDX, sin necesidad de escribir un código. Además, también pueden pasarse automáticamente a un catálogo global de datos de la empresa.

Otra ventaja clave del Data Fabric lógico en una arquitectura de este tipo es que permite a las áreas seleccionar y evolucionar de forma autónoma las fuentes de datos que implementan para sus propios productos de datos. Por ejemplo, muchos departamentos empresariales ya disponen de sus propios sistemas de análisis de datos específicos de su sector, que así pueden reutilizar casi sin esfuerzo y sin tener que formar de nuevo a sus equipos. También pueden reutilizar directamente aplicaciones específicamente adaptadas a sus departamentos (por ejemplo, aplicaciones SaaS).

En cualquier caso, los dominios siempre pueden optar por un Data Warehouse/Data Lake para determinados tipos de datos, por ejemplo, para aquellos conjuntos dedicados a Machine Learning. Pero incluso ahí, estos conjuntos son accesibles a través de la capa de Data Fabric lógico para garantizar su coherencia y la gobernanza general de los datos.

La arquitectura de Data Fabric lógico se ofrece a los usuarios en modo auto-servicio, esto da mayor flexibilidad para la implantación de este enfoque federado y también hace que sea sencillo automatizar la aplicación de políticas de seguridad de los datos, como ocultar los datos salariales a menos que el usuario pertenezca a Recursos Humanos o proteger la información sensible con permisos específicos para determinados cargos en la organización. Estas reglas de negocio pueden implementarse de forma independiente a los sistemas subyacentes gracias al nivel de abstracción que brinda este enfoque.

Los dominios de datos son responsables de la generación de sus productos de datos, que han de compartir con el resto de la organización, por lo que las unidades de negocio precisan adoptar capacidades y skills analíticos que serán los encargados de su generación. Por otro lado, en esta arquitectura de Data Mesh, nuestros clientes suelen también disponer de un equipo centralizado de IT que se encarga de definir y aplicar las políticas de gobierno comunes a todas las áreas de la organización, utilizando para ello la misma infraestructura del Data Fabric lógico ofrecida en modo auto-servicio.

En definitiva, esta tecnología proporciona una capa de datos unificada, gobernada y segura sobre múltiples sistemas de datos distribuidos, por lo que se adapta perfectamente a los principios de la malla de datos o Data Mesh.