In einem früheren Blogbeitrag
haben mein Kollege Waldemar Felde
und ich bereits einen Überblick über Microsoft Fabric, die einheitliche Data-Analytics-Plattform aus dem Hause Microsoft, gegeben.
Im heutigen Beitrag geht es um das Data Mesh als zentralen organisatorischen Wandel im Gebiet Reporting und Business Intelligence und wie ein Data Mesh mit Microsoft Fabric umgesetzt werden kann.
Was ist Data Mesh?
Data Mesh ist ein organisatorisches Architektur-Konzept, das darauf abzielt, die Verwaltung, Verarbeitung und Nutzung von Daten und Datenprodukten zu verbessern und zu beschleunigen. Während bisherige Konzepte oftmals eine zentralisierte Datenarchitektur über alle Geschäftsbereiche hinweg beschreiben, setzt das Data Mesh auf Dezentralisierung und Demokratisierung von Daten.
Was macht ein Data Mesh aus?
Ein Data Mesh ist keine starre Struktur, die über jedes Unternehmen oder über jeden Use-Case gelegt werden kann. Viel mehr ist das Data Mesh durch das domain-driven Design und dezentralisierten Mircoservice-Architekturen inspiriert und lässt verschiedene Interpretationen zur Anwendung und Umsetzung zu.
Nichtsdestotrotz gibt es einige Schlüsselprinzipien, die bei der Implementierung eines Data Mesh zu beachten sind.
Schlüsselprinzipien für die Implementierung eines Data Mesh
- Domain Ownership: Die Daten werden nach Domänen geschnitten und die jeweiligen Domänen-Teams bekommen die Verantwortung über ihre Daten. Diese Teams sind Experten in ihrer Domäne und verfügen eigenständig über ihre Daten. Das Prinzip kommt aus dem Domain-driven Design und steht im direkten Gegensatz zur aktuell üblichen Vorgehensweise im Reporting und BI mit zentralen Daten-Teams.
- Data as a Product: Hier wird ein Umdenken in den Domänen-Teams gefordert. Analysen und aufbereitete Daten werden nicht nur innerhalb der Domäne bereitgestellt, sondern mit einem Produkt-Denken und hoher Qualität an andere Teams ausgeliefert. Mit ihrem Domänen-Wissen können sie die Datenprodukte optimal aufbereiten und gestalten. Andere Teams können von diesem Wissen profitieren.
- Self-serve Data Platform: Ein dezidiertes Plattform-Team kümmert sich um alle Infrastruktur-Themen und stellt benötigte Analysen-Werkzeuge für die Domänen-Teams bereit. So werden diese bei der Entwicklung von Datenprodukten bestmöglich unterstützt und Mehraufwände vermieden.
- Federated Governance: Mit unternehmensweiten Richtlinien, Regeln und Standards werden zentrale Aspekte wie Sicherheit, Qualität und Datenschutz reguliert und kontrolliert. Gleichzeitig dürfen die Domänen-Teams frei über ihre Daten verfügen - innerhalb des gesetzten Rahmens. Außerdem werden Standards für Datenprodukte und ihre Schnittstellen definiert, sodass diese einfach miteinander verwendet werden können.
Data Mesh in der Praxis - Beispiele der Implementierung
Da das Data Mesh zunächst nur ein Konzept darstellt, muss die Implementierung individuell für jedes Unternehmen erfolgen. Eine Einschränkung der Praxis kann das Datenwissen und die Expertise der Mitglieder der Domänen-Teams sein.
Das Data Mesh benötigt Domänen-Teams, die jeweils eigenständig Daten analysieren und Datenprodukte erstellen können. Häufig ist das Wissen jedoch in Teams, die oft mit neuen Technologien arbeiten, konzentriert und damit im Vergleich mit Teams, die in Legacy-Systemen oder Technologien arbeiten, sehr ungleich verteilt.
Um solchen Voraussetzungen und Anforderungen im Unternehmen gerecht zu werden, lassen sich verschiedene Formen des Data Mesh definieren, die sich im Grade der Demokratisierung und der Governance unterscheiden. Hier wollen wir auf drei beispielhafte Implementierungen eingehen:
Quelle: https://towardsdatascience.com/data-mesh-topologies-and-domain-granularity-65290a4ebb90
- Fine-grained fully federated mesh: Diese Topologie eines Data Mesh implementiert eine extrem hohe Demokratisierung von Daten durch die Bildung von kleinen, granularen Datenprodukten, welche vollständig eigenverantwortlich durch die Domänen verwaltet und verantwortet werden.
- Fine-grained and fully governed mesh: Auch in diesem Ansatz liegt die Verantwortung für die Datenprodukte weiterhin in den Domänen, jedoch wird aus einer zentralen Entität eine starke Governance vorgegeben, welche die Freiheit und die Demokratisierung der Daten zu einem gewissen Teil einschränkt.
- Hybrid federated Mesh: Dieser hybride Ansatz stellt eine Mischung der beiden vorherigen Ansätze dar. Dabei gibt es Domänen und Datenprodukte, die einen höheren Grad an Demokratisierung aufweisen und untereinander Daten austauschen, jedoch auch solche, die einer starken Governance unterliegen und deren Datenprodukte durch eine zentrale Instanz überwacht und gesteuert werden. Die Entscheidung, welchem Grad an Demokratisierung ein Datenprodukt oder eine Domäne unterliegen soll, kann beispielsweise aufgrund der Vertraulichkeit von Daten oder der Art und Komplexität des Zugriffs zum Beispiel bei Legacy-System getroffen werden. Zudem spielt die Verfügbarkeit von Software- oder Data-Engineers im Unternehmen bei der Entscheidung eine wichtige Rolle, wie das Data Mesh aufgebaut sein soll.
Sie wollen Data Engineering in Ihrem Unternehmen ganzheitlich umsetzen? Wir unterstützen Sie. Jetzt unverbindlichen Termin anfragen!
Data Mesh in Microsoft Fabric
Microsoft Fabric erleichtert die Implementierung des Data Mesh enorm. Durch den Einsatz von Microsoft Fabric als SaaS-Lösung werden automatisch die allermeisten Infrastruktur-Aufgaben von Microsoft wahrgenommen und direkt eine Datenplattform mit allen notwendigen Tools bereitgestellt.
Mit dem OneLake sind alle Daten auf einem einheitlichen Data Lake gespeichert und Zugangsberechtigungen können mit wenigen Klicks verwaltet werden.
Gleichzeitig gibt es in Microsoft Fabric von Haus aus schon die Möglichkeit, Arbeitsbereiche und damit Ressourcen in Domänen zu strukturieren. In diesen Domänen können Teammitglieder als Contributor hinzugefügt werden und zentrale Rechte können nach Bedarf von den globalen Administratoren an die Domänen-Administratoren abgegeben werden. So wird die Administration innerhalb der Domänen an die jeweiligen Teams verteilt, die dadurch eigenständig agieren können und nicht auf globale Administratoren warten müssen.
So könnten die beispielhafte Domänen in einem Unternehmen aussehen. Durch den Einsatz von Microsoft Fabric und dem Onelake findet dabei bereits implizit eine Demokratisierung von Daten statt, indem alle Domänen ihre Quellsysteme in den Onelake integrieren und die Rohdaten damit je nach Berechtigung anderen Domänen zur Verfügung stehen.
Entweder entfallen durch die Onelake-Shortcut-Technologie damit bereits einige ETL-Strecken oder diese müssen nur noch einmal implementiert werden, auch wenn eine Domäne Daten aus den Systemen einer anderen Domäne benötigt.
Wie lassen sich Domänen in Microsoft Fabric abbilden?
Dafür bietet Microsoft Fabric (aktuell noch in der Preview) die Möglichkeit, über das Admin-Portal eben diese Domänen zu konfigurieren.
Die Domänen bieten den zentralen Einstiegspunkt für die Governance über das Date Mesh.
Über die Domänen lassen sich grundlegende Einstellungen steuern, wie beispielsweise:
- Zugriffssteuerung über Microsoft Entra-ID-Benutzerkonten
oder M365-Gruppen
- Rollen- und Rechtezuweisung für die Verwaltung der Domäne
- Zuweisung und Konfiguration von PowerBI-Arbeitsbereichen
- Einstellungen zur Zertifizierung von Datenprodukten
Vor allem die Zertifizierung von Datenprodukten nimmt in der Governance eine Schlüsselrolle im Data Mesh auf Basis von Fabric ein.
Die Domänen können Datenprodukte, welche sie veröffentlichen und anderen Domänen/Nutzern zur Verfügung stellen wollen, zunächst einmal “promoten” und damit ihre Bereitschaft signalisieren, das Datenprodukt verfügbar zu machen.
Je nach Ausprägung und Grad der Demokratisierung folgt dann eine Zertifizierung - entweder durch die Domänen selbst oder durch eine zentrale Instanz, die die Produkte nochmals auf die Einhaltung aller Richtlinien prüft.
Zertifizierte Datenprodukte können anschließend in der Organisation gefunden und genutzt werden.
Data Mesh in MS Fabric - nur ein technischer Change?
Auch wenn Unternehmen durch die Nutzung von Microsoft Fabric bereits viele Data-Mesh-Prinzipien technisch nutzen oder zumindest ohne großen Aufwand nutzen können, ist damit noch kein Data Mesh im Unternehmen ausgerollt. Data Mesh ist kein Produkt, das gekauft wird und auch keine Technologie, die eingeführt wird, sondern ein organisatorischer und architektonischer Ansatz für Data Engineering. Es wird kein Data Mesh entstehen, wenn beispielsweise
- Domänen-Teams durch zentrale Restriktionen und Vorgaben keine Freiheiten bei der Entwicklung von Datenprodukte haben.
- zwar Domänen einrichtet, aber alle Datenprodukte am Ende von den gleichen Daten-Experten entwickelt werden.
- Datenprodukte nicht zwischen Domänen geteilt werden und stattdessen jeder für sich entwickelt.
Mit dem Einsatz von Microsoft Fabric lassen sich Domänen und damit viele Aspekte des Data Mesh aus technischer Sicht ganz einfach mit einigen Klicks in der Admin-Oberfläche definieren.
Wer im Data Mesh arbeiten will, für den ist Microsoft Fabric auf jeden Fall eine spannende und lohnenswerte Lösung, die vieles einfacher macht. Aber die wahre Herausforderung liegt im Change von “Daten sind nur ein Nebenprodukt der Geschäftsprozesse” hin zu “Daten sind ein wertvolles Produkt eines Unternehmens und jeder sollte Zugriff auf die für ihn wichtigen Daten haben”.
Kurz: Nein, es ist nicht nur ein technischer Change.
Sie wollen Data Engineering in Ihrem Unternehmen ganzheitlich umsetzen? Wir unterstützen Sie. Jetzt unverbindlichen Termin anfragen!