Data Mesh, Edge-Computing, DevOps, Data Lakes and Data Wrangling


Data Mesh, Edge-Computing, DevOps, Data Lakes and Data Wrangling

In Digitalisierung und Technologie steht das Thema Dezentralisierung immer stärker im Fokus. Dabei spielen folgende Aspekte wichtige Rollen: Dezentralisierte Systeme können sicherer sein als zentralisierte Systeme, da sie kein einzelnes Ziel für Angriffe darstellen. Durch die Verteilung von Daten und Ressourcen auf viele Knoten im Netzwerk wird es schwieriger, das gesamte System zu kompromittieren. Dezentrale Systeme können leichter skaliert werden als zentralisierte Systeme. Die Belastung kann auf viele Knoten im Netzwerk verteilt werden, anstatt auf eine einzige zentrale Einheit. Dezentrale Systeme können transparenter sein, da alle Beteiligten Zugang zu den gleichen Informationen haben. Dadurch können Vertrauen und Zusammenarbeit gestärkt werden. Dezentralisierte Systeme können unabhängiger sein und nicht von einer einzigen zentralen Autorität kontrolliert werden. Dadurch können Entscheidungen von einer breiteren Entscheidungsbasis getroffen werden, was zu einer besseren Abdeckung von Funktionalität und Sicherheit führen kann. Dezentralisierte Systeme können Innovationen fördern, da sie anpassungsfähiger sind. Das kann dazu führen, dass neue Ideen schneller umgesetzt werden. Beispiele für diese Entwicklungen sind Microservice-Architekturen, Blockchain und dezentrale Cloud-Systeme. Neben der Dezentralisierung gibt es auch viele Bemühungen, Aufgaben möglichst dort zu verrichten, wo sie auch effizient lösbar sind. Edge-Computing als technisches Beispiel und DevOps als organisatorisches fallen dabei ins Auge. Bei ersteren werden Daten dort bereits verarbeitet und sinnvoll gefiltert, wo sie anfallen und beim letzteren werden Teams gebildet, die Entwicklung und damit Wissen über die Domäne und Betrieb und damit Wissen über Anforderungen von Nutzer:innen von Software gebündelt werden. Es werden damit Brüche durch fehlende oder fehlerhafte Schnittstellen in den jeweiligen Prozessen bzw. Overhead verhindert. 

Einzig bei der Analyse und Auswertung von Daten haben sich im letzten Jahrzehnt andere Herangehensweisen etabliert. Daten werden von Sensoren, Applikationen, Social Media, Log-Dateien und vielen anderen Quellen und Systemen gesammelt und werden in großen Datensenken, wie etwa Data Lakes gespeichert. Ein Data Lake ist eine Datenarchitektur, bei der große Mengen an Rohdaten aus verschiedenen Quellen gespeichert werden. Im Gegensatz zu traditionellen Datenbanken oder Data Warehouses, die normalerweise eine strukturierte Datenorganisation erfordern, werden in einem Data Lake unstrukturierte oder halb-strukturierte Daten gespeichert. Ein Data Lake ermöglicht es Unternehmen also, eine breite Palette von Daten zu speichern, ohne sich Gedanken darüber zu machen, wie die Daten strukturiert werden müssen, bevor sie in einem Data Warehouse oder einer Datenbank gespeichert werden. Dies soll es Datenanalysten und Data Scientists ermöglichen, diese Daten zu nutzen, um Einblicke in Geschäftsprozesse und Kundenverhalten zu gewinnen. Aus den unstrukturierten Rohdaten soll Information und Wissen generiert werden. Um die Daten im Data Lake zu analysieren, müssen sie vor der Verarbeitung zumeist strukturiert werden. Dieser Prozess wird als Data Wrangling bezeichnet und umfasst Schritte wie die Datenaufbereitung, Datenbereinigung und die Erstellung von Datenmodellen. Arbeiten nun die Data Scientists in extra dafür etablierten zentralen Data Teams, mit den Rohdaten stehen sie oftmals vor mehreren Herausforderungen. Das zentrale Data Team muss einerseits sicherstellen, dass Daten für alle relevanten Abteilungen und Teams im Unternehmen zugänglich sind. Das erfordert oft eine enge Zusammenarbeit mit anderen Abteilungen, um sicherzustellen, dass die Datenverarbeitung und -speicherung den Anforderungen der verschiedenen Geschäftsbereiche entspricht. Auch die Qualität der Daten ist eine wichtige Voraussetzung für eine erfolgreiche Datenanalyse. Das zentrale Data Team muss sicherstellen, dass die Daten korrekt und konsistent sind, was oft eine enge Zusammenarbeit mit den beteiligten Abteilungen erfordert. Nicht zuletzt besteht ein solches zentrales Data Team aus verschiedenen Rollen, wie Datenwissenschaftlern, Data Engineers, Business-Analysten und IT-Spezialisten. Was oft fehlt, sind Personen mit dem notwendigen Domänenwissen, um die verschiedenen Rohdaten strukturieren zu können und um diese Daten auch semantisch zu ergänzen. Daten ohne Bedeutungsrahmen, Daten ohne Beschreibung und ohne Informationen über die beteiligten Prozesse und Rahmenbedingungen sind oft nur schwer in sinnvolle Zusammenhänge zu verwandeln. Der Kampf mit den Daten wird zum Kampf mit den Fachabteilungen und den dortigen Gegebenheiten wie Normen, Regeln und Fachbegriffen. Es kommt zu einem Flaschenhals zwischen den Personen bzw. Systemen, die Daten akquirieren und denen die Daten auswerten wollen. Auch muss für ein Feedback an die Fachexpert:innen über Ergebnissen aus den Analysen wiederum ein eigener Prozess über Teamgrenzen geschaffen und gepflegt werden.

Wendet man nun, die weiter oben beschriebenen Konzepte von Dezentralisierung und lokaler Verantwortlichkeit, auf das soeben beschriebene Probleme an, entsteht eine dezentrale Microservice-Architektur und folgende Herangehensweisen. Analog zu Funktionalität werden auch Daten und deren semantische Modelle als APIs von Domänenteams, d. h. von den Fachexpert:innen, angeboten. In den resultierenden Data Mesh-Architekturen müssen lediglich die jeweiligen Datenschnittstellen und die semantischen Modelle gepflegt und ausgetauscht werden. Analysen können dort gemacht werden, wo eine jeweils notwendige Datenlage vorhanden ist, zusätzlich Daten können über weitere Schnittstellen und mit weiteren Modellen versehen einfach abgerufen werden. Daten und deren semantische Modelle werden zu einem Produkt, dass von den Fachabteilungen gesammelt, aufbereitet und konsistent gehalten werden kann. Es kommt zu einer Demokratisierung der Daten. Die Rohdaten selbst bleiben dort, wo sie erfasst wurden, und werden mit dem Domänen Wissen verknüpft und standardisiert angeboten. Data Mesh ist somit eine moderne Architektur, die entwickelt wurde, um die Skalierung von Daten im Unternehmen zu erleichtern. Aus einem Data Mesh ergeben sich zusammengefasst folgende Vorteile:

(1) Data Mesh fördert die Eigentümerschaft von Daten, indem es die Verantwortung für Daten auf einzelne Teams verteilt. Dadurch werden Datenprozesse und -entscheidungen dezentralisiert, was zu besserer Zusammenarbeit und schnelleren Entscheidungen führen kann.

(2) Data Mesh ermöglicht eine nahtlose Skalierung von Daten und Analyseprozessen. Durch die dezentralisierte Natur von Data Mesh können Unternehmen die Datenverarbeitung an die Bedürfnisse der Geschäftsbereiche anpassen und gleichzeitig sicherstellen, dass die Datenverarbeitung effektiv und effizient bleibt.

(3) Data Mesh bietet mehr Flexibilität bei der Auswahl von Technologien und Tools, da Teams innerhalb des Unternehmens ihre eigenen Entscheidungen über die Verwendung von Technologien treffen können. Dadurch können Unternehmen die besten Tools und Technologien auswählen, um ihre spezifischen Anforderungen zu erfüllen.

(4) Data Mesh fördert die Verantwortlichkeit und Transparenz im Zusammenhang mit Datenqualität, da jeder Dateneigentümer die Verantwortung für die Qualität seiner Daten hat. Dies kann zu einer höheren Datenqualität führen, da jeder Dateneigentümer bestrebt ist, sicherzustellen, dass seine Daten sauber und konsistent sind.

(5) Data Mesh fördert Innovation, da es den Teams ermöglicht, schnell auf neue Datenquellen und Analysebedürfnisse zu reagieren. Dies kann zu schnelleren Innovationen und neuen Erkenntnissen führen, die das Unternehmen voranbringen.

(6) Data Mesh fördert die Zusammenarbeit und den Wissensaustausch zwischen den Teams, da es eine dezentrale, teambasierte Struktur fördert. Dadurch können Teams effektiver zusammenarbeiten und ihr Wissen und ihre Fähigkeiten teilen, um bessere Ergebnisse zu erzielen.


Wie verhindert man den Vendor Lock-in IIoT