Aufbau eines Azure-nativen Data Mesh zur Stärkung von Microsoft-Kunden

In einem früheren Blog haben wir über die Datengeflecht als Wegbereiter für KI-gesteuerte Unternehmen. In diesem Blog beschreiben wir, wie wir das Ontinue ION-Datengeflecht, die Grundlage von ION IQ für die schnelle Entwicklung von KI-Fähigkeiten, mit Azure-Diensten und -Ressourcen aufgebaut haben.
Herausforderungen und Designentscheidungen
Die Umsetzung des Datennetzes kann sich in der Praxis als recht schwierig erweisen. Die theoretischen Grundsätze sind zwar gut nachvollziehbar und bilden die Grundlage für eine logische Architektur auf hoher Ebene, sie enthalten jedoch keine Vorschläge für ein tatsächliches Design und überlassen die Einzelheiten der Implementierung der Interpretation. In der Tat wurden bisher mehrere Architekturen vorgeschlagen.
Bei der Implementierung des Datennetzes ist es wichtig, den speziellen Aufbau Ihres Unternehmens, die vorhandene Technologie, das Budget, die interne Struktur und das Maß an Flexibilität zu berücksichtigen und realistische Designentscheidungen zu treffen, die der Einfachheit dienen.
Zur Freude vieler Unternehmen haben alle großen Cloud-Anbieter in letzter Zeit die Entwurfsmuster für Datengeflechte aufgegriffen. Vor allem Microsoft entwickelt seine Azure-Analysedienste, Tools und Dokumentationen kontinuierlich weiter, um die Implementierung von Data Mesh drastisch zu vereinfachen und zu beschleunigen.
Daten-Domänen
Der erste kritische Schritt, mit dem sich die meisten Leute schwer tun, ist die Definition der Geschäftsbereiche und ihrer Grenzen. Ein gängiger Ansatz besteht darin, einen Bereich zunächst konzeptionell zu definieren und ihn dann mit einem Team zu besetzen. Dieser Ansatz ist oft mit einem enormen Reorganisationsaufwand verbunden, so dass er nicht praktikabel ist. Anstatt jedes Serviceteam und jede Geschäftseinheit als eigene Domäne zu behandeln, empfehlen wir, Datendomänen zu definieren. Das heißt, Domänen, in denen die Datenprodukte des Unternehmens konzeptionell zusammengefasst werden können.
Wir betrachten beispielsweise alle Datenprodukte im Zusammenhang mit Sicherheitsoperationen als eine Datendomäne. Die Kundenumgebung und das Schwachstellenmanagement sind weitere Beispiele für Datenbereiche. Jedes Team kann mit eigenen Ressourcen und eigenen Prozessen Datenprodukte erstellen, die zu verschiedenen Domänen gehören. Der technische Leiter eines jeden Teams fungiert natürlich als Eigentümer der Datenprodukte, die das Team erstellt und pflegt.

Vollständiges vs. grobkörniges Netz
Eine vollständig vernetzte Topologie, d. h. die Bereitstellung der Analysedaten vom Rand jedes Bereichs aus, setzt ein hohes Maß an Reife bei der Entwicklung, Bereitstellung und gemeinsamen Nutzung von Datenprodukten in jedem Team voraus. Dies könnte in der Praxis unrealistisch sein.
Für das ION-Datennetz verwenden wir eine grobkörnige Netzimplementierung, bei der die Domänen ihre analytischen Datenprodukte über eine zentrale logische Einheit verteilen, die als einzige Quelle der Wahrheit dient. Es basiert auf dem Azure Data Lake Storage Gen2 (ADLSg2) und nutzt dessen Skalierbarkeit und Leistungsfähigkeit zusammen mit einem benutzerdefinierten Zugriffskontrollmodell auf Basis von Microsoft Entra ID. Die Datenprodukte werden im hochoptimierten Delta-Format gespeichert, jeweils mit einem Datenvertrag, der sicherstellt, dass die Verbraucher sie verstehen und ihnen vertrauen können.
Dieser Entwurf stellt ein gutes Gleichgewicht zwischen Dezentralisierung und Zentralisierung dar. Dezentralisierte Domänen sind nach wie vor Eigentümer der von ihnen erzeugten Datenprodukte und können kontrollieren, wie andere auf sie zugreifen. Gleichzeitig ist es zentralisiert genug, um kontinuierliche Qualitäts- und Interoperabilitätsprüfungen zu erleichtern, Richtlinien zu automatisieren, eine einfache Entdeckung und Aggregation von Datenprodukten zu ermöglichen und eine einheitliche Arbeitsweise zwischen den Teams zu gewährleisten.
Datenplattform zur Selbstbedienung
Die Selbstbedienungsplattform - und ihre Fähigkeit, Komplexität zu abstrahieren - ist ein entscheidender Bestandteil des Datennetzes. Azure Synapse ist ein Analysedienst, der die notwendigen Abstraktionen und Werkzeuge bereitstellt, damit jedes Team, auch das ohne Dateningenieure, unabhängig seine eigenen Datenprodukte erstellen, bereitstellen und überwachen kann. Er bietet deklarative Schnittstellen zu:
- nahtlose Verbindung zu betrieblichen Datenquellen
- Nutzung vorhandener Datenprodukte
- Erstellung und Verwaltung von Rechenressourcen (z. B. Spark-Pools)
- Aufbau und Orchestrierung von Pipelines für Datenintegration und ETL/ELT
- Integration mit Diensten wie Power BI und AzureML
Azure Synapse implementiert praktisch die Ebene der Datenproduktentwickler, wie sie in den Data Mesh-Prinzipien definiert ist. Es abstrahiert auch von der Azure-Infrastruktur - der Dateninfrastrukturebene - die für die Durchführung all dieser komplexen Vorgänge erforderlich ist. Jedes Team nutzt seine eigene Synapse-Instanz und die entsprechenden Cloud-Ressourcen und ist für diese verantwortlich.

Team befähigen
Im Idealfall verfügt ein Unternehmen über ein mit Daten- und KI-Experten besetztes Team, das die Einführung von Datennetzen beschleunigt und die Datenreife im gesamten Unternehmen erhöht. Unser ION IQ Das Enabling-Team stellt Richtlinien für das Design von Datenprodukten, Beispiele für die Erstellung von Datenpipelines und Blaupausen, Terraform-Vorlagen und GitHub-Workflows für die automatische Bereitstellung vorkonfigurierter Analyseressourcen, Tutorials und Artikel über bewährte Verfahren bereit. All dies hilft anderen Teams bei der autonomen Erstellung und Nutzung von Datenprodukten. Am wichtigsten ist jedoch, dass unser Enabling-Team ein ausgereiftes ML Ops-Paradigma entwickelt hat und pflegt, das in die Datenplattform integriert ist und es jedem Team ermöglicht, mit AzureML und dem Azure OpenAI-Service Maschinenmodelle zu trainieren und zu operationalisieren (oder bereits trainierte Modelle zu verwenden).
Einheitliche Datenverwaltung
Bei der Implementierung einer Mesh-Überwachungsebene verlassen wir uns stark auf Microsoft Purview und seine wertvollen Out-of-the-Box-Funktionen: Definition von Geschäftsglossaren, automatische Datenermittlung, Datenabstammung, Klassifizierung sensibler Daten und automatische Warnmeldungen bei Verstößen gegen Datenrichtlinien, um nur einige zu nennen. Der 365-Grad-Einblick in unseren Datenbestand ermöglicht nicht nur kontinuierliche und effektive Interoperabilitäts-, Datenschutz- und Compliance-Prüfungen, sondern auch die vollständige Kontrolle darüber, welche Daten für das Training interner Expertenmodelle für maschinelles Lernen und für die Feinabstimmung bereits trainierter Modelle, wie z. B. Large Language Models (LLMs), verwendet werden.
Supercharging Cyber Defenders
Das ION-Datengeflecht ermöglicht das Sammeln und Korrelieren von hochwertigen und vertrauenswürdigen Daten - den ION IQ-Daten - aus verschiedenen Quellen, die zum Trainieren leistungsstarker maschineller Lernmodelle verwendet werden können. Diese befähigen unsere Cyber-Verteidiger indem sie einzigartige Einblicke und Empfehlungen geben, die ihre Effizienz steigern können.
Zum Beispiel durch die Analyse der Triage-Schritte vergangener Vorfälle für einen bestimmten Kunden, zusammen mit den Verhaltensmustern seiner kritischen Anlagen und anderen kundenspezifischen Informationen - alles als Datenprodukte in der Weiter ION Datengeflecht - unsere Expertenmodelle für maschinelles Lernen können vorhersagen, bei welchen Vorfällen es sich mit größerer Wahrscheinlichkeit um echte Positivmeldungen handelt. Unsere Cyber Defenders können diesen Vorfällen Priorität einräumen und sofort mit der weiteren Analyse beginnen, anstatt sich zuerst um potenziell harmlose positive Vorfälle zu kümmern.


