Vorteile automatisierter Datenintegration
ETL versus ELT: Welchen Weg in der Datenintegration einschlagen?
Die Möglichkeit, Quelldaten in Data Warehouses zu speichern, erlaubt eine neue Architektur der Datenintegration: Extract-Load-Transform (ELT)
Von Alexander Zipp, Commercial Lead DACH bei Fivetran
Die Vorteile vom Software-as-a-Service (SaaS)-Modell liegen klar auf der Hand. Unternehmen müssen ihre Anwendungen nicht auf eigenen Systemen installieren und ausführen und sich keine Hardware anschaffen. Gleichzeitig lassen sich Geschäftsprozesse effizienter managen und Mitarbeiter haben jederzeit Zugriff auf ihre Anwendungen. Doch durch die steigende Anzahl von Cloud-Anwendungen explodiert auch die Menge an Daten in den Unternehmen. Die eigentliche Herausforderung ist dabei der zuverlässige Zugriff auf aktuelle Daten aus den verschiedenen Anwendungen.
Die übliche Vorgehensweise der Datenintegration ist ein Prozess, der als Extract-Transform-Load beschrieben und kurz ETL genannt wird. ETL ist in den 70-er Jahren entstanden, als Rechenleistung, Speicherkapazität und Bandbreite gering und teuer waren. Doch ist der ETL-Prozess noch zeitgemäß oder bereits eine überholte Vorgehensweise?
ETL – der klassische Weg bei der Datenintegration
Beim ETL-Prozess werden Daten mit Hilfe von meist hauptsächlich manuell erstellten Daten Pipelines aus Quellen extrahiert und anschließend in ein Datenmodell umgewandelt. Analysten können diese Modelle wiederum in Berichte und Dashboards umwandeln, und laden die Daten in ein Data Warehouse.
Der ETL-Workflow gliedert sich in die folgenden fünf Schritte:
1. Gewünschte Datenquellen identifizieren.
2. Genaue Analyseanforderungen festlegen, die das Projekt lösen soll.
3. Datenmodell/-schema definieren, das von Analysten und anderen Benutzern benötigt wird.
4. Aufbau der Pipeline, bestehend aus Extraktions-, Transformations- und Ladefunktionen.
5. Analysen durchführen und Erkenntnisse ziehen.
Da in ETL die Extrahierung und die Transformation durchgeführt wird, bevor die Daten in ein Ziel geladen werden, sind sie eng miteinander verknüpft. Darüber hinaus ist jede ETL-Pipeline eine komplizierte, maßgeschneiderte Lösung, weil die Transformationen von den spezifischen Anforderungen der Analysten abhängig sind. Die enge Kopplung zwischen Extrahierung und Transformation verhindert auch, dass bei einem Fehler oder einer Unterbrechung einer Transformation Daten in das Ziel geladen werden können, was wiederum zu Ausfallzeiten führt.
Der Einsatz von ETL zur Datenintegration bringt also eine Reihe von Herausforderungen mit sich.
• Permanente Wartung – Da die DataPipeline sowohl Daten extrahiert als auch transformiert, bricht bei sich ändernden Schemata oder -Datenmodelle, die Pipeline zusammen. Oft ist dann eine umfangreiche Überarbeitung der Codebasis erforderlich.
• Anpassung und Komplexität – Die Data Pipelines extrahieren nicht nur Daten, sondern führen auch anspruchsvolle Transformationen durch, die auf die spezifischen Analyseanforderungen der Endnutzer ausgelegt sind. Das führt zu einer großen Menge an benutzerdefiniertem Code.
• Hoher Arbeitsaufwand und Kosten – Da das System auf einer benutzerdefinierten Code-Basis läuft, ist ein Team von erfahrenen Data Engineers erforderlich, um es aufzubauen und zu pflegen.
Technologietrends hin zur Cloud-Datenintegration
Solch ein hoher Arbeitsaufwand war zu einer Zeit als Rechenleistung, Speicherkapazität und Bandbreite knapp und teuer waren noch vertretbar. Auch das Volumen und die Vielfalt der Daten waren begrenzt. ETL stammt aus einer Zeit mit völlig anderen technologischen Voraussetzungen als heute. Im Zeitalter der Cloud existieren diese Einschränkungen nicht mehr.
Diese Entwicklungen haben ETL in zweierlei Hinsicht überflüssig gemacht. Zunächst hat die kosteneffiziente Verfügbarkeit von Rechenleistung, Speicherkapazität und Bandbreite zu einem explosionsartigen Wachstum der Cloud und Cloud-basierter Dienste geführt. Gleichzeitig haben auch das Volumen, die Vielfalt und die Komplexität der Daten zugenommen. Eine benutzerdefinierte Pipeline, die nur eine begrenzte Datenmenge und -granularität berücksichtigt, reicht nicht mehr aus.
Zweitens unterliegen moderne Datenintegrationstechnologien weniger Beschränkungen hinsichtlich des zu speichernden Datenvolumens und der Häufigkeit der Abfragen innerhalb eines Data Warehouses. Durch die kosteneffiziente Verfügbarkeit von Rechenleistung, Speicherkapazität und Bandbreite lässt sich der Workflow der Datenintegration neu ordnen. Vor allem aber können es sich Unternehmen leisten, Quelldaten im Data Warehouse zu speichern.
ELT – Der moderne Weg zur Datenintegration
Die Möglichkeit, Quelldaten in Data Warehouses zu speichern, erlaubt eine neue Architektur der Datenintegration: Extract-Load-Transform (ELT). Bei ELT verschiebt sich der Schritt "transformieren“ ans Ende der Data Pipeline.Damit wird vermieden, dass mögliche Störfaktoren von ETL (sich ändernde Schemata oder Datenmodelle) das Extrahieren und Laden beeinflussen. Das hat einem einfacheren und robusteren Ansatz für die Datenintegration zur Folge.
Wie bei ETL besteht auch der ELT-Prozess aus fünf Schritten, ist aber weniger aufwendig und flexibler:
1. Gewünschte Datenquellen identifizieren.
2. Automatisiertes Extrahieren und Laden ausführen.
3. Genaue Analyseanforderungen festlegen, die das Projekt lösen soll.
4. Datenmodelle anhand von Transformationen erstellen.
5. Analysen durchführen und Erkenntnisse ziehen.
Unter ELT sind das Extrahieren und Laden von Daten losgelöst von der Transformation und gehen ihr voraus. Obwohl es in der Transformationsebene zu Fehlern kommen kann, wenn sich Schemata oder Datenmodelle ändern, werden Daten weiterhin zuverlässig in die Destination geladen. Unternehmen können weiterhin Daten extrahieren und laden, auch wenn die Transformationen regelmäßig von Analysten neu geschrieben werden. Die Quelldaten aus diversen Anwendungen in verschiedenen Formaten und Datenstrukturen werden originalgetreu in einem Data Warehouse repliziert und damit zur „Single Source of Truth". Analysten können die Daten in ein einheitliches Schema transformieren, ohne die Integrität der gespeicherten Daten zu beeinträchtigen.
Vorteile automatisierter Datenintegration
Automatisierte ELT verwenden vorgefertigte sofort einsatzbereite Datenkonnektoren, die Schema- und API-Änderungen automatisch erkennen und replizieren sowie Daten bereinigen und normalisieren. Mit einem ELT-Ansatz können Unternehmen ihren Datenintegrations-Prozess erheblich erleichtern. Anstatt sich um den Aufbau und die Pflege der Data Pipelines zu kümmern, können sich Data Engineers auf geschäftsrelevante Projekte konzentrieren, wie die Optimierung der Dateninfrastruktur oder die Umsetzung von Vorhersagemodellen.
Fivetran bietet ein vollautomatisches, vollständig verwaltetes Datenintegrationstool, das den technischen Aufwand reduziert. Mit vorkonfigurierten Konnektoren werden Daten von der Quelle bis zum Ziel verwaltet und automatisch in normalisierten, analysebereiten Schemata an das Data Warehouse geliefert. Das macht den Zugriff auf Daten so zuverlässig und selbstverständlich, wie Strom aus der Steckdose und bietet Analysten ein hohes Maß an Flexibilität. (Fivetran: ra)
eingetragen: 10.06.21
Newsletterlauf: 31.08.21
Fivetran: Kontakt und Steckbrief
Fivetran automatisiert alle Arten von Data Movement im Zusammenhang mit Cloud-Datenplattformen. Das gilt vor allem für die zeitaufwendigsten Teile des ELT-Prozesses (Extract, Load, Transform) - von der Extraktion von Daten über das Handling von Schema-Drifts bis hin zu Daten-Transformationen. Damit können sich Data Engineers auf wichtigere Projekte konzentrieren, ohne sich um die Data Pipelines kümmern zu müssen. Mit einer Up-Time von 99,9 Prozent und sich selbst reparierenden Pipelines ermöglicht Fivetran Hunderten von führenden Marken weltweit, darunter Autodesk, Lionsgate und Morgan Stanley, datengestützte Entscheidungen zu treffen und so ihr Unternehmenswachstum voranzutreiben. Fivetran hat seinen Hauptsitz in Oakland, Kalifornien, und verfügt über Niederlassungen auf der ganzen Welt.
Der deutschsprachige Markt wird aus dem Büro in München betreut. Zu den Kunden in Deutschland zählen DOUGLAS, Hermes, Lufthansa, Siemens, VW Financial Services und Westwing. Weitere Informationen unter www.fivetran.com.
Kontaktdaten
Fivetran
Luise-Ullrich-Straße 20
80636 München, Deutschland
E-Mail: hallo[at]fivetran.com
Webseite: https://fivetran.com/de
Dieses Boilerplate ist eine Anzeige der Firma Fivetran.
Sie zeichnet auch für den Inhalt verantwortlich.
Lesen Sie mehr:
Cloud-Deployment für Fivetran-Plattform
Fivetran erweitert Partnerschaft mit Snowflake
Datenautobahn ohne Stau für die Logistik
Nutzung von KI- und Generative-KI-Technologien
Data Lake Management automatisiert und vereinfacht
Daten sind Basis für alle Formen der KI
Schlechte Datenpraktiken noch weit verbreitet
Datenbasierte Entscheidungen treffen
Datenaustausch im Unternehmen automatisieren
Reduzierte Latenzzeiten und Kosten
25 Jahre Erfahrung im SaaS-Umfeld
Fivetran sorgt für Business Insights
Kontrollierte, benutzerfreundliche Repositories
Aufbau einer soliden Data-Lake-Grundlage
Cloud Data Lake, Lakehouse oder Warehouse
Skalierbare Konnektoren und Destinationen
Fivetran als Launch-Partnerin
Prozess zur Datenintegration in BigQuery
Weniger Kosten für Neukundengewinnung
Inspirierende Führungspersönlichkeit
Anbindung an praktisch jede SaaS-Anwendung
Unterstützung von Amazon S3
Fivetran setzt Wachstum fort
Daten in Cloud- & On-Premise-Umgebungen
Fivetran: Führungsteam ausgebaut
Data Act könnte schon 2024 in Kraft treten
Mit Cloud-Architektur zum "Master of Data"
Vorteile automatisierter Datenintegration
Schwierigkeiten bei der Bereitstellung der Daten