- Anzeige -


Sie sind hier: Startseite » Fachartikel » Grundlagen

Vorteile automatisierter Datenintegration


ETL versus ELT: Welchen Weg in der Datenintegration einschlagen?
Die Möglichkeit, Quelldaten in Data Warehouses zu speichern, erlaubt eine neue Architektur der Datenintegration: Extract-Load-Transform (ELT)

- Anzeigen -





Von Alexander Zipp, Commercial Lead DACH bei Fivetran

Die Vorteile vom Software-as-a-Service (SaaS)-Modell liegen klar auf der Hand. Unternehmen müssen ihre Anwendungen nicht auf eigenen Systemen installieren und ausführen und sich keine Hardware anschaffen. Gleichzeitig lassen sich Geschäftsprozesse effizienter managen und Mitarbeiter haben jederzeit Zugriff auf ihre Anwendungen. Doch durch die steigende Anzahl von Cloud-Anwendungen explodiert auch die Menge an Daten in den Unternehmen. Die eigentliche Herausforderung ist dabei der zuverlässige Zugriff auf aktuelle Daten aus den verschiedenen Anwendungen.

Die übliche Vorgehensweise der Datenintegration ist ein Prozess, der als Extract-Transform-Load beschrieben und kurz ETL genannt wird. ETL ist in den 70-er Jahren entstanden, als Rechenleistung, Speicherkapazität und Bandbreite gering und teuer waren. Doch ist der ETL-Prozess noch zeitgemäß oder bereits eine überholte Vorgehensweise?

ETL – der klassische Weg bei der Datenintegration
Beim ETL-Prozess werden Daten mit Hilfe von meist hauptsächlich manuell erstellten Daten Pipelines aus Quellen extrahiert und anschließend in ein Datenmodell umgewandelt. Analysten können diese Modelle wiederum in Berichte und Dashboards umwandeln, und laden die Daten in ein Data Warehouse.

Der ETL-Workflow gliedert sich in die folgenden fünf Schritte:
1. Gewünschte Datenquellen identifizieren.
2. Genaue Analyseanforderungen festlegen, die das Projekt lösen soll.
3. Datenmodell/-schema definieren, das von Analysten und anderen Benutzern benötigt wird.
4. Aufbau der Pipeline, bestehend aus Extraktions-, Transformations- und Ladefunktionen.
5. Analysen durchführen und Erkenntnisse ziehen.

Da in ETL die Extrahierung und die Transformation durchgeführt wird, bevor die Daten in ein Ziel geladen werden, sind sie eng miteinander verknüpft. Darüber hinaus ist jede ETL-Pipeline eine komplizierte, maßgeschneiderte Lösung, weil die Transformationen von den spezifischen Anforderungen der Analysten abhängig sind. Die enge Kopplung zwischen Extrahierung und Transformation verhindert auch, dass bei einem Fehler oder einer Unterbrechung einer Transformation Daten in das Ziel geladen werden können, was wiederum zu Ausfallzeiten führt.

Der Einsatz von ETL zur Datenintegration bringt also eine Reihe von Herausforderungen mit sich.
• Permanente Wartung –
Da die DataPipeline sowohl Daten extrahiert als auch transformiert, bricht bei sich ändernden Schemata oder -Datenmodelle, die Pipeline zusammen. Oft ist dann eine umfangreiche Überarbeitung der Codebasis erforderlich.
• Anpassung und Komplexität – Die Data Pipelines extrahieren nicht nur Daten, sondern führen auch anspruchsvolle Transformationen durch, die auf die spezifischen Analyseanforderungen der Endnutzer ausgelegt sind. Das führt zu einer großen Menge an benutzerdefiniertem Code.
• Hoher Arbeitsaufwand und Kosten – Da das System auf einer benutzerdefinierten Code-Basis läuft, ist ein Team von erfahrenen Data Engineers erforderlich, um es aufzubauen und zu pflegen.

Technologietrends hin zur Cloud-Datenintegration
Solch ein hoher Arbeitsaufwand war zu einer Zeit als Rechenleistung, Speicherkapazität und Bandbreite knapp und teuer waren noch vertretbar. Auch das Volumen und die Vielfalt der Daten waren begrenzt. ETL stammt aus einer Zeit mit völlig anderen technologischen Voraussetzungen als heute. Im Zeitalter der Cloud existieren diese Einschränkungen nicht mehr.

Diese Entwicklungen haben ETL in zweierlei Hinsicht überflüssig gemacht. Zunächst hat die kosteneffiziente Verfügbarkeit von Rechenleistung, Speicherkapazität und Bandbreite zu einem explosionsartigen Wachstum der Cloud und Cloud-basierter Dienste geführt. Gleichzeitig haben auch das Volumen, die Vielfalt und die Komplexität der Daten zugenommen. Eine benutzerdefinierte Pipeline, die nur eine begrenzte Datenmenge und -granularität berücksichtigt, reicht nicht mehr aus.

Zweitens unterliegen moderne Datenintegrationstechnologien weniger Beschränkungen hinsichtlich des zu speichernden Datenvolumens und der Häufigkeit der Abfragen innerhalb eines Data Warehouses. Durch die kosteneffiziente Verfügbarkeit von Rechenleistung, Speicherkapazität und Bandbreite lässt sich der Workflow der Datenintegration neu ordnen. Vor allem aber können es sich Unternehmen leisten, Quelldaten im Data Warehouse zu speichern.

ELT – Der moderne Weg zur Datenintegration
Die Möglichkeit, Quelldaten in Data Warehouses zu speichern, erlaubt eine neue Architektur der Datenintegration: Extract-Load-Transform (ELT). Bei ELT verschiebt sich der Schritt "transformieren“ ans Ende der Data Pipeline.Damit wird vermieden, dass mögliche Störfaktoren von ETL (sich ändernde Schemata oder Datenmodelle) das Extrahieren und Laden beeinflussen. Das hat einem einfacheren und robusteren Ansatz für die Datenintegration zur Folge.

Wie bei ETL besteht auch der ELT-Prozess aus fünf Schritten, ist aber weniger aufwendig und flexibler:
1. Gewünschte Datenquellen identifizieren.
2. Automatisiertes Extrahieren und Laden ausführen.
3. Genaue Analyseanforderungen festlegen, die das Projekt lösen soll.
4. Datenmodelle anhand von Transformationen erstellen.
5. Analysen durchführen und Erkenntnisse ziehen.

Unter ELT sind das Extrahieren und Laden von Daten losgelöst von der Transformation und gehen ihr voraus. Obwohl es in der Transformationsebene zu Fehlern kommen kann, wenn sich Schemata oder Datenmodelle ändern, werden Daten weiterhin zuverlässig in die Destination geladen. Unternehmen können weiterhin Daten extrahieren und laden, auch wenn die Transformationen regelmäßig von Analysten neu geschrieben werden. Die Quelldaten aus diversen Anwendungen in verschiedenen Formaten und Datenstrukturen werden originalgetreu in einem Data Warehouse repliziert und damit zur „Single Source of Truth". Analysten können die Daten in ein einheitliches Schema transformieren, ohne die Integrität der gespeicherten Daten zu beeinträchtigen.

Vorteile automatisierter Datenintegration
Automatisierte ELT verwenden vorgefertigte sofort einsatzbereite Datenkonnektoren, die Schema- und API-Änderungen automatisch erkennen und replizieren sowie Daten bereinigen und normalisieren. Mit einem ELT-Ansatz können Unternehmen ihren Datenintegrations-Prozess erheblich erleichtern. Anstatt sich um den Aufbau und die Pflege der Data Pipelines zu kümmern, können sich Data Engineers auf geschäftsrelevante Projekte konzentrieren, wie die Optimierung der Dateninfrastruktur oder die Umsetzung von Vorhersagemodellen.

Fivetran bietet ein vollautomatisches, vollständig verwaltetes Datenintegrationstool, das den technischen Aufwand reduziert. Mit vorkonfigurierten Konnektoren werden Daten von der Quelle bis zum Ziel verwaltet und automatisch in normalisierten, analysebereiten Schemata an das Data Warehouse geliefert. Das macht den Zugriff auf Daten so zuverlässig und selbstverständlich, wie Strom aus der Steckdose und bietet Analysten ein hohes Maß an Flexibilität. (Fivetran: ra)

eingetragen: 10.06.21
Newsletterlauf: 31.08.21

Fivetran: Kontakt und Steckbrief

Fivetran ist der führende Anbieter für automatisierte Datenintegration. Das Unternehmen bietet eine vollautomatisierte, vollständig verwaltete Datenintegrationslösung, die in wenigen Minuten eingerichtet ist. Durch vorkonfigurierte Konnektoren werden Daten automatisiert in normalisierten, analysebereiten Schemata an das Datawarehouse geliefert, auch dann, wenn sich Schemata oder APIs ändern.

Mit der zunehmenden Verlagerung in die Cloud sind SaaS-Anwendungen eine der wichtigsten Quellen für Geschäftsdaten und decken eine Vielzahl von betrieblichen Vorgängen ab. Sie bieten ausgefeilte Dienste und Funktionen und machen die manuelle Ausführung von Aufgaben mit hohem Arbeitsaufwand deutlich einfacher oder sogar überflüssig. Unternehmen nutzen heute im Schnitt mehr als 100 SaaS-Anwendungen, die alle ständig neue Daten produzieren. Eine manuelle Datenintegration in diesem Umfang ist extrem zeitaufwändig und wartungsintensiv. Für einen zuverlässigen Zugriff auf stets aktuelle Daten eignet sich daher eine automatisierte Datenintegration.

Fivetran automatisiert die Zentralisierung von Daten aus über 150 verschiedenen Quellen in allen führenden Cloud-Datenspeichern. Das garantiert einen einfachen und zuverlässigen Zugriff auf Daten unter anderem aus SaaS-Anwendungen. Mit den vordefinierten Konnektoren lassen sich die Betriebsdaten aus den verschiedenen Unternehmensbereichen, wie Marketing, Zahlungsabwicklung, Kundenpflege, E-Commerce, technisches Projektmanagement und vieles mehr, innerhalb weniger Minuten und ohne Konfigurationsaufwand zentralisieren. Anstatt sich mit der Erfassung, Verwaltung und Bereitstellung der Daten zu beschäftigen, bleibt Unternehmen mehr Zeit sich auf die Datenanalyse zu konzentrieren. Die automatisierte Datenintegration hilft Unternehmen, ihre Daten vollumfänglich zu nutzen, um strategische Entscheidungen zu beschleunigen und zu verbessern.

Kontaktdaten
Fivetran
Luise-Ullrich-Straße 20
80636 München, Deutschland
E-Mail: hallo[at]fivetran.com
Webseite: https://fivetran.com/de-de

Dieses Boilerplate ist eine Anzeige der Firma Fivetran.
Sie zeichnet auch für den Inhalt verantwortlich.

Lesen Sie mehr:
Mit Cloud-Architektur zum "Master of Data"
Vorteile automatisierter Datenintegration
Schwierigkeiten bei der Bereitstellung der Daten


- Anzeigen -





Kostenloser Compliance-Newsletter
Ihr Compliance-Magazin.de-Newsletter hier >>>>>>



Meldungen: Grundlagen

  • Die richtigen Migrationsmethoden wählen

    Migrationen sind eine wenig beliebte Aufgabe vieler IT-Abteilungen. Wenn schon nicht alltäglich, so sind Migrationen doch eine regelmäßige Pflichtaufgabe, für die es zahlreiche Gründe gibt. Das Verschieben von Daten wird von der Führungsetage vieler Unternehmen oft nur als eine simple Fleißaufgabe wahrgenommen, bei der Ordner und Dateien per "Copy and Paste" wie im Windows Explorer einfach von A nach B verschoben werden. Man unterschätzt die notwendige Erfahrung, das spezielle Fachwissen und den Bedarf an Tools, um eine Migration erfolgreich umzusetzen. In der Realität wächst der Unternehmens-IT so manches Umzugsprojekt, das zunächst einfach aussah, schnell über den Kopf.

  • Auf Microservices setzen

    Die unternehmensinterne IT-Infrastruktur gereicht manchmal zum Mysterium: Sehr große Cloud Computing-Systeme, eine wachsende Anzahl an Microservices und zusätzlich bringt Homeoffice dutzende neue Schnittstellen, die es zu sichern gilt. Kurzum: Das alles zeigt, dass es bei Software-as-a-Service (SaaS)-Anbietern ein Umdenken braucht, wie sie ihren Kunden die zuverlässigsten und sichersten Cloud-Infrastrukturen zur Verfügung stellen. Unternehmen müssen daher einen neuen Standard bei sich anlegen, um die Erwartungen ihrer Kunden erfüllen zu können, denn nur zuverlässige Systeme ermöglichen eine erfolgreiche Service-Bereitstellung. Im Umkehrschluss bedeutet das allerdings, dass Entwickler noch mehr leisten.

  • Zwischen Utopie und Realität: Die dynamische Cloud

    Die Auswahl an Produkten, Funktionalitäten und Preisstaffelungen verschiedener Cloud-Plattformen ist vielfältig. Unternehmen können aus den Angeboten von Hyperscalern sowie zahlreicher mittelständischer Anbieter, die über spezifische Cloud-Portfolios inklusive Bare Metal und Dedicated Compute verfügen, wählen. In der Regel nutzen Organisationen mehr oder weniger flexible hybride Cloud Computing-Infrastrukturen, indem sie die Public Clouds der Hyperscaler mit ihrer eigenen Infrastruktur verbinden. Innerhalb einer Hybrid Cloud wünschen sich Kunden vor allem ein hohes Maß an Flexibilität, inklusive der Möglichkeit, einzelne Bestandteile der Cloud-Infrastruktur mühelos auf andere Anbieter übertragen zu können. Eine dynamische Cloud ist im Prinzip eine Multi-Cloud-Umgebung, in der sich Workloads und Daten zwischen den einzelnen Clouds verschieben lassen. Dies kann die jeweils effektivste Mischung und Skalierung ermöglichen, indem freie Instanzen in einem Umfeld von Multi-Cloud-Providern identifiziert und genutzt werden.

  • Datenzentrierte Sicherheit in der Multi-Cloud

    Datenzentrierung ist ein Faktor, der maßgeblich die Cloud- und IT-Security-Strategie in Unternehmen mitbestimmt. Je nach regulatorischen Vorgaben werden diverse Datenprozesse in geeigneter Weise abgesichert. Mit der wachsenden Cloud-Nutzung in den vergangenen Jahren entstehen in Unternehmen auch mehr und mehr Multi-Cloud-Umgebungen. Für diese spricht vor allem der Vorteil hoher Effizienz: Prozesse können zu den jeweils geringsten Kosten zu den am besten geeigneten Anbietern ausgelagert werden. Weitere Nebeneffekte für Unternehmen sind eine höhere Ausfallsicherheit, Skalierbarkeit und Stabilität der IT-Prozesse. Eigenschaften, die vor allem für den Remote-Betrieb in jüngster Vergangenheit überaus gefragt waren.

  • Das Datengedächtnis des Unternehmens sichern

    Sie besitzen sicherlich seit Jahren oder Jahrzehnten eine beachtliche Anzahl an Versicherungen. Doch spätestens bei der Durchsicht der eigenen Unterlagen zum Jahresabschluss beschleicht Sie in Anbetracht der vielen Abschlüsse und deren Kosten der Gedanke, warum Sie eigentlich diese Versicherungen Jahr für Jahr bezahlen, ohne sie ein einziges Mal in Anspruch genommen zu haben. Sie fackeln nicht lange und kündigen einige davon, unter anderem die Hausratversicherung. Doch kurz darauf ruiniert eine Rohrverstopfung mit Folgewasserschaden die Elektrik Ihrer sündhaft teuren Heimkinoanlage, den Edelteppich und die eben erst neu beschaffte Wohnzimmereinrichtung gleich mit dazu. Für den Schaden will niemand haften. Sie bleiben darauf und auf den hohen Folgekosten sitzen. Übertragen auf die Unternehmenspraxis wird sofort klar, warum eine klare Backup- und Recovery-Strategie zusammen mit einer zuverlässigen Backup-Lösung großen Ärger, lange Betriebsausfälle und hohe Umsatzverluste ersparen kann. Daher sollen im Folgenden drei Aspekte der Notwendigkeit einer funktionierenden Datensicherung und Datenwiederherstellung beleuchtet werden.

  • Kompromittierungsversuche von Cybersicherheit

    Cloud-Sicherheit war bis vor nicht allzu langer Zeit für die meisten Unternehmen zweitrangig. Das hat sich längst geändert, denn auf der Suche nach dem nächsten Ziel machen Cyberkriminelle sich bevorzugt Schwachstellen und Sicherheitslücken bei Cloud Computing-Diensten zunutze. Unternehmen können mit virtuellen privaten Netzwerken und Antivirensystemen zwar eine Menge tun, um Systeme sicherer zu machen. Einer der kritischsten und gerne übersehenen Aspekte ist allerdings nicht computerbezogen. Tatsächlich gehen 95 Prozent der Cyber-Sicherheitsverletzungen auf menschliches Versagen zurück. Dazu kommt, dass sich die meisten Cyberangriffe, auf kleinere Unternehmen konzentrieren, die sich im Gegensatz zu Großunternehmen keine teuren Sicherheitsteams leisten können. Für diese Firmen ist es nicht ganz leicht eventuelle Schwachstellen aufzufinden. Hier konzentrieren wir uns auf die Top 3 der Sicherheitsbedrohungen und was man dagegen tun kann.

  • SD-WAN bringt Stabilität ins Unternehmensnetzwerk

    Geringere Betriebskosten, effiziente Bandbreitennutzung, verbesserte User-Experience - Marktforscher attestieren dem Software-Defined Wide Area Network (SD-WAN) eine goldene Zukunft im Unternehmens-Backbone. Tatsächlich aber steht und fällt der Erfolg von SD-WAN mitdem Management von Netzwerkdiensten wie DNS, DHCP und IP-Adressverwaltung (DDI) in der Cloud. SD-WAN steht bei Netzwerkadministratoren derzeit hoch im Kurs.Gefragt sind entsprechende Technologien vor allem im Zusammenhang mit Migrationen in die Multi- beziehungsweise Hybrid-Cloud oder der Umsetzung von Software-as-a-Service (SaaS)-Strategien. Der Grund: Ein Umstieg in die Welt der dezentralen Datenverarbeitung bringt klassische Netzwerkinfrastrukturen - und deren Nutzer - rasch an die Belastungsgrenze. Hier wirken sich technische Herausforderungen wie hohe Latenzen oder Bandbreitenengpässe, etwa beim Einsatz ressourcenhungriger Anwendungspakete wie Microsoft Office 365, besonders negativ aus. Hinzu kommt, dass mit der IT aus der Wolke Netzwerk- und Security-Architekturen mehr und mehr zusammenwachsen. Anders ausgedrückt: Mit Cloud-First-Strategien wird die Administration traditioneller Netzwerke schnell zur Sisyphusarbeit.

  • DevOps werden zunehmend datengetrieben

    DevOps haben sich in der Software-Entwicklung in den vergangenen Jahren immer weiter durchgesetzt. Die effizientere und effektivere Zusammenarbeit von Entwicklung und IT-Betrieb bringt allen Beteiligten zahlreiche Vorteile: So steigt nicht nur die Qualität der Software, sondern auch die Geschwindigkeit, mit der neue Lösungen entwickelt und ausgeliefert werden. In 2019 haben wir gesehen, dass Automatisierung, künstliche Intelligenz und AIOps immer häufiger eingesetzt und von der DevOps-Gemeinschaft erforscht werden. Container und Functions as a Service nahmen weiter zu, so dass Entwickler und Betriebsteams ihre Anwendungen und Infrastruktur besser kontrollieren konnten, ohne die Geschwindigkeit zu beeinträchtigen. Doch wohin geht die Reise jetzt?

  • Cloud Computing-Daten schützen

    Mit wachsenden digitalen Geschäftsanforderungen investieren Unternehmen massiv in die Erweiterung ihrer Netzwerkverbindungsfähigkeiten, um sicherzustellen, dass ihre Daten den richtigen Personen zur richtigen Zeit zur Verfügung stehen. Insbesondere für Cloud-basierte, hochgradig vernetzte und agile Geschäftsmodelle ist die Gewährleistung eines ordnungsgemäßen Zugriffs auf Daten und Systeme unerlässlich. Zusammen mit der Konnektivität in immer komplexeren Infrastrukturen wachsen auch die Anforderungen an Netzwerk- und Datensicherheit. Wenn nicht die richtigen Schutzvorkehrungen getroffen werden, können Bedrohungen, die von Datenlecks und Fehlkonfigurationen bis hin zu Risiken durch Insider reichen, in jedem komplexen Cloud- und Netzwerkökosystem ihr Schadenspotenzial entfalten.

  • Durchsetzung von Cloud-Sicherheitsrichtlinien

    Cloud Computing-Services bieten Unternehmen heute eine kostengünstige und flexible Alternative zu teurer, lokal implementierter Hardware. Vorteile wie hohe Skalierbarkeit, Leistung und Effizienz sowie reduzierte Kosten liegen auf der Hand, sodass immer mehr Unternehmen ihre Anwendungen und Daten in die Cloud migrieren. Sensible Daten wie personenbezogene Informationen, Geschäftsgeheimnisse oder geistiges Eigentum sind jedoch neuen Risiken ausgesetzt. Denn in der Cloud gespeicherte Daten liegen außerhalb der Reichweite vieler lokaler Sicherheitsvorkehrungen. Unternehmen müssen deshalb zusätzliche Maßnahmen ergreifen, um ihre Daten in der Cloud, über den teils rudimentären Schutz der Anbieter hinaus, gegen Cyberangriffe und Datenlecks abzusichern. Allgemein sind Public-Cloud-Provider für die physische Sicherheit, globale und regionale Konnektivität sowie die Stromversorgung und Kühlung ihrer eigenen Rechenzentren zuständig. Dies ermöglicht Unternehmen eine flexible Skalierbarkeit und entlastet sie davon, eine eigene Infrastruktur wie ein Rechenzentrum oder Server-Hardware bereitzustellen. Zugleich liegt es in der Verantwortung der Unternehmen, all ihre in die Cloud migrierten Daten und Anwendung selbst auf gewünschte Weise zu schützen.