Daten

Was ist ein Data Lake?

Aleksandar Basara 2 Minuten lesen
Was ist ein Data Lake?
Foto von Hunter Harritt / Unsplash
Inhaltsübersicht

Ein Data Lake ist ein zentralisiertes Repository, das alle Ihre strukturierten und unstrukturierten Daten in beliebigem Umfang speichern kann. Sie können Ihre Daten speichern, ohne sie vorher zu strukturieren, und dann verschiedene Arten von Analysen durchführen - von Dashboards und Visualisierungen bis hin zu Big Data-Verarbeitung, Echtzeitanalysen und maschinellem Lernen -, um bessere Entscheidungen zu treffen.

Dies mag auf den ersten Blick recht unpraktisch erscheinen, da eine große Sammlung von zufälligen, unsortierten Daten im Grunde bedeutungslos ist. Es stimmt zwar, dass die Daten nicht hierarchisch organisiert sind, aber sie sind dennoch einfach abrufbar.

Data Lakes nutzen eine objektbasierte Speicherung, bei der jedes Datenelement mit Metadaten und einem Bezeichner versehen wird, um es "einzigartig" zu machen. Diese Metadaten enthalten wichtige Informationen über jedes Datenelement, z. B. seinen Zweck und seine Verwendung, und unterscheiden es von allen anderen Informationen im gleichen Datenpool.

Dadurch wird eine herkömmliche hierarchische Struktur überflüssig, da es unmöglich wird, zwei Datenbits zu verwechseln, da jedes seine eigenen Metadaten und seine eigene Identifizierung hat, die als "Fingerabdruck" dienen. Folglich können Data Lakes sowohl strukturierte als auch unstrukturierte Daten an einem einzigen Ort speichern, was sie zu einer guten Option für eine Vielzahl von Technologie-Stacks macht.

Data Lake vs. Data Warehouse

Data Warehouses sind das genaue Gegenteil von Data Lakes. Die Daten werden hierarchisch mit relationaler Logik sortiert, genau wie in einem echten Lager. Betrachten Sie Data Warehouses als die Standardstruktur für Ordner/Unterordner/Dateien.

Jede Information wird "sauber" gespeichert, da sie während der Speicherung verarbeitet und mit einer bestimmten, vordefinierten Verwendung verknüpft wird, so dass sie abgefragt werden kann. Das Ergebnis ist, dass die gespeicherten Daten eine hervorragende Leistung erbringen. Jedes Element hat einen vorbestimmten Ort und eine vorbestimmte Verwendung, so dass es für den Endbenutzer einfach ist, die Informationen abzurufen, unabhängig von der Größe des Lagers.

Diese Form der Organisation ist für die operative Analyse und die Transaktionsverarbeitung nützlich, weshalb Data Warehouses in den meisten traditionellen Unternehmen eingesetzt werden.

Auch wenn es vorteilhaft erscheinen mag, Daten hierarchisch zu speichern, haben Data Warehouses erhebliche Einschränkungen:

  • Mangelnde Skalierbarkeit - Data Warehouses liefern zwar fehlerfreie Daten, die sofort abgefragt werden können, aber das unflexible Schema erschwert die Skalierung von Data Warehouses erheblich.
  • Ressourcenintensiv - Data Warehouses verarbeiten die Daten bei der Eingabe, was eine erhebliche Menge an Rechenleistung erfordert. Je größer das Warehouse wird, desto mehr Ressourcen werden benötigt. Dies steht im Gegensatz zu Data Lakes, die Daten nur auf Anfrage verarbeiten, so dass Sie Ressourcen sparen können, wenn die Datenbits nicht ausreichend genutzt werden.
  • Geringere Vielseitigkeit - Im Gegensatz zu Data Lakes, in denen Informationen aus sozialen Medien, IoT-Geräten, Websites und mobilen Apps an einem einzigen Ort gespeichert werden können, müssen Data Warehouses für bestimmte geplante Verwendungszwecke erstellt werden, wodurch sie deutlich weniger vielseitig sind.

Unterm Strich

Wie Sie sehen können, sind Data Lakes und Data Warehouses zwei einzigartige Ansätze zur Maximierung des Werts von Big Data. Beide haben Vorteile - kurz gesagt, Data Warehouses bieten eine klassische, bewährte, aber teure Methode zur Organisation von Daten, während Data Lakes flexibler und kostengünstiger sind, aber ein tieferes Verständnis moderner Technologien erfordern.

Teilen Sie
Mehr von Aleks Basara - Berater für Headless CMS und Headless Commerce

Sehr gut! Sie haben sich erfolgreich angemeldet.

Willkommen zurück! Sie haben sich erfolgreich angemeldet.

Sie haben sich erfolgreich bei Aleks Basara - Berater für Headless CMS und Headless Commerce angemeldet.

Erfolgreich! Prüfen Sie Ihre E-Mail auf einen magischen Link zur Anmeldung.

Erfolgreich! Ihre Rechnungsdaten wurden aktualisiert.

Ihre Rechnung wurde nicht aktualisiert.