Lexikon

Data Warehouse

Was ist Data Warehouse?

Bei einem Data Warehouse (zu deutsch „Datenlager“) handelt es sich um eine Datenbank, die speziell für Analysen optimiert ist. Sie führt Daten aus verschiedenen Quellen und mit unterschiedlichen Strukturen zusammen. Somit wird eine globale Sicht auf Informationen erreicht.

Inhaltsverzeichnis

  1. Wie funktioniert ein Data Warehouse?
  2. Data Warehouse vs. Data Lake
  3. Was versteht man unter ETL-Prozess?
  4. Was versteht man unter Business Intelligence?
  5. Wie werden Data Warehouses genutzt?

Wie funktioniert ein Data Warehouse?

Die Speicherung und Zusammenführung von Daten in einem zentralen Data Warehouse (DWH) folgt einem Prozess mit mehreren Schritten. Dieser wird auch Data Warehousing genannt und stellt sich wie folgt dar:

SchrittBeschreibung
1. Datenbeschaffung und -integrationDaten aus Quellen extrahieren, transformieren und in das Data Warehouse laden
2. DatenhaltungLangfristige Speicherung der Daten im Data Warehouse
3. DatenauswertungAnalyse der Daten
4. Daten-
bereitstellung
Datenhaltung für benötigte separate Datenbestände (Data Marts) zu speziellen Analysezwecken

Data Warehouse vs. Data Lake

Nicht zu verwechseln ist ein Data Warehouse mit einem Data Lake. Letzterer ist lediglich für die Aufnahme großer Mengen an Rohdaten (Big Data) zuständig, während die Informationen in einem Data Warehouse bereits mittels Data Mining aufbereitet sind.

Was versteht man unter ETL-Prozess?

Der ETL-Prozess ist dafür zuständig, Daten aus verschiedenen Quellen in Data Warehouses zu integrieren. Eingesetzt wird er insbesondere in Szenarien mit großen Datenmengen, wie sie z. B. im Big-Data- und im Business-Intelligence-Bereich vorkommen. ETL ist die Abkürzung für folgende Schritte:

  • Extract: Extraktion der Daten aus Quellsystemen (z. B. aus operativen Systemen wie ERP oder externen Quellen)
  • Transform: Umwandlung der Dateninhalte und -strukturen in das Schema und Format der Zieldatenbank
  • Load: Laden der umgewandelten Daten in das Data Warehouse (oder ein anderes System)

Die Beladung erfolgte in der Vergangenheit aus Ressourcengründen oftmals turnusmäßig (z. B. monatlich). In jüngerer Vergangenheit geht der Trend jedoch klar in Richtung einer Echtzeitbeladung. Die Rede ist hierbei auch von Real-time Data Warehousing.

Was versteht man unter Business Intelligence?

Nicht zu verwechseln ist der Begriff Data Warehouse mit Business Intelligence (BI). Ein Data Warehouse nimmt Daten auf, lagert sie und stellt sie für Auswertungen bereit. BI-Software kann hingegen auf die Datenbestände in einem Data Warehouse (oder einzelne Data Marts aus dem DWH) zugreifen, um sie zu analysieren.

Wie werden Data Warehouses genutzt?

Data Warehousing bietet mehrere Anwendungsmöglichkeiten für Unternehmen. Im Wesentlichen sind die folgenden zu nennen:

  • Schnelle und flexible Bereitstellung von Daten für Statistiken, Reports und Kennzahlen
  • Ermittlung von Zusammenhängen und Mustern in Daten durch Data Mining oder Online Analytical Processing
  • Schaffung von Transparenz zu betriebswirtschaftlichen Fragestellungen
  • Bereitstellung umfangreicher Informationen zu Geschäftsobjekten
  • Nutzung von Daten aus der Produktion im Rahmen von Industrie 4.0

Autor dieses Artikels ist Ertan Özdil, CEO, Gründer und Gesellschafter des Cloud ERP-Anbieters weclapp.

Bitte beachten Sie die rechtlichen Hinweise zu diesem Artikel.