- News
- Data Vault – die revolutionäre Data Warehouse Modellierung?
Data Vault – die revolutionäre Data Warehouse Modellierung?
Heute wird es technisch, dafür beleuchten wir allerdings eine sehr spannende neue Entwicklung. Seit der ersten Stunde des „Data Warehouses“ (DWH) gibt es immer wieder Versuche allgemeingültige Konzepte für Datenladeprozesse und Datenmodelle zu entwickeln. Als Modellierungsart für multidimensionale Daten hat sich das Sternschema profiliert, welches bewusst auf redundante Datenhaltung setzt. Diese Modellierungsart ist optimiert für die flexible und performante Abfrage der Daten.
In den letzten Jahren hat sich mit „Data Vault“ eine neue Modellierungstechnik für DWHs etabliert, die insbesondere für agile DWHs geeignet ist. Eine neue Modellierungstechnik, die sich insbesondere für agile DWHs eignet. Sie bietet eine hohe Flexibilität bei Erweiterungen, eine vollständige Historisierung der Daten und erlaubt eine starke Parallelisierung der Datenladeprozesse.
Entwickelt wurde die Data Vault Modellierung seit 1990 von Daniel Linstedt, wobei erst im Jahr 2000 die erste Veröffentlichung erschien.
Sie ist im Grunde genommen eine Kombination aus der relationalen Datenbankmodellierung mit der dritten Normalform (3NF) und dem Sternschema. Bei der Modellierung werden alle zu einem Objekt gehörenden Informationen in drei Kategorien eingeteilt und strikt voneinander getrennt.
Sie benötigen Unterstützung beim Aufbau Ihres Datawarehouses?
In die erste Kategorie „Hub“ gehören Informationen, die ein Objekt eindeutig beschreiben, d.h. seine Identität gibt (z.B. Kundennummer beim Kunden). Attribute, die ein Objekt beschreiben (z.B. Kundenname) gehören in die zweite Kategorie „Satellit“. Die dritte Kategorie „Link“ beschreiben Beziehungen zwischen Objekten (z.B. Zuordnung eines Kunden zu einer Branche).
Durch diese Art der Modellierung sind Änderungen flexibel möglich, so dass i.d.R. keine bestehenden Tabellen angepasst werden müssen, sondern einfach neue Tabellen (z.B. neue Attribute als Satellit) hinzugefügt. Durch die starke Schematisierung der Datenladeprozesse können ETL Templates verwendet werden, so dass im besten Fall eine Änderung bzw. Erweiterung des Datenladeprozesses nur durch Anpassung der Konfiguration möglich ist.
Mit dem „PDI Data Vault framework“ ist es z.B. sehr einfach möglich ein Data Vault auf Basis von Metadaten vollautomatisch aufzubauen. Dabei setzt das Framework komplett auf das Open Source ETL Tool „Pentaho Data Integration“ (Kettle) auf, welches wir bereits bei vielen Kundenprojekten schätzen gelernt haben und erfolgreich einsetzen.
Uns hat die Data Vault Modellierung bereits überzeugt und ist der neue Standard beim Aufbau von großen DWHs! Wie sieht Ihre Erfahrung mit dieser Modellierung aus? Ich bin gespannt auf Ihre Einschätzung.
Über linkFISH: Wir sind eine spezialisierte Management- und IT-Beratung zur Durchführung von Controlling-, Business Intelligence- und Datawarehouse-Projekten. Wir unterstützen Sie bei Aufbau und Optimierung Ihrer kaufmännischen Abteilungen, Prozesse und Systeme. Ziel hierbei ist, für Sie schnelle und effiziente Entscheidungsprozesse zu schaffen und die Performance Ihres Unternehmens zu steigern.
Sie finden diesen Beitrag interessant? Dann leiten Sie ihn doch an Ihr Netzwerk weiter.