Im Herbst 2020 durften wir Lasse Petersen als Werkstudent und Masterrand bei uns im linkFISH-Team begrüßen. Seine Masterarbeit, die er in den letzten Monaten in Kooperation mit linkFISH geschrieben hat, befasst sich mit allerlei Fragestellungen rund um das Thema der richtigen BI Architektur. Nach erfolgreichem Abschluss des Studiums „Wirtschaftsingenieurwesen“ mit der Vertiefung „IT-Management“ an der FH Wedel konnten wir Lasse vor kurzem zu seinem bestandenen Studium gratulieren. Ich habe Lasse zu einem Interview getroffen.

Stephanie: Hallo Lasse, zunächst noch einmal ganz herzlichen Glückwunsch zum bestandenen Master-Studium und schön, dass Du uns jetzt auch nach Deiner Werkstudentenzeit hier bei linkFISH erhalten bleibst – jetzt aber als Berater.

Lasse: Vielen Dank! Ich freue mich jetzt so richtig bei linkFISH Consulting als Berater durchzustarten.

Stephanie: Mit welchem Thema hast Du Dich genau in Deiner Masterarbeit auseinandergesetzt?

Lasse: In meiner Master-Thesis ging es um Hybride Datenarchitekturen, also der Verbindung aus Data Lake und Data Warehouse.

Stephanie: Welche Forschungsfragen hast Du dabei untersucht?

Lasse: Insgesamt habe ich mich mit drei Forschungsfragen befasst:

  1. Welche technischen Systeme werden in Data Lakes eingesetzt?
  2. Welche Architekturen gibt es?
  3. Wann nutzt man welche Architektur?

Stephanie: Welche Methoden hast du dafür in Deiner Masterarbeit angewendet?

Lasse: Für die theoretischen Grundlagen habe ich eine Literatur-Recherche durchgeführt. Des Weiteren habe ich, um die fachliche Relevanz bei einem so aktuellen und praktischen Thema zu gewährleisten, Experten-Interviews mit BI- und Data-Analytics-Experten durchgeführt.

Stephanie: Welche Erkenntnisse hast Du zu den technischen Systemen erhalten?

Lasse: Erstmal, dass es eine große Vielzahl gibt! Generell kann man sie aber in fünf verschiedene Kategorien unterteilen: Ingestion (Daten sammeln), Storage (Datenspeicherung), Access and Processing (Datenverarbeitung), Visualization und Operations (Verwendung und Fehleranalyse).

Ein gutes Beispiel für ein Ingestion-Tool wäre Apache Kafka. Eine Streaming-Plattform, die es erlaubt große und volatile Datenmengen in den Data Lake einzuspeisen. Für Storage Lösungen, werden gerne Open Source Plattformen wie das Apache Hadoop-Ökosystem genutzt, allerdings geht der Trend wohl eher zu Anbietern wie Amazon Web Services oder MS Azure. Für das Thema Access and Processing gibt es unzählige Tools, je nachdem was man nun mit den Daten, die man gespeichert hat, anfangen möchte. Eine häufig gesehene Plattform wäre dort Apache Spark aufgrund der plattformeigenen Vielseitigkeit. Zur Visualisierung der Daten kann man die üblichen Tools nutzen wie zum Beispiel BOARD, Power BI, Qlik oder Tableau. Ein wichtiger Punkt, der gerne übersehen wird, sind operationale Tools, die zum Beispiel das Meta-Daten Management im Data Lake ermöglichen. Wobei an dieser Stelle auch der generelle Umgang mit Daten im Unternehmen einen großen Einfluss hat.

Stephanie: Und was hast Du zu den Architekturen herausfinden können?

Lasse: Es gibt ein paar relevante Architekturen, die am häufigsten genutzt werden. Manche nutzen einen Data Lake nur als günstige Speicheralternative zum Archivieren von Daten, ohne neue Datenquellen anzubinden, das wäre dann das Data Warehouse-Offloading.

Möchte man allerdings, semi- oder unstrukturierte Datenquellen auswerten, so empfiehlt sich eine parallele oder eine sequenzielle Architektur. Erwähnenswert wäre auch noch die Erweiterung um eine Datenvirtualisierungs-Schicht zwischen der Storage- (DWH oder Data Lake) und der Visualisierungsschicht sowie eine Erweiterung um (Near-)Real-Time-Analytics.

Stephanie: Du sagtest, Du hast in Deiner Arbeit Erkenntnisse sowohl aus der Literatur als auch aus der Praxis miteingebzogen. Haben sich denn hier Theorie und Praxis gedeckt oder gab es da große Diskrepanzen?

Lasse: Tatsächlich gab es einige Punkte, in denen sich Literatur und Praxis nicht ganz einig waren, aber aufgrund der hohen praktischen Relevanz des Themas habe ich den Experteninterviews eine höhere Gewichtung in meiner Auswertung gegeben. Denn das ist es, was schließlich wirklich angewendet wird. Ein theoretisch schön anzusehender „Elfenbeinturm“ hilft dann da nicht weiter.

Stephanie: Wenn Du es in wenigen Sätzen beschreiben müsstest: Was würdest Du sagen, ist die Kern-Erkenntnis aus Deiner Arbeit?

Lasse: Definitiv die Antwort auf die dritte Forschungsfrage: Die Architektur sollte den Geschäftsanforderungen des Business folgen. Zudem sollte man sich als Daten-Architekt Gedanken über die bestehende Architektur machen und immer die Kosten gegenüber dem Nutzen stellen. Große Veränderung mag großen Nutzen haben, aber ist meist auch mit großem Aufwand und Budget verbunden.

Stephanie: Das klingt wirklich sehr spannend! Danke für den kurzen, aber informativen Einblick in Deine Forschungsarbeit.

Lasse: Ich danke für das Interview!

 

Ist Ihr Interesse geweckt? Wenn Sie mehr über das Thema wissen möchten, sprechen Sie uns einfach an.

 

© shironosov – istockphoto.com 499785795

Stephanie Maas - Beraterin