Add Thesis

Data Warehouse- und Data Lake-Systeme im Kontext von Big Data

Written by Anonymous

Paper category

Bachelor Thesis

Subject

Computer Science

Year

2018

Abstract

Bachelorarbeit: Klassisches Data Warehouse-System Dieses Kapitel stellt das klassische Data Warehouse vor. Zweck dieser Systeme ist die Aufbereitung von Unternehmensdaten, die über einen längeren Zeitraum gespeichert und den Mitarbeitern zur Auswertung und Analyse zur Verfügung gestellt werden. Abschnitt 2.1 beschreibt die verschiedenen Anwendungsbereiche des Data Warehouse Systems. Anschließend wird in Abschnitt 2.2 die Referenzarchitektur des Data Warehouse erläutert. Im nächsten Abschnitt 2.3 werden die Optionen zum Importieren und Bereinigen von Daten erläutert. Der ETL-Prozess wird ausführlicher besprochen. Abschnitt 2.4 erläutert die verschiedenen Optionen, die im Data Warehouse gespeichert sind. Auch die interne Verwaltung der Daten im Data Warehouse wird besprochen. Im letzten Abschnitt 2.5 werden die Komponenten gezeigt, die es dem Benutzer ermöglichen, die Daten zu verarbeiten und die Möglichkeiten der visuellen Transformation der Daten. 2.1 Das Unternehmen verwendet ein Data Warehouse, um Informationen aus gespeicherten Daten zu gewinnen. Die Daten stammen aus dem Betriebsbereich und sollen ausgewertet und visualisiert werden. Unternehmen können Data Warehouses aus verschiedenen Gründen nutzen. Sie kann aus Wettbewerbsgründen oder aufgrund bestimmter Regelungen geschaffen werden (vgl. Bauer und Günzel, 2013, S. 14). In der Wirtschaft gibt es viele mögliche Anwendungsgebiete. Sie reichen von Unternehmensführungsaufgaben bis hin zu wissenschaftlichen Evaluationen. Die Daten im Data Warehouse sollen zudem das unternehmensweite Vertrauen garantieren, auf das sich die Nutzer verlassen können. Diese Quelle sollte die einzige Quelle sein, auf die sich Nutzer beim Sammeln von Informationen im Unternehmen beziehen (Single Source of Truth) (vgl. Pangund Szafron, 2014, S. 575). Da das Data Warehouse neben internen Datenquellen auch externe Daten beinhaltet, liefert es ein gutes Gesamtbild des Unternehmens (vgl. Gabriel et al., 2008, S. 124). Data-Warehouse-Systeme können verwendet werden, um Konsumgüter zu identifizieren. Durch die Erhebung von Daten können Rückschlüsse auf das Kaufverhalten der Verbraucher gezogen werden. Diese Ergebnisse sollen dem Unternehmen helfen, die richtige Entscheidung zu treffen. Sie können beispielsweise entscheiden, welche Produkte weiterhin angeboten werden sollen. Die Ergebnisse geben Auskunft über Kundendaten und bringen diese in einen sinnvollen Kontext. Auch Informationen zu Alter, Geschlecht, Wohnort und Energieverbrauch lassen sich auf diese Weise ermitteln. Data Warehouse Systeme werden heute in vielen Branchen eingesetzt und sind für viele Unternehmen unersetzlich geworden. 2.2 Es gibt mehrere Möglichkeiten, das Data Warehouse in die Praxis umzusetzen. Daher zeigt die Referenzarchitektur nur die grundlegenden Bausteine, die im Data Warehouse verfügbar sein sollten. Daher können diese Grundbausteine ​​erweitert und weiterentwickelt werden. Generell werden alle Daten im Core Data Warehouse gespeichert. Theoretisch kann auch der Zwischenspeicherbereich eingelagert werden. Auf diese Weise können Sie bei einem Fehler, der im Core Data Warehouse nicht mehr vorhanden ist, weiterhin auf die Daten zugreifen. Dies führt jedoch zu einem erhöhten Speicherbedarf und einem erhöhten Verwaltungsaufwand (vgl. Gabriel et al., 2008, S. 132). Die folgende Abbildung zeigt die Referenzarchitektur mit allen relevanten Komponenten. Abbildung 2.1 stellt die drei Eckpfeiler der Architektur dar. Daten werden zunächst aus internen oder externen Quellen extrahiert. Starten Sie dann die Datenerfassung. Daten werden erfasst, bereinigt und konvertiert Nachdem alle Daten erfasst wurden, werden sie im Core Data Warehouse gespeichert und im letzten Schritt werden die verarbeiteten Daten an ein externes Programm oder Data Mart weitergeleitet. 2.3 Die für die Verarbeitung erforderlichen Daten stammen aus verschiedenen Quellen. Daher sind sie meist heterogen und müssen für die Weiterverarbeitung bereinigt werden. Daten können auch aus externen Quellen stammen, wie z. B. Anwendungen von externen Dienstleistern, Social Media, Cloud oder Online-Diensten (vgl. Kemper et al., 2010, S. 28). Wenn die Daten aus einer internen Quelle stammen, kommen sie aus Enterprise, wie einem Ressourcenplanungssystem (ERP) oder Excel, und werden in verschiedenen Formaten, wie CSV oder Textdokumenten, bereitgestellt. Wichtig ist, dass die Daten zur Befüllung des Data-Warehouse-Systems aus einem großen Informationspool stammen, da dies eine Analyse der über einen längeren Zeitraum gesammelten Daten ermöglicht (vgl. Gabriel et al., 2009, S. 49). Unternehmen sollte wissen, welche Daten sich auf das Data Warehouse-System beziehen. Nicht alle Informationen bringen neue Erkenntnisse oder Vorteile in die Unternehmensprozesse. 2.3.1 Bevor Sie neue Informationen aus den Daten gewinnen, müssen Sie sich auf das Core Data Warehouse vorbereiten. Nur aufbereitete oder bereinigte Daten können für die weitere Verarbeitung verwendet werden. Überprüfen Sie die Daten und löschen Sie leere oder fehlerhafte Datensätze. Dieser Vorbereitungsprozess wird als ETL-Prozess bezeichnet. Der Zweck besteht darin, Daten aus vielen heterogenen Quellen für verschiedene Bereiche der Organisation bereitzustellen. Nur wenn saubere und organisierte Daten vorliegen, können die Informationen weiterverarbeitet werden (vgl. Hummeltenberg, 2012). Read Less