Add Thesis

Big Data und ihre Technologien: Hadoop und NoSQL-DBMS

Written by S. Coskun

Paper category

Bachelor Thesis

Subject

Computer Science

Year

2014

Abstract

Bachelorarbeit: Big-Data-Technologie-NoSQL-DBMS Zunächst einmal können die in diesem Kapitel behandelten Themen aufgrund von Zeit und Umfang dieser Bachelorarbeit nicht vertieft werden. Achten Sie darauf, dass alle wichtigen Aspekte im Zusammenhang mit NoSQL berücksichtigt werden. Dieses Kapitel behandelt hauptsächlich NoSQL-Datenbanken und ihre Bedeutung für die heutige Datenbankwelt. Kapitel 4.1 klärt, welche neuen Big-Data-Komponenten oder -Technologien hinzugekommen sind, nämlich NoSQL und Hadoop, und stellt diese kurz vor. Kapitel 4.2 erklärt Ursprung und Bedeutung des Begriffs NoSQL und liefert historische Hintergründe. Kapitel 4.3 dient nicht nur der einfachen Definition des Begriffs NoSQL, sondern erklärt auch die Attribute, um die Bedeutung von NoSQL-Datenbanken besser zu verstehen. Kapitel 4.4 klassifiziert NoSQL und erklärt die wichtigsten Kategorien. Kapitel 4.5 nimmt HBase als Beispiel und erwähnt noch einmal die Bedeutung von NOSQL für Big Data, um die Bedeutung dieses Kapitels noch einmal zu verdeutlichen 4.1 Big Data-Komponenten Zwei Hauptblöcke wurden der IT-Infrastruktur des Unternehmens hinzugefügt, um sich an Big Data anzupassen: 1. NoSQL (nicht nur SQL):  Kann den Zustrom von unstrukturierten und modalen Daten in Echtzeit erfassen, lesen und aktualisieren. Zu diesen Daten gehören Clickstreams, Daten aus Social Media, Logfiles, Ereignisdaten, Sensordaten und Maschinendaten (siehe Kapitel 2).  Die NoSQL-Datenbank wird verwendet, um Big Data im Zusammenhang mit Big Data zu erhalten und dann zu speichern. Sie eignen sich sehr gut für dynamische Datenstrukturen und sind hoch skalierbar (siehe Kapitel 4.3). Die in NoSQL-Datenbanken gespeicherten Daten sind normalerweise sehr vielfältig, da das System so konzipiert ist, dass es einfach alle Daten erhält, ohne diese Daten in feste Muster einordnen und dann grammatikalisch analysieren zu müssen. 412.Hadoop:  Bietet Speicherfunktionen über ein verteiltes, gemeinsam genutztes Dateisystem und bietet Analysefunktionen über MapReduce.  Dies ist eine neue Technologie, die große Datenmengen organisieren und bearbeiten kann, äh, die Daten bleiben auf dem ursprünglichen Datenspeicher.  Hadoop Distributed File System (HDFS) ist ein System, das Webprotokolle über einen langen Zeitraum speichert. Diese Webprotokolle werden beispielsweise für das Browserverhalten verwendet, wenn MapReduce-Programme auf einem Cluster ausgeführt werden. 4.2 Ursprung und Bedeutung von NoSQL-Begriffen NoSQL-Begriffe tauchten erstmals in der Datenbank von Carlo Strozzi auf, der zwar noch auf einem relationalen Datenbankmodell basiert, jedoch keine SQL-API zur Verfügung stellt. 43,44 Die ersten Pioniere von NoSQL-Systemen, die in den 1980er Jahren mit Systemen wie Berkley-DB, Lotus Notes und GT.M entwickelt wurden. Lediglich Web 2.0 und NoSQL versuchten im Jahr 2000 mit Datenbanksystemen wie MapReduce und Big Table (2004) große Datenmengen zu verarbeiten, Google ist Vorreiter von NoSQL, Unternehmen wie Amazon und Yahoo und soziale Netzwerke wie Facebook, Twitter und MySpace, Unternehmen folgten diesem Beispiel. Die heutigen klassischen NoSQL-Systeme wie Hpertable, MongoDB, Cassandra, Voldemort, CouchDB, Redis, Riak etc. erschienen von 2006 bis 2009. Der aktuelle Begriff tauchte jedoch im Mai 2009 im Blog von Eric Evans auf, als das Team um Johan Oskarsson nach einem Begriff für den Umgang mit "verteilten Datenspeichersystemen" suchte. 45 Als neue Bedeutung von NoSQL hat Emil Efrem im Herbst 2009 „nicht nur SQL“ vorgeschlagen, was heute weithin akzeptiert ist. 46Alles in Vor allem lässt sich sagen, dass es seit Jahrzehnten eine Datenbank gibt, die sich stark vom relationalen Datenbankmodell unterscheidet. Die Bildung dieser NoSQL-Systeme, relativ zum Monopol von RDBMS, bildete sich jedoch erst 2009. 4.3 Definitionen und Attribute von NoSQL DBMS Kurz gesagt, kein Gremium oder keine Organisation versucht wirklich, eine einheitliche Definition von Begriffen zu finden. Daher werden hier die am häufigsten verwendeten Erklärungen verwendet, um eine Vereinheitlichung der NoSQL-Terminologie zu erreichen. NoSQL als Datenbanksystem der neuen Generation, als vergleichende relationale Datenbank, wird durch folgende Aspekte definiert und kann in fast allen Quellen definiert werden: Begriffsdefinition: 1. Das Datenmodell folgt nicht dem relationalen Schema, ist also nicht relational. 2. Das System ist moduslos. 3. Ausgerichtet auf verteilte und horizontale Skalierbarkeit. 4. NoSQL-Systeme sind Open Source (wie HBASE, Cassandra). 5. 6. Verteilte Architektur, bequem für die Datenreplikation. Das System bietet eine einfache API 7. Systeme haben in der Regel unterschiedliche Konsistenzmodelle, wie Endkonsistenz und BASE (grundsätzlich verwendbar, weicher Zustand, Endkonsistenz). Es gibt jedoch keine ACID (siehe Kapitel 3.2), wie es bei relationalen Datenbanken der Fall ist. Read Less