Add Thesis

Interaktive und inkrementelle Visualisierung im Kontext von Big Data

Written by B. Ast

Paper category

Bachelor Thesis

Subject

Computer Science

Year

2017

Abstract

Bachelorarbeit: Big Data Nach Laney [Lan01] wird der Begriff Big Data durch die folgenden drei Merkmale („3 Vs“) definiert: • Kapazität: die Menge der verfügbaren Daten. Dies ist zu groß, um Daten mit herkömmlichen Methoden effektiv zu speichern, zu verwalten, zu übertragen und zu verarbeiten • Geschwindigkeit: Die Geschwindigkeit, mit der Daten generiert werden. Um eine Speicherung dieser Daten zu verhindern, erfolgt die Verarbeitung am besten in Echtzeit • Vielfalt: Verschiedene Datenquellen und Datentypen (Bilder, Sensordaten, Tweets von Twitter etc.). Daher liegen die Daten in den meisten Fällen als Rohdaten in unstrukturierter Form vor und können ohne Vorbereitung nicht korrekt weiterverarbeitet werden. Da die meisten automatisch gesammelt werden, gibt es auch viele irrelevante Daten. Auch die relevanten Daten müssen zuerst extrahiert werden. Die Liste wird ständig um weitere Merkmale erweitert, darunter den wirtschaftlichen Nutzen (Wert) der Daten und ihre Verlässlichkeit (Authentizität) [WAE + 15] .2.2 Stichprobenbegriffe Stichproben beschreiben eine Teilmenge der Gesamtzahl der verschiedenen Auswahlverfahren. Dies ist bei der Überprüfung eines Datensatzes notwendig, aber B. Es ist aus Zeit-, Kosten- oder Praktikabilitätsgründen unmöglich, alle zu berücksichtigen. Durch Überprüfung einer geeigneten Probe können Sie dann Rückschlüsse auf die Gesamtmenge ziehen. Unterschiedliche Stichprobenverfahren lassen sich nach den beiden Hauptstichprobenarten Wahrscheinlichkeitsstichprobe und Nicht-Wahrscheinlichkeitsstichprobe [Bla11]: Gesamtgröße) einteilen. Zu diesen Methoden gehören: • Einfache Zufallsstichprobe: Wählen Sie zufällig Elemente aus der Gesamtmenge aus. Es ist die einfachste Stichprobenmethode für Small und Big Data und kann auch für andere Stichprobenmethoden verwendet werden • Systematische Stichprobenauswahl: Wählen Sie zufällig ein Element aus der Summe aus und bestimmen Sie die Schrittweite. Beginnen Sie mit dem ersten Element und wählen Sie dann jedes k-te Element in der Menge aus. Um eine aussagekräftige Stichprobe generieren zu können, muss die Gesamtmenge in einer bestimmten Reihenfolge angeordnet werden • Stratifizierte Stichprobe: Teilen Sie die Datenmenge in Untergruppen auf. Wählen Sie dann eine andere Stichprobenmethode und wählen Sie aus jeder dieser Gruppen eine Stichprobe aus (z. B. mit einfacher Zufallsstichprobe). Zusammen bilden diese Stichproben die Gesamtstichprobe. Die geschichtete Stichprobenziehung ist komplizierter als die einfache Zufallsstichprobe. Sie ist jedoch auch repräsentativer, da die Stichprobe aus verschiedenen Teilmengen der Gesamtsumme besteht. 2.3 Visualisierung Butler et al. [BAB + 93] Benennt die Verwendung von drei verschiedenen Arten grafischer Darstellungen: deskriptive Visualisierung, also die Darstellung von vorhandenem Wissen, analytische Visualisierung, bei der gezielt nach Fakten gesucht wird und explorative Visualisierung, die unbekannte Wissensdaten im Inneren offenbaren soll. Nach Schumann und Müller [SM99] besteht der Zweck der Visualisierung in Wissenschaft und Technik darin, eine effektive Auswertung vorhandener Daten zu ermöglichen. Die grafische Darstellung soll dem Betrachter das Verständnis der Daten erleichtern und damit die Analyse vereinfachen. Dies geschieht durch die Beschreibung der Visualisierung von Mustern, Strukturen und Anomalien im Datensatz [WGK10]. Gerade bei komplexen Datensätzen ist die Bilddarstellung die bevorzugte Auswertungsart, da hier andere Auswertungsmethoden versagen [Pro06]. Nach Schumann und Müller [SM99] sind folgende Attribute definiert, die eine gute Visualisierung ausmachen: Es sollen die im Datensatz enthaltenen Informationen angezeigt werden und es sollen nicht weniger oder keine weiteren oder zusätzlichen Informationen angezeigt werden. Um dies zu gewährleisten, spielt die richtige Wahl der Leistungsart eine entscheidende Rolle. Effektivität: Die Visualisierung muss „die (visuellen) Fähigkeiten des Betrachters und die Eigenschaften des Ausgabegeräts widerspiegeln, unter Berücksichtigung des Ziel- und Anwendungskontextes“ ([SM99] Seite 11), um diese voll auszuschöpfen. Unter allen geeigneten Visualisierungsarten für eine gegebene Datenmenge sollte die Visualisierungsart ausgewählt werden, die die beschriebenen Sachverhalte am besten beschreibt. Angemessenheit: Der Rechenaufwand und die Ressourcen, die für die Erstellung der Visualisierung erforderlich sind, sollten proportional zum Ergebnis sein. Um diesen Standards zu genügen [SM99] müssen verschiedene Sichtweisen eingenommen werden, beispielsweise was der Zweck der Visualisierung ist und welche Daten zur Verfügung stehen. Auf dieser Grundlage muss der am besten geeignete Visualisierungstyp ausgewählt werden. Der Visualisierungsprozess verwendet normalerweise eine Visualisierung, um die Pipeline zu veranschaulichen, wie in Abbildung 2.1 gezeigt. Der Ablauf ist wie folgt beschrieben Datenaufbereitung starten. Dazu gehört neben der Konvertierung oder Filterung auch das Hinzufügen fehlender Daten und das Entfernen von Daten, die ignoriert werden können.Der nächste Schritt ist das Mapping. Die verarbeiteten Daten werden auf geometrische Daten abgebildet, dh auf Attribute wie Farbe und Position. Der letzte Schritt ist die Bilderzeugung (Rendering). Die generierten geometrischen Daten werden auf die Bilddaten abgebildet Sh-neiderman [Shn96] erstellte ein grafisches Benutzeroberflächendesign zur Datenvisualisierung. Read Less