Add Thesis

Machine Learning zur Wildunfallprädikation 

Written by S. Uhrmann

Paper category

Bachelor Thesis

Subject

Computer Science

Year

2015

Abstract

Bachelorarbeit: Daten In diesem Kapitel werden die für ML verwendeten Daten vorgestellt. Beschreibt die für die Vorhersage verwendeten Parameter, ihre Quellen- und Vorverarbeitungsinterpretation sowie das zugrunde liegende Datenmodell. Hinweis: Die Wildunfalldaten der Polizei werden nicht als Open Data, sondern von der Polizei bzw. dem Bayerischen Innenministerium freigegeben und für Sport und Integration (STMI Bayern) nur im Rahmen des Projekts WilDa verwendet. Alle anderen Daten sind Open Data oder für diese Bachelorarbeit generierte Daten. 2.1 Merkmale Erläutern Sie zunächst die verwendeten Merkmale, wie 2.1.1 Wildunfälle Das Bayerische Staatsministerium des Innern und Integration (STMI) stellt die Daten der von der Bayerischen Staatspolizei gemeldeten Wildunfälle in Form einer Excel-Tabelle (.xlsund.xlsx ). ), unterteilt nach Regierungsabteilungen-Kreis und Jahr. Die Daten umfassen den Zeitraum von 2010 bis 2017 und den Zeitraum von 2005 bis 2017 in Niederbayern. Im Jahr 2017 betrug die Zahl der in Bayern registrierten Wildtierunfälle 74:224, und der Gesamtzeitraum von 2010 bis 2017 lag vor dem Wildtierunfall bei etwa 600:000. Wildunfalldaten enthalten verschiedene Merkmale (siehe Tabelle 6.1 auf Seite 35 für Auszüge von Wildunfällen in Niederbayern im Jahr 2017). Die Vorhersage der logistischen Regression (genauer in Kapitel 3.2.2 Regression) verwendet die folgenden Merkmale. Die obigen Punkte beschreiben die Spaltenüberschriften, die Abbildung 2.1: Räumliche Darstellung von Wildunfällen in Niederbayern. Je "grüner" (grau) die Straße, desto mehr Unfälle passieren. Farbabstimmung, Autor: Simon Grafder Der Wertebereich der Merkmale und Unterpunkte und die Bedeutung dahinter: àDatum-DatumàUhrzeit-KL1-Straßenebene: –1 Autobahn – 2 Bundesstraße – 3 Bundesstraße – 4 Kreisstraße – 5 Gemeindestraße – Wildtiere: – 1 Hase – 2 Rehe, Rehkitz und Rotwild – 3 andere – 4 Wildschweine – 5 Füchse, die Wildunfälle aufbereiten Die Daten in der Excel-Datei wurden mit der „Python-Datenanalysebibliothek“ pandas1readin erstellt. Dazu wird die Funktion pandas.read_excel2 verwendet. Für die Weiterbildung muss der Zeitpunkt (Datum und Uhrzeit) in eine Zahl umgerechnet werden. Aus diesem Grund wurde die Darstellung der Unix-Zeit (in Sekunden) gewählt. Die Koordinaten werden von der Bibliothek pyproj3 im World Geodesy System (WGS) 84 in Python umgewandelt (siehe Codebeispiel 2 auf Seite 38). Verwenden Sie zur Umrechnung die Beschreibung des Koordinatensystems "PROJ" und ignorieren Sie unvollständige Datensätze nach der Methode "Big Data". [Clo14] Um Daten von Wildtierunfällen in Zukunft schneller auslesen zu können, werden die Daten vom Excel-Format in das CSV-Format (Comma Separated Value) konvertiert. 3.1 Lernfeedback In ML gibt es drei Arten von Feedback, um die Lerntypen zu beschreiben: überwachtes Lernen, unüberwachtes Lernen und verstärkendes Lernen. In der Praxis lassen sich die Lerntypen jedoch oft nicht eindeutig einteilen, weshalb es bei diesen Lerntypen auch Mischformen gibt, wie beispielsweise das semi-überwachte Lernen. [RNDE16, Lernformen, p. 694 f.] 3.1.1 Überwachtes Lernen In dieser Bachelorarbeit wird überwachtes Lernen verwendet, um Wil-dunf ̈allen vorherzusagen. Seine Besonderheit besteht darin, Datensätze mit Input-Output-Paaren zu verwenden, um den Agenten zu trainieren und direkt aus den Inputdaten Rückschlüsse auf die Outputdaten ziehen zu können. Diese Art des Lernens ist angemessen, da bei Wildunfällen explizite Daten der Polizei verwendet werden – es gibt registrierte Wildtierunfälle, also verschiedene Merkmale mit bekannten Zielen (y = 1). Lediglich das Fehlen negativer Datensätze von Nicht-Unfällen rechtfertigt den Einsatz unüberwachter Lernformen. Es wird jedoch ein anderes Vorhersagemodell verwendet (siehe Abschnitt 3.1.2 für weitere Informationen), das für Wildunfall-Frühwarnsysteme nicht geeignet ist. Daher ist es wichtiger, Strategien zur anderweitigen Generierung dieser Negativdatensätze zu entwickeln (siehe Kapitel 2.2). [Wil18] nutzt diese Art des Lernens auch zur Vorhersage von Unfällen. 3.1.2 Unüberwachtes Lernen Beim unüberwachten Lernen lernt der Agent den Vorhersagemodus ohne eindeutige Ausgangsvariablen. Diese Methode wird hauptsächlich verwendet, um "Cluster" zu identifizieren, beispielsweise um zwischen guten und schlechten Verkaufstagen zu unterscheiden - gute oder schlechte Tage sind in den Daten nicht klar definiert. Diese Art des Lernens wird hier nicht verwendet, da die Trainingsdaten unterschiedlich sind, Atze unterscheidet klar zwischen positiv und negativ. Außerdem sollten Unfallcluster identifiziert, aber nur implizit zur Vorhersage verwendet werden. Stattdessen sollten diskrete Risiken für die Vorhersage von Wildunfällen vorhergesagt werden. [RNDE16, Lernformen, S. 694 f.] 3.1.3 Reinforcement Learning Beim Reinforcement Learning verwendet der Agent wie beim Supervised Learning Datensätze aus Input und Output zum Training. Diese Daten stehen jedoch nicht in direktem Zusammenhang. Pearson beschreibt dies am Beispiel eines Schachspiels mit künstlicher Intelligenz. Als Datenziel beispielsweise bringt der Gewinn eines Spiels nur 2 Punkte. Der Agent selbst muss den Weg zu diesem Sieg ableiten. Auch für die Vorhersage von Wildunfällen ist dieser Lerntyp nicht geeignet, da Input-Parameter direkt mit Output-Parametern zusammenhängen, so dass die Korrelation zwischen Input und Output unnötig ist-Suche [RNDE16, Lernformen, S. 694 f.] 3.2 Problemkategorien Die für das überwachte Lernen verwendeten ML-Methoden lassen sich grundsätzlich in zwei Kategorien unterteilen: Regression und Klassifikation. Read Less