Add Thesis

Detecting Trends on Twitter

The Effect of Unsupervised Pre-Training

Written by S. Bäckström, J. F. Haslum

Paper category

Bachelor Thesis

Subject

Computer Science

Year

2016

Abstract

Bachelorarbeit:Unüberwachtes Pre-Training hat sich in letzter Zeit als Methode zur Initialisierung überwachter maschineller Lernmethoden herauskristallisiert. Sie wurde vor allem auf künstliche neuronale Netze (ANN) angewandt. Frühere Arbeiten haben gezeigt, dass unbeaufsichtigtes Vortraining die Genauigkeit erhöht und eine effektive Methode zur Initialisierung von ANNs ist[2]. In früheren Arbeiten wurden verschiedene Methoden des maschinellen Lernens zur Analyse von Twittertrends untersucht. In dieser Arbeit wird jedoch die Effizienz der Verwendung eines mehrschichtigen Perzep-tron-Klassikers (MLPC) mit und ohne Bernoulli-Restricted-Boltzmann-Maschine (BRBM) als unüberwachte Pre-Training-Methode untersucht. Zwei relevante Faktoren, die untersucht wurden, sind die Anzahl der versteckten Schichten in der MLPC und die Größe des für das Training der Methoden verfügbaren Datensatzes. In dieser Arbeit wurde eine MLPC implementiert, die Trends mit einer Genauigkeit von 85 % erkennen kann. Die Experimente, die durchgeführt wurden, um die Wirkung des unüberwachten Vortrainings zu testen, waren jedoch nicht schlüssig. Die Verwendung des BRBM-Pre-Trainings für die Twitter-Zeitreihendaten brachte keine Vorteile mit sich. In der heutigen Gesellschaft kommunizieren die meisten Menschen tagtäglich über soziale Medien, angefangen bei einfachen Menschen bis hin zu Politikern und Unternehmen. Ein Beispiel für ein solches soziales Medium ist Twitter, eine weit verbreitete Plattform mit einer großen weltweiten Nutzerbasis von 310 Millionen monatlich aktiven Nutzern. Wenn ein Thema oder ein Ereignis auf Twitter zum "Trending" wird, erreicht es eine internationale Menge von 1 Milliarde Menschen pro Monat[17].Twitter ist eine Plattform für soziale Medien, auf der die Nutzer kurze Nachrichten veröffentlichen. Andere Nutzer können dann ihre Tweets liken und retweeten, was bedeutet, dass sie den Tweet der anderen Person mit ihren Followern teilen. Die Nutzer können sich gegenseitig folgen, wobei kein gemeinsames Folgen erforderlich ist[19]. So können bestimmte Nutzer Millionen von Followern haben, während andere nur ein Dutzend, wenn überhaupt, haben. Damit die Nutzer Tweets zu einem bestimmten Thema finden können, wird eine kurze Zeichenfolge verwendet, die mit einem \#" beginnt. Diese Zeichenfolgen werden als Hashtags bezeichnet und ermöglichen es den Nutzern, an allen verwandten Tweets teilzunehmen und diese anzuzeigen. 2015 reichten die Trends von weltweiten Ereignissen und Tragödien bis hin zu sozialen Phänomenen[21]. Zu diesen Trends gehörten #FIFAWWC (FIFA World Cup) und #ParisAttacks sowie #TheDress1. Die Pariser Anschläge sind ein Beispiel dafür, wie die Aktivität eines zuvor nicht existierenden Hashtags plötzlich in die Höhe schießt[16]. Das Aufspüren und Erkennen von Trends auf Twitter ist nicht nur für Unternehmen oder Personen nützlich, die die neuesten Trends aufgreifen wollen, sondern auch für Twitter selbst als Unternehmen. Twitter erzielt etwa 85 % seiner Einnahmen aus dem Verkauf von Werbeanzeigen[5]. Twitter hat einen Algorithmus entwickelt, der aktuelle Hashtags, sowohl globale als auch lokale Trends, aufspürt[18]. Dann ist es Twitter möglich, die aktuellen Hashtags strategisch zu nutzen, um seine Anzeigen so zu platzieren, dass sie ein großes Publikum erreichen.Es wurden bereits frühere Arbeiten zur Erkennung von Trends im Twitter-Feed durchgeführt. In1Das Kleid war ein virales Phänomen, als die Menschen ein Foto eines Kleides sahen und es entweder als blau und schwarz oder weiß und goldfarben wahrnahmen.3 2012 entwickelten Nikolov et al. einen Algorithmus, der Trends im Twitter-Datenfeed aufspürte, bevor die Algorithmen von Twitter dazu in der Lage waren. Das Forschungsteam experimentierte dazu mit verschiedenen Methoden des maschinellen Lernens und fand einen Algorithmus, der die Häufigkeit von Hashtags zur Vorhersage eines bevorstehenden Trends nutzte[6].Maschinelles Lernen ist ein relativ neues Gebiet der Informatik, das datengesteuertes Lernen nutzt, um Programme zu trainieren, ohne sie buchstäblich zu programmieren. Methoden des maschinellen Lernens werden u. a. bei der Bilderkennung und bei selbstfahrenden Autos eingesetzt[13]. Im Zusammenhang mit der Erkennung von Trends werden Algorithmen des maschinellen Lernens darauf trainiert, vorhandene Twitter-Daten zu betrachten und dann in der Lage zu sein, Trends in neuen Daten zu erkennen.Beim maschinellen Lernen gibt es zwei Kategorien von Methoden. Die erste ist das überwachte Lernen, bei dem der Algorithmus durch die Bereitstellung eines Trainingssatzes von Eingabedaten und des erwarteten Ergebnisses trainiert wird. Die zweite Kategorie ist das unüberwachte Lernen, bei dem ein Trainingssatz von Eingabedaten, aber keine Daten des erwarteten Ergebnisses verwendet werden. Dies macht das unüberwachte Lernen anders, da der Algorithmus eine Struktur und Muster in den gegebenen Daten finden muss, ohne zu wissen, was das Ergebnis sein soll[13]. unüberwachte Lernmethoden können auch in anderen Kontexten hilfreich sein, z. B. beim unüberwachten Vortraining. Überwachte Trainingsmethoden zielen darauf ab, ein globales Minimum zu finden (d. h. das Problem mit dem kleinsten Fehler zu lösen), aber es ist nicht garantiert, dass das globale Minimum jedes Mal erreicht wird. Unüberwachtes Pre-Training kann dazu beitragen, die überwachte Methode so zu initialisieren, dass sie zu Beginn eher dazu neigt, das globale Minimum zu erreichen[2].1.1 Problemstellung In dieser Arbeit sollen die Auswirkungen des unüberwachten Pre-Trainings auf überwachte Trainingsmethoden im Fall der Twitter-Trend-Erkennung untersucht werden.Zwei Methoden werden in Experimenten mit Twitter-Daten verwendet, um zu sehen, ob das unüberwachte Pre-Training dazu beiträgt, die Genauigkeit einer überwachten Trainingsklassifizierungsmethode zu verbessern. Die Genauigkeit der Methoden wird anhand der True-Positive-Rate (TPR) und der Gesamtgenauigkeit untersucht. Die Methoden verwenden Zeitreihendaten, die auf der Häufigkeit eines bestimmten Hashtags in einer bestimmten Zeitspanne basieren.Die überwachte Methode, die verwendet wird, ist eine Multi-layer Perceptron Classi er4 (MLPC), eine Form des künstlichen neuronalen Netzes (ANN) mit überwachtem Training. Die Methode, die zum Vortraining des MLPC verwendet wird, ist ein unüberwachtes ANN-Modell namens Bernoulli Restricted Boltzmann Machine (BRBM), wobei auch relevante Faktoren wie die Größe der Trainingsmenge und die Anzahl der versteckten Schichten im MLPC untersucht werden. Die Forschungsfrage für diese Arbeit lautet: Wie wirkt sich unüberwachtes Vortraining auf die Leistung eines Mehrschicht-Perceptron-Klassikers (MLPC) bei der Erkennung von Trends auf Twitter aus? Wie hängt die Leistung von der Größe der verfügbaren Trainingsdaten und der Anzahl der verborgenen Schichten in der MLPC ab?1.2 Umfang und EinschränkungenDiese Arbeit wird nur Trends untersuchen, die durch Hashtags und deren Aktivität im Twitter-Feed repräsentiert werden. Da Twitter die aktuellen Trends kontinuierlich zur Verfügung stellt, ist es möglich, die Genauigkeit der Methoden bei der Erkennung von Trends zu berechnen. Auch wenn nur die Hashtags eines Tweets analysiert werden, können auch andere Faktoren und Eigenschaften eines Tweets für die Trenderkennung nützlich sein. Wie weiter unten im Hintergrund zu sehen ist, wurden in ähnlichen früheren Arbeiten verschiedene Eigenschaften von Tweets bei der Analyse von Trends berücksichtigt. Am wichtigsten sind jedoch die Zeitreihendaten der Frequenzen, die unter Ausschluss aller anderen Eigenschaften eines Tweets untersucht werden.Die Genauigkeit jeder verwendeten Methode kann durch die Größe der Trainingsmenge beeinflusst werden. Daher werden in dieser Arbeit die gewählten Methoden mit Trainingsmengen unterschiedlicher Größe untersucht. Die maximale Größe des Trainingssets wird jedoch auf eine gesammelte Stichprobe des Twitter-Feeds beschränkt sein. Da in dieser Arbeit ANN-Methoden verwendet werden, wird auch die Auswirkung der Anzahl der versteckten Schichten untersucht. Andere Faktoren, die sich auf die Genauigkeit eines Algorithmus zur Erkennung von Twitter-Trends auswirken können, werden in dieser Arbeit nicht berücksichtigt. In dieser Arbeit werden die ANN-Modelle MLPC und BRBM und keine anderen Methoden untersucht.5 1.3 Überblick über die ArbeitIm folgenden zweiten Abschnitt werden frühere Arbeiten, die mit dieser Arbeit in Zusammenhang stehen, sowie relevante Hintergrundinformationen vorgestellt. Im dritten Abschnitt wird die Vorgehensweise der Arbeit vorgestellt. Die Motivation für den Ansatz und die Experimente sowie die Erläuterung des Datensatzes und der getroffenen Annahmen werden hier behandelt. Im vierten Abschnitt werden die Ergebnisse der zuvor erläuterten Experimente vorgestellt. Die Ergebnisse werden im fünften Abschnitt diskutiert und analysiert. Der sechste Abschnitt fasst die Diskussion zusammen und präsentiert die Schlussfolgerungen.6 2 Hintergrund2.1 TwitterTwitter ist ein soziales Online-Netzwerk in Form einer Micro-Blog-Plattform, das 2006 ins Leben gerufen wurde. Es ermöglicht den Nutzern, Beiträge mit maximal 140 Zeichen zu verfassen, die Tweets genannt werden. Ein Nutzer kann wählen, ob er seine Tweets privat an ausgewählte Follower oder öffentlich für alle Twitter-Nutzer veröffentlichen möchte. Im März 2016 wurden täglich etwa 500 Millionen Tweets von Nutzern wie Politikern, Prominenten und anderen öffentlichen Persönlichkeiten verfasst. Bei dieser riesigen Datenmenge ist es schwierig, verwandte Tweets zu finden. Um dieses Problem zu lösen, verwendet Twitter Hashtags[20]. Dies ermöglicht es den Nutzern, Tweets zu erkunden, die einen bestimmten Hashtag enthalten. Wenn ein Hashtag häufiger getwittert wird, kann er von Twitters eigenem Trenderkennungsalgorithmus[18] als trending eingestuft werden.2.2 TrendsTwitter definiert Trends als ein Thema, das an Popularität gewinnt. Damit werden Themen ausgeschlossen, die über einen längeren Zeitraum hinweg konstant eine relativ hohe Frequenz aufweisen[18], so dass ein Trend in diesem Zusammenhang einem aufkommenden Hashtag oder, wie Naaman et al. vorschlagen, einem Aktivitätsschub (Zunahme der Frequenz) entspricht. Bei der Definition eines Trends geht es dann darum, wie stark der Ausbruch sein muss, damit der entwickelte Algorithmus das aufkommende Thema erfassen kann. Bei zwei unterschiedlichen Trendthemen können die Aktivitäten unterschiedlich stark zunehmen. Daher muss der Aktivitätsschub, der einen Trend ausmacht, innerhalb eines bestimmten Bereichs liegen[10]. Dies gilt jedoch nur für Trends oberhalb eines bestimmten Aktivitätsniveaus, da sich Trends mit geringer Aktivität schnell ändern und Fehler auftreten können.2.3 Verwandte ArbeitenIn diesem Abschnitt werden die bisherigen Arbeiten zu Twitter-Trends, die Entdeckung mit überwachtem Lernen und die bisherigen Arbeiten zum unüberwachten Pre-Training behandelt.7 2.3.1 Überwachtes LernenÜberwachtes Lernen ist eine Technik innerhalb des maschinellen Lernens, bei der ein Algorithmus anhand eines Trainingssatzes mit bekanntem Ergebnis trainiert wird, um den Algorithmus zur Vorhersage des Ergebnisses eines anderen Datensatzes zu verwenden. Der Trainingssatz besteht aus Eingabedaten und dem entsprechenden Ergebnis. Ein größerer Trainingssatz führt in der Regel zu einer höheren Genauigkeit, da mehr Daten zur Verfügung stehen, mit denen der Algorithmus trainiert werden kann, und somit eine höhere Genauigkeit erzielt wird[8]. Es gibt mehrere Methoden innerhalb des überwachten Lernens, die in früheren Arbeiten im Bereich der Twitter-Trends verwendet wurden. Die wichtigste Arbeit zum Thema Twitter-Trendvorhersage konzentrierte sich auf die nichtparametrische Zeitreihenklassifizierung, wobei ein Modell der nächsten Nachbarn zur Lösung des Problems verwendet wurde. Es bewertet jeden Hashtag, indem es eine Häufigkeitszeitreihe erstellt und sie mit den zuvor getriggerten Hashtags im Trainingssatz vergleicht. 79 % der Zeit konnte dieser Ansatz Twitter-Trends vorhersagen[6]. Allerdings wurde diese Methode nur auf einen kleinen Datensatz von etwa 1000 Hashtags angewandt. Die geringe Größe des Trainingssatzes wirft die Frage auf, ob ein größerer Trainingssatz die Genauigkeit eines solchen Algorithmus weiter verbessern könnte.Zongyang et al. schlägt Methoden zur Vorhersage der zukünftigen Popularität von Hashtags vor.Das Problem wird als Klassifizierungsaufgabe angegangen, und es werden vier verschiedene Methoden verwendet (Nave Bayes, k-nearest neighbors, Entscheidungsbäume, Support Vector Machines und logistische Regression). Diese werden auf zwei Gruppen von Merkmalen angewandt, die inhaltlichen und die kontextuellen. Zu den kontextuellen Merkmalen gehören die Follower des Nutzers und die Anzahl der Retweets, und diese Art von Daten kann zur Erstellung eines sozialen Graphen verwendet werden. Die Verwendung kontextbezogener Merkmale hat sich als die effektivste Option erwiesen[22].Brennan et al. untersucht die Möglichkeiten, aktuelle Trends nur auf der Grundlage des Inhalts von Tweets und unter Ausschluss von Hashtags vorzuschlagen. Ähnlich wie die oben genannten Arbeiten unterteilen sie die Tweet-Daten in zwei Teile: Inhalt und Kontext. Die Studie konzentriert sich in erster Linie auf die Worthäufigkeit (Inhalt) und dann auf die umgebenden Faktoren (Kontext) und schließt Twitter-Follower, Retweets und andere Kontextdaten ein. Eine leicht modifizierte Nave-Bayes-Klassifikation wird auf ihren Datensatz von rund 50.000 Tweets angewendet. Die Verwendung dieses Klassifizierungsalgorithmus erweist sich bei der Kombination von Inhalts- und Kontextdaten als besonders effektiv und klassifiziert Tweets8 Dies deutet darauf hin, dass nicht nur die in einem Tweet enthaltenen Hashtags zur Vorhersage oder Erkennung von Trends verwendet werden können, sondern auch die relationalen Daten im Umfeld eines Tweets. Die relativ kleine Datenmenge und die rechenintensiven Aufgaben werfen jedoch die Frage auf, ob ihre Methoden bei größeren Problemen effektiv sind.Eine Studie von Kong et al. kann als Zusammenfassung der oben genannten Studien betrachtet werden. Sie verwendet kontextuelle, inhaltliche und zeitliche Daten, um die Bedeutung der einzelnen Merkmale zu untersuchen. Ihre Studie zeigt, dass der wichtigste Faktor bei der Vorhersage von Trends in Hashtags die Zeitreihendaten sind. Je länger ein Hashtag untersucht wurde und somit mehr Zeitreihendaten gesammelt wurden, desto höher war die Vorhersagegenauigkeit. Die Genauigkeit reichte von 5,6 % bei neu entdeckten Hashtags (geringe Menge an Zeitreihendaten) bis hin zu Werten von bis zu 72 % bei Hashtags, die näher an ihrem Ausbruch lagen (große Menge an Zeitreihendaten)[3].Zusammenfassend lässt sich sagen, dass die Zeitreihendaten bei der Analyse von Trends auf Twitter von großer Bedeutung sind. Andere Faktoren, wie Inhalt und Kontext, sind Methoden, die nicht annähernd so gut abschneiden wie die Zeitreihen selbst.2.3.2 Unüberwachtes Pre-TrainingUnüberwachtes Lernen ähnelt den Methoden des überwachten Lernens. Der Trainingssatz besteht jedoch nur aus Eingabedaten, deren Ergebnis nicht bekannt ist. Daher funktionieren die Algorithmen des unüberwachten Lernens anders, da sie versuchen, Strukturen und zugrundeliegende Muster in den Eingabedaten zu finden[9].Bisher wurden keine Arbeiten auf dem Gebiet des unüberwachten Lernens für Twitter-Trends oder ähnliche Themen durchgeführt. In den letzten Jahren wurden jedoch Forschungsarbeiten zu unüberwachten Methoden für das unüberwachte Pre-Training durchgeführt, die sich hauptsächlich auf ANN konzentrierten[2]. Diese Art des Vortrainings konzentriert sich hauptsächlich darauf, wie es zur Verbesserung des Gradientenabstiegs in ANN verwendet werden kann. Unüberwachtes Vortraining hilft dem Algorithmus des überwachten Lernens, das globale Minimum und nicht ein lokales Minimum zu finden, indem die Variablen im überwachten Lernmodell mit9 eine unüberwachte Lernmethode. Genauer gesagt wurde es eingesetzt, um die Wahl der Anfangsvariablen beim Training dieser Netze zu verbessern, anstatt die Variablen zufällig zu initialisieren. Untersuchungen haben gezeigt, dass diese Methode nicht nur besser ist als die zufällige Initialisierung, sondern auch besser als Methoden mit festgelegter Initialisierung[1]. Die gleiche Studie legt nahe, dass unbeaufsichtigtes Pre-Training in Situationen mit vielen lokalen Maxima und Minima vorzuziehen ist. Es muss nicht immer zu einer besseren Vorhersagegenauigkeit führen, aber Algorithmen, die unbeaufsichtigtes Pre-Training verwenden, schneiden im Allgemeinen besser ab als die zufällige Initialisierung des überwachten Lernmodells[1].Die Auswirkungen des unbeaufsichtigten Pre-Trainings wurden von Erhan etal. weiter untersucht. Er kommt zu dem Schluss, dass unbeaufsichtigtes Pre-Training bei ANN-Strukturen mit mehreren versteckten Schichten effizienter ist als bei wenigen. Ein ANN mit nur einer versteckten Schicht, das unbeaufsichtigtes Vortraining verwendet, schneidet nachweislich schlechter ab als der gleiche Algorithmus ohne unbeaufsichtigtes Vortraining. Die Studie zeigt auch, dass ein 3-Schicht-Algorithmus ohne unbeaufsichtigtes Vortraining schlechter abschneidet als ein äquivalenter 1-Schicht-Algorithmus, ebenfalls ohne unbeaufsichtigtes Vortraining[2]. Dies deutet darauf hin, dass unbeaufsichtigtes Vortraining weder notwendig noch vorteilhaft für 1-schichtige Deep-Learning-Algorithmen ist. Bei ANN-Algorithmen mit mehreren Schichten trägt unbeaufsichtigtes Vortraining jedoch dazu bei, die Genauigkeit des Deep-Learning-Algorithmus zu verbessern.Erhan et al. untersucht auch die Auswirkungen großer Trainingsmengen für zwei Algorithmen, von denen einer unbeaufsichtigtes Vortraining verwendet. Bei der Verwendung großer Trainingssätze wird allgemein davon ausgegangen, dass ein unbeaufsichtigtes Pre-Training nicht notwendig ist, da der Algorithmus aufgrund des größeren Trainingssatzes mit größerer Präzision trainiert wird. Die Studie besagt jedoch, dass die Vorteile des unüberwachten Pre-Trainings nicht aufhören, wenn die Trainingsmenge zunimmt. Vielmehr ermöglicht das Pre-Training dem Algorithmus, die Vorteile der größeren Trainingsmenge zu nutzen[2].Zusammenfassend lässt sich sagen, dass das unbeaufsichtigte Pre-Training in bestimmten Fällen die Genauigkeit der Methoden des überwachten Lernens verbessert. Dies geschieht hauptsächlich durch die Ermittlung des optimalen Satzes von Initialisierungsparametern für den überwachten Lernalgorithmus. Dies ist jedoch nicht für alle Fälle geeignet, insbesondere wenn ein ANN-Modell nur wenige Schichten hat.10 2.4 Arti cial Neural Networks (ANN)Die meisten Studien, die sich mit unüberwachtem Pre-Training beschäftigen, untersuchen tiefe Architekturen wie ANNs. Darin wird auch festgestellt, dass tiefe Architekturen erforderlich sind, damit das unbeaufsichtigte Vortraining zu Ergebnissen führt, und dass die tiefen Architekturen das unbeaufsichtigte Vortraining benötigen, um beste Ergebnisse zu erzielen[2]. Es gibt Methoden, die ausdrücklich für unbeaufsichtigtes Pre-Training empfohlen werden. Eine davon ist Restricted Boltzmann Machines (RBM), ein ANN, das für unbeaufsichtigtes Pre-Training verwendet wird[12]. Das bedeutet im Wesentlichen, dass es mehrere Schichten von Neuronen in einem Netzwerk gibt, die so trainiert werden, dass sie aktiviert werden, um ein Ergebnis aus gegebenen Eingabedaten vorherzusagen. Die Struktur in Abbildung 1 ist ein Beispiel für ein ANN mit zwei versteckten Schichten mit jeweils vier bzw. drei Neuronen. Wie bereits im Hintergrund erwähnt, sind mehrere ausgeblendete Schichten erforderlich, um die Ergebnisse des unüberwachten Pre-Trainings zu erzielen.Abbildung 1: Ein ANN mit zwei ausgeblendeten Schichten mit 4 bzw. 3 Einheiten[14].Wie bereits im Hintergrund erwähnt, sind Zeitreihendaten die effektivste Art von Daten, die zur Erkennung von Trends verwendet werden. Zeitreihen werden auch in verschiedenen Bereichen untersucht, einer davon ist der Finanzmarkt. Aus ganz offensichtlichen Gründen sind die Menschen daran interessiert, die Veränderungen auf dem Aktienmarkt vorherzusagen. ANN haben sich bei der Analyse und Vorhersage von Zeitreihendaten im Finanzbereich bewährt. Obwohl sich diese Arbeit nicht mit dem Finanzmarkt befasst, ist die Tatsache, dass ANNs 11 vielversprechende Ergebnisse bei Zeitreihendaten gezeigt haben, ist von Bedeutung[15]. Zusammenfassend lässt sich sagen, dass ANNs für die Analyse von Zeitreihendaten von Vorteil sind, was sie für den Rahmen dieser Arbeit relevant macht. 2.4.1 Restricted Boltzmann Machines (RBM) RBMs basieren auf unüberwachtem Lernen unter Verwendung eines probabilistischen Modells, das eine Form von unüberwachten ANNs ist. Die RBM lernt die Wahrscheinlichkeitsverteilung der Eingabedaten, indem sie Gruppen von Merkmalen bildet. Es wird verwendet, um auffällige Unregelmäßigkeiten in den eingegebenen Trainingsdaten zu erkennen. Sie hat sich als gute Struktur für die Initialisierung von ANNs erwiesen und ist daher zu einer beliebten Methode für das unbeaufsichtigte Vortraining tiefer Architekturen geworden[12]. Die Bernoulli RBM (BRBM) ist eine gängige Art von RBM, die Daten im Bereich [0, 1] verwendet. Das BRBM nutzt die Vorteile einer zweistufigen Graphenstruktur, wodurch Verbindungen zwischen Neuronen in derselben Schicht eliminiert werden. Jedes Neuron ist mit allen Neuronen in der nächsten Schicht verbunden und hat die folgende Wahrscheinlichkeit, aktiviert zu werden:P(i= 1jh) =(Xj!ijhj+bi)(1)P(hi= 1jv) =(Xi!iji+cj)(2)Sigma () ist die Sigmoidfunktion, und die Variablen in der Summe sind: via Neuron in der sichtbaren Schicht und hi in der verborgenen Schicht, wijdas Gewicht der Verbindung zwischenhiund vj, biund cjsind die entsprechenden Bias. Diese werden mit Hilfe des stochastischen Maximum-Likelihood-Lernens (SML) ermittelt. Unter Verwendung kleiner Datenmengen wird der Gradient wie folgt berechnet:logP() =logXheE(;h)logXx;yeE(x;y)(3)E(v,h) ist die Summe der Gewichte über alle benachbarten Neuronen[12]. Die Verwendung von SML in BRBM hat sich beim Training von RBMs als am effizientesten erwiesen, außerdem gewährleistet der12 SML-Algorithmus sicher, dass die Datenrepräsentation auf der gleichen Skala wie die Eingabedaten gehalten wird, was wichtig ist, wenn das BRBM für das Pre-Training verwendet werden soll[12].2.4.2 Mehrschichtiges Perzeptron (MLP)Ein mehrschichtiges Perzeptron (MLP) ist ein überwachtes Lernmodell auf der Grundlage der ANN-Struktur. Das MLP, das für Klassifizierungsprobleme (MLPC) verwendet wird, wird mit Backpropagation trainiert. Der Backpropagation-Trainingsalgorithmus verwendet Gradientenabstieg, um die Verlustfunktion im Netzwerk zu minimieren. MLPs können für nichtlineare Modelle verwendet werden, was für die Verwendung von Zeitreihendaten vorteilhaft ist[11]. Das MLP reagiert empfindlich auf unterschiedliche Skalierungen in der Eingabe und wird für die Implementierung mit skalierter Eingabe empfohlen, ähnlich wie das BRBM Werte im Bereich [0,1] verwendet. Der MLP funktioniert gut mit dem BRBM, da die Gewichte des trainierten BRBM aufgrund ihrer ähnlichen Struktur auf den MLPC übertragen werden können[11]. Read Less