Add Thesis

Deep Text Mining of Instagram Data Without Strong Supervision

Written by Kim Hammar

Paper category

Master Thesis

Subject

Business Administration>Communication & Media

Year

2018

Abstract

Masterarbeit: Das in Kapitel 4 vorgestellte System zur Informationsextraktion verwendet komplexes Feature-Engineering und stützt sich auf Domänenwissen. In diesem Kapitel werden Methoden zum Lernen aus Rohdaten Text Mining erörtert. In Abschnitt 5.1 wird die zu untersuchende Klassifizierungsaufgabe vorgestellt, und in Abschnitt 5.2 wird ein tiefer, schwach überwachter Textklassifikator für Instagram-Posts vorgestellt. 5.1 Klassifizierungsaufgabe Obwohl unsere Forschung an mehreren Klassifizierungen interessiert ist, wie z. B. Markenklassifizierung und Stoffklassifizierung, liegt unser anfänglicher Schwerpunkt auf der Klassifizierung von Kleidungsstücken. Die Aufgabe ist ein Multi-Label-Mehrklassen-Klassifikationsproblem mit 13 Klassen. Diese Kategorien sind: Kleider, Mäntel, Hemden und Tuniken, Taschen, Accessoires, Röcke, Schuhe, Pullover und Strickjacken, Jeans, Jacken, Strumpfhosen und Socken, Oberteile und T-Shirts, Hosen und Shorts. 5.2 Detaillierte Klassifizierung von Kleidung mithilfe von Datenprogrammierung In diesem Abschnitt wird eine schwach überwachte Klassifizierungspipeline vorgestellt, die ich auf unseren Instagram-Post-Korpus angewendet habe. Die Pipeline umfasst die Schritte der spezifischen Kennzeichnung von Datensätzen mit schwacher Überwachung (Abschnitt 5.2.1), der Kombination schwacher Kennzeichnungen mit Datenprogrammierung zur Erzeugung probabilistischer Kennzeichnungen (Abschnitt 5.2.2) und Text Mining des Trainings diskriminanter Modelle unter Verwendung probabilistischer Kennzeichnungen (Abschnitt 5.2 Abschnitt .3). 5.2.1 Schwache Überwachung von Modeattributen in Instagram-Posts Ich habe sieben Tagging-Funktionen verwendet, um einen Datensatz von 30.000 Instagram-Posts mit Modeattributen zu kennzeichnen. Der Zweck der Verwendung mehrerer Funktionen ist, dass ich hoffe, dass die Kombination von Funktionen die Genauigkeit der Überwachung im Vergleich zu den Funktionen, die von jeder einzelnen Funktion bereitgestellt werden, verbessern wird. Die Funktionen sind wie folgt: 1.λ1, eine Funktion, die die Cloud Vision API1 von Google verwendet, um Bilder zu klassifizieren, die mit Text verbunden sind. 2.λ2, ein System zur Informationsextraktion, SemCluster. 3.λ3, eine Funktion der Computer Vision unter Verwendung der Depomatic2API zur Klassifizierung von Bildern, die mit Text verbunden sind. 4. λ4, Text Mining eine Funktion, die Schlüsselwörter verwendet, um die Mode-Ontologie mit dem Abstand zwischen Lev-enshtein (Levenshtein 1966) übereinstimmen. 5.λ5, eine Funktion der Mode-Ontologie, die Schlüsselwort-Matching und Wort Einbettung Word2Vec-Fashion verwendet. 6.λ6, eine Funktion, die Clarifai "Apparel"-Modell 3 verwendet, um Bilder im Zusammenhang mit Text zu klassifizieren. 7.λ7, eine Funktion, die den von DeepDe-tect4 bereitgestellten vortrainierten Bildklassifikator verwendet. Verglichen mit der Überwachung in Form einer manuellen Annotation ist die Überwachung durch die oben erwähnte Markierungsfunktion erweiterbar und äußerst kostengünstig. Abbildung 5.15 veranschaulicht Text Mining meine Pipeline für das Training eines schwach überwachten Textklassifikators mit dieser Methode. 5.2. Verwenden Sie Datenprogrammierung, um Text tiefgreifend zu klassifizieren. 5.2.2 Kombination von schwachem Multi-Labeling mit Datenprogrammierung In der ursprünglichen Arbeit zur Datenprogrammierung wurde ein binäres Klassifizierungsszenario untersucht, und es wurde angenommen, dass die Label-Funktion binär ist (A. J. Ratner et al., 2016). Der Unterschied zwischen der in dieser Arbeit vorgeschlagenen Beschriftungsfunktion und dem binären Modell besteht darin, dass sie anstelle der in Gleichung 1 definierten skalaren Ausgabe mehrere Ausgaben hat. (5.1). In der verwendeten Notation Text Mining steht C für eine Reihe von Kategorien, -1 für ein negatives Etikett, 0 für "kein Etikett" und 1 für ein positives Etikett. λj(xi) =~z∈R|C|∧zk∈{-1,0,1} (5.1) Um das Paradigma der Datenprogrammierung für die Multi-Label-Klassifikation zu nutzen, verwende ich ein generatives Modell für jede Klasse, um die Etikettierungsprozessform zu konstruieren. Mit dieser Methode kann die Kombination von generativen Modellen die individuellen Genauigkeitsschätzungen der Beschriftungsfunktion für jede Kategorie darstellen. Formal wird das generative Modell πα,β(Λ(k),Y(k)) auf die unmarkierten Daten der Klasse k unter Verwendung der beobachteten Überlappungsmarkierungsfunktion angewendet. In dieser Schreibweise ist Λ(k)i,j= (λj(xi))k, und Y(k) ist das wahre Label der Klasse k, das als latente Variable modelliert wird. Nach dem Training werden die vom generativen Modell gelernten Parameter verwendet, um Wahrscheinlichkeitsbezeichnungen p(Y(k)|Λ(k))∈Rn∧p(Y(k)|Λ(k))i∈[0,1] für jede Klasse A und jedes Trainingsbeispiel i∈{1,...n} zu erzeugen. Das Wahrscheinlichkeitslabel jeder Kategorie bildet dann einen Spaltenvektor p(Y|Λ)∈Rn×|C| in der Wahrscheinlichkeitslabel-Matrix, der zum Trainieren eines Multi-Label-Klassifikators verwendet werden kann (Gleichung (5.2)). In meinem Experiment habe ich die Snorkel6-Implementierung (A. Ratner et al. 2017) verwendet, um ein generatives Modell auf unmarkierten Daten zu trainieren. Der Vollständigkeit halber wird im Folgenden die Definition des Trainingsprozesses in Snorkel dargestellt. Zunächst wird die Beschriftungsfunktion auf die nicht beschrifteten Daten Λ(k)i,j=(λj(xi))k angewendet. Dann wird der Vektor φ verwendet, um das generative Modell (k)i(Λ(k), Y(k)) zu kodieren. Faktoren für jeden unbeschrifteten Datenpunkt xi und die Kategorie k. Dieser Vektor enthält kaskadierende Werte, die die Tendenz des Markers angeben (für jeden Marker, der andere zu sein). Unter Verwendung dieser Vektoren für jeden Datenpunkt und jede Markierungsfunktion sowie des Vektors der Modellparameter w(k) kann das Modell als Gleichung definiert werden. (5.3) (Ebd.). Dabei ist Zw(k) die Normalisierungskonstante und mis die Anzahl der nicht beschrifteten Datenpunkte. Diese Implementierung verwendet stochastischen Gradientenabstieg und die Verschachtelung von Gibbssampling, um das Ziel zu maximieren (A. Ratner et al., 2017). Nach dem Training besteht die Vorhersage des Modells aus dem Wahrscheinlichkeitslabel pˆw(k)(Y(k)|Λ(k)) der Kategorie k. Read Less