Add Thesis

Entwicklung einer global verteilten Infrastruktur zur Speicherung, Strukturierung und Analyse von Logdaten

Written by D. Brandtner

Paper category

Bachelor Thesis

Subject

Computer Science

Year

2014

Abstract

Bachelorarbeit: Allgemeine Logdaten Als Logdaten werden alle Arten von Aufzeichnungen von Ereignissen oder Systemzuständen verstanden. Dazu gehören auch Fehlermeldungen oder Systemleistungswerte. Die Daten können allgemeiner Natur sein, vom System selbst generiert werden oder aus einer einzelnen Anwendung stammen, beispielsweise einem Web- oder E-Mail-Dienst. Im Allgemeinen werden Ereignisse zeilenweise in einer Textdatei aufgezeichnet, wobei pro Zeile ein Ereignis geschrieben wird. Normalerweise gibt der Zeitstempel am Anfang jeder Zeile den Zeitpunkt an, zu dem das Ereignis eingetreten oder aufgezeichnet wurde. Der Rest der Zeile enthält die eigentlichen Informationen zum Ereignis. Je nach Anwendung werden diese nach festen Mustern aufgebaut. Ein Ereignis kann auch mehrere Zeilen in der Protokolldatei belegen. Dies erschwert jedoch die Handhabung von Log-Dateien hinsichtlich der Durchsuchbarkeit oder der automatischen Erkennung einzelner Informationen aus einzelnen Ereignissen. Die Beispielzeile des Webservers aus der Protokolldatei wird wie folgt erläutert. Ihr Format entspricht dem „Combined Log File Format“3 (CLF), das von verschiedenen Webservern verwendet wird. Dieses aufgezeichnete Ereignis zeichnete einen Abruf einer Website auf. Die Zeile besteht aus verschiedenen Informationsfeldern. Alle diese Zeilen, die vom Webserver geschrieben werden, folgen ebenfalls diesem Format.Wenn Sie die Protokollzeilen von links nach rechts lesen, erhalten Sie folgende Informationen: 192.109.234.216 Die IP-Adresse des aufrufenden Computers. [21 / August / 2014: 01: 33: 24 +020] Das Datum und die Uhrzeit des Anrufs. Im Vergleich zur Greenwich Mean Time (GMT) verschiebt sich die Zeitzone des Servers um zwei Stunden. GET /index.html HTTP / 1.1 Dieser Aufruf verwendet den Website-Standard "Hypertext Transfer Protocol" (HTTP) Version 1.1 und verwendet seine GET-Methode, um eine Seite namens index.htmlan anzufordern. 200 Hier wird der Antwortstatuscode des Webservers auf den HTTP-Request codiert 200 bedeutet, dass der Dienst erfolgreich aufgerufen wurde. 1468 Die Größe der gesendeten Antwort in Byte. http://frankfurt-university.de/ Falls vorhanden, geben Sie die lokale Adresse der index.html-Website an. (Der Rest der Zeile) Den sogenannten "UserAgent" finden Sie hier. Wenn sie vom aufrufenden System gesendet wird, enthält sie weitere Informationen über den aufrufenden Computer. Dazu gehören die verwendete Browserversion und die Art des verwendeten Betriebssystems. Das Beispiel dieses Website-Aufrufs ist ein Beispiel für andere Anwendungen. Die Protokollzeilen jeder Anwendung zeichnen sich dadurch aus, dass sie einem festen Format folgen, sodass sie automatisch durchsucht werden können. 2.2 syslog-Protokoll Die Anwendung muss den Schreibzugriff auf ihre Protokolldatei nicht selbst verwalten. Beispielsweise können Sie die erzeugten Log-Daten an den lokalen Syslog-Dienst übertragen, der sie verarbeitet oder über das Netzwerk an den Syslog-Dienst auf anderen Systemen übertragen. Verwenden Sie für die Übertragung ein standardisiertes Syslog-Netzwerkprotokoll. Die lokale Verarbeitung des Systemprotokolldienstes kann bedeuten, dass Daten in Echtzeit auf dem Bildschirm angezeigt, per E-Mail an den Benutzer gesendet oder im typischsten Fall die Daten in einer Protokolldatei aufgezeichnet werden. [1] Die heute am weitesten verbreitete Implementierung des Syslog-Protokolls unter Linux ist die ursprüngliche Referenzimplementierung des Protokolls "syslogd"[1] sowie "syslog-ng"4 und das aktualisierte "rsyslog"5. Diese Dienste befinden sich im Hintergrund des Systems und implementieren den Empfang oder die Weiterleitung von Nachrichten gemäß dem Syslog-Protokoll. Aufgrund der begrenzten Anzeigefläche des Bildschirms kann eine große Anzahl von E-Mails zu Problemen anderer Art führen.Diese Methoden sind nur für eine geringe Menge an Protokolldaten geeignet. Das Erstellen und Speichern in einer Protokolldatei stellt eine bessere Möglichkeit dar, eine große Anzahl von Dateien zu handhaben.Zu einem späteren Zeitpunkt ist der "File System Hierarchy Standard" (FHS) eine Reihe von Richtlinien für die Verwendung der Verzeichnisstruktur von UNIX-ähnlichen Es wird empfohlen, alle generierten Protokolldaten im Verzeichnis /var/log oder seinen Unterverzeichnissen zu speichern. [2] Daher enthält dies Protokolldateien einer einzelnen Anwendung und Dateien, die sich nicht auf die Anwendung beziehen, die vom System verwaltet werden selbst. Anwendungen, die keine eigenen Protokolldateien führen, verwenden normalerweise gemeinsame Dateien. Jede der drei zuvor erwähnten Syslog-Implementierungen hat ihre eigene gemeinsame Protokolldatei, wie /var/log/messages oder /var/log/syslog. Beispiele für Protokolldateien einiger Anwendungen sind das Zugriffsprotokoll des Webservers (siehe Beispiel in Listing 2.3) und das Zustellprotokoll des E-Mail-Servers oder das Protokoll des Benutzers, der sich am System anmeldet. Die Anwendung ist nicht an eine einzelne Protokolldatei gebunden, sondern kann so viele Dateien verwenden, wie es der Entwickler oder Benutzer für sinnvoll hält. Sie können dieselbe Nachricht auch in mehrere Protokolldateien schreiben. Beispielsweise kann der Mailserver die Protokolldaten von ein- und ausgehenden E-Mails in separate Dateien schreiben. Es kann auch mit Viren infizierte E-Mails oder unerwünschten Spam separat aufzeichnen. Virenentdeckungen können auch in systemweiten Sicherheitsprotokolldateien aufgezeichnet werden. Im Falle eines Webservers erscheint es hingegen naheliegend, für jeden bereitgestellten Webzustand eine Protokolldatei zu erstellen. Read Less