Add Thesis

Analyse des Datensatzes „Marathon“

Beeinflussen Schuhmarken und Distanzen ein erfolgreiches Marathontraining hinsichtlich der gelaufenen Geschwindigkeit?

Written by Anonymous

Paper category

Term Paper

Subject

Business Administration

Year

2019

Abstract

Hausarbeit: Der Datensatz „Marathon“ stammt aus dem Stat2Data Package für R-Studio. Der Datensatz beinhaltet Trainingsmessungen eines Marathonläufers über eine Zeitperiode von 5 Jahren (2002-2006).Der vorliegende Datensatz „Marathon“ beinhaltet 1128 Messungen (Beobachtungen) anhand von 9 verschiedenen Variablen, welche sowohl kategorisch als auch numerisch sind.DateTraining dateMilesMiles for training runTimeTraining time (in minutes:seconds:hundredths)PaceRunning pace (in minutes:seconds:hundredths per mile)ShoeBrand Addidas, Asics, Brooks, Izumi, Mizuno, or New Balance TimeMin Training time (in minutes) PaceMin Running pace (in minutes per mile)Short1= 5 miles or less or 0=more than 5 milesAfter20041= for runs after 2004 or 0=for earlier runsDer oben genannte Datensatz stammt aus folgender Quelleund kann dort eingesehenund heruntergeladen werden:https://vincentarelbundock.github.io/Rdatasets/doc/Stat2Data/Marathon.html2.Forschungsfrage und HypothesenForschungsfrage: Beeinflussen Schuhmarken und Distanzen ein erfolgreichesMarathontraining hinsichtlich der gelaufenen Geschwindigkeit?Hypothese 1 –Es gibtkeinenUnterschied zwischen der Laufschuhmarke (ShoeBrand)bezüglich der Laufgeschwindigkeit pro Minute (Pace/Min). Die Mittelwerte sind alle gleich.Hypothese 2 –Es gibt keinen Zusammenhang zwischen der Geschwindigkeit(Pace/Min) und der Distanz (Miles) eines Laufes.Die Hypothesen werden im Folgenden unter der Prämisse von einem Signifikanzniveau α=0,05 untersucht und analysiert.3.Datenimport und Pakete in R-StudioFür die Datenanalyse wird im Folgenden R-Studio verwendet. Der Datensatz Marathonist unterhttps://vincentarelbundock.github.io/Rdatasets/doc/Stat2Data/Marathon.htmlabrufbar.Im weitere Verlauf werden die Pakete library(mosaic), library(dplyr)und natürlich die Base verwendet, welche vor Bearbeitung installiert wurden.3 4.Aufbereitung des DatensatzesDa für die Analyse der Hypothesen nicht alle Variablen notwendig sind, wird der Datensatz bearbeitet und nicht gebrauchte Variablen herausgefiltert. Der Datensatz wird so im Allgemeinen reduziert.Des Weiteren ist für den weiteren Verlauf hervorzuheben, dass bei den Schuhmarken nur Daten aus dem Zeitraum 14.02.2005-30.12.2006 beachtet werden können, da es vorher keine Angaben zu den Marken gibt.Lediglich die Variablen ShoeBrand, Pace/Min, Miles, Shortwerden für die Analyse benötigt. Die nicht gebrauchten Variablen werden ausgeklammert und eine neueTabelle für die Datenanalyse des Datensatzes „Marathon“ erstellt. Die Tabelle wird unter „Marathon_neu“ gespeichert.select(Marathon, PaceMin, Miles, Short, ShoeBrand)Marathon_neu <-select(Marathon, PaceMin, Miles, Short, ShoeBrand)Mithilfe des Befehls „summary“ werden verschiedene deskriptive Kennzahlen für die ausgewählten Variablen angezeigt, um zunächst einen Überblick zu bekommen.summary(Marathon_neu)5.Überblick Datensatz „Marathon“Da der Fokus nur auf den vier benötigten Variablen liegt, ist es sinnvoll, sich diese einmal genauer anzuschauen.5.1. Pace/MinWeil die Geschwindigkeit (Meilen pro Stunde, mph), also der Pace pro Minute bei einem erfolgreichen Marathon relevant ist, wird sich nun einmal nur die Kennzahl PaceMin angeschaut.summary(Marathon_neu$PaceMin)Min. 1st Qu. Median Mean 3rd Qu. Max. NA's 7.047 7.733 8.0088.080 8.367 10.301 1Der Median liegt bei 8,008 mph. Dies bedeutet, dass 50% der Läufe schneller als 8,008mph und 50% der Läufe langsamer als 8,008mph waren. Die Spannweite (min-max) liegt bei 7,047mph (min) und 10,301mph (max).Mit dem Umrechnungskurs 1.61 lässt sich die Pace/min in mp/h auch in km/h umwandeln:4 summary(Marathon_neu$PaceMin*1.61)Min. 1st Qu. Median Mean 3rd Qu. Max. NA's 11.35 12.45 12.8913.01 13.47 16.58 15.2. ShoeBrandAuch die Schuhmarke soll im Folgenden analysiert werden. Daher ist es auch hier sinnvoll sich einmal einen Überblick zu verschaffen. DerDatensatz bietet erst Aufzeichnungen hinsichtlich der Schuhmarke ab dem 14.02.2005-30.12.2006.summary(Marathon_neu$ShoeBrand)*AddidasAsicsBrooksIzumi* 7561741032657Mizuno New Balance1082Da es sich um eine kategoriale Variable handelt, kann man hier gut den Modalwert, also die häufigste Merkmalsausprägung sehen. Die größte Merkmalsausprägung liegt bei der Marke (Brand) Mizuno mit 108.*Die 756 werden nicht beachtet, da dies die fehlenden Aufzeichnungen von 2002-2005 sind.5.3. MilesDasich im weiteren Verlauf auch mit den gelaufenen Meilen (Miles) beschäftigt wird, erfolgt auch hier ein Überblick.summary(Marathon_neu$Miles)Min. 1st Qu. Median Mean 3rd Qu. Max.1.000 5.000 6.0007.205 8.000 26.200Der Median liegt hier bei 6 Meilen. 50% der Läufe waren demnach länger als 6 Meilen und 50% der Läufe kürzer als 6 Meilen. Die Spannweite liegt bei 1 Meile bis 26 Meilen (min-max).Auch hier lässt sich die Einheit Meilen durch den Umrechnungskurs 1.609 in Kilometer umwandeln.> summary(Marathon_neu$Miles*1.609)Min. 1st Qu. Median Mean 3rd Qu. Max.1.609 8.045 9.65411.593 12.872 42.1565.4. ShortAuch die Läufe über oder unter 5 Meilen sind relevant. R-Studio gibt uns hierfür allerdings numerische Variablen obwohl „Short“ mit 1=unter 5 Meilen und 0=über 5 Meilen definiert ist.Wir müssen daher „Short“ in kategorische Variablen umwandeln.Dafür wird nur die Short-Variable selektiert. Nachfolgend wird as.factor verwendet, um die Variable von numerisch auf kategoriale Variable (Faktor) umzuwandeln. Read Less