Deskriptive Statistik
Nach dem erfolgreich durchgeführten Datenmanagement folgt die Beschreibung der Variablen hinsichtlich ihrer statistischen Eigenschäften. Dieser Teil wird als deskriptive Statistik bezeichnet. Die Beschreibung der statistischen Parameters erfolgt zum Zwecke der Bestimmung der Verteilungsform oder des Verhältnises der Ausprägungen.Die Darstellungsweise der statistischen Parameters hängt von den Skalenniveaus des Merkmals ab. Bei der Variablen mit kardinalen Skalenniveaus werden Lage- und Streuungsmaße untersucht, während bei den Merkmalen mit dem nominalen und ordinalen Skalenniveau die absolute und relative Verhältnisse bestimmt. Alle statistischen Eigenschafte werden numerisch in Form einer Tabelle angegeben und graphisch visualisiert.
In disem Blog wird der Datensatz daten_deskr verwendet mit den folgenden Variablen: fehltag, einkom, geschlecht und azm.
Zuerst werden die chunks konfiguriert und das nötige Paket mosaic geladen:
library(mosaic)
Der Datensatz wird abgelesen:
daten_deskr<- read.csv2("daten_deskr.csv")
Mit dem befehl inspect werden die Variablen überprüft:
inspect(daten_deskr)
##
## categorical variables:
## name class levels n missing
## 1 geschlecht character 2 695 0
## 2 azm character 3 695 0
## distribution
## 1 weiblich (65.5%), männlich (34.5%)
## 2 Vollzeit (73.8%), Teilzeit (25.9%) ...
##
## quantitative variables:
## name class min Q1 median Q3 max mean sd n
## ...1 X integer 2 233.5 485 766.5 1028 499.317986 305.865298 695
## ...2 fehltag integer 0 1.0 5 10.0 80 6.454676 8.190485 695
## ...3 einkom integer 1 3.0 4 5.0 10 4.123741 1.683689 695
## missing
## ...1 0
## ...2 0
## ...3 0
1 Deskriptive Statistik
Demnächst erfolgt die numerische und grafische Darstellung der Lage- und Streuungsmaßen. Die statistische Parameter aller Variablen werden einzeln überprüft und visualisiert.
1.2 Variable fehltag
Die Variable “fehltag” gibt die Antwort auf die Frage: “Wie hoch waren ihre Fehltage im Beruf im Jahre 2015 aufgrund von Krankheit?“ Das Merkmal ist metrisch-Verhältnis skaliert. Es folgt die numerische und visuelle Darstellung der Lageparameter und Streuungsmaße dieser Variable.
inspect(daten_deskr$fehltag)
class <chr> | min <dbl> | Q1 <dbl> | median <dbl> | Q3 <dbl> | max <dbl> | mean <dbl> | sd <dbl> | n <int> | ||
---|---|---|---|---|---|---|---|---|---|---|
1 | integer | 0 | 1 | 5 | 10 | 80 | 6.454676 | 8.190485 | 695 |
d<- density(daten_deskr$fehltag)
plot(d)
bwplot(daten_deskr$fehltag)
Das Histogramm zeigt rechtsschief verteilte Daten an. Dem Boxplot zufolge sind einige Ausreißer vorhanden. Die Hälfte der Befragten hatten 1 bis 10 Fehltagen (das untere und obere Quartil). Der Median beträgt 5 und die Standardabweichung liegt bei 8,54. Einige Befragten haben bis zum Maximum 80 Tagen an der Arbeit gefehlt, andere aber schreiben keinen Fehltag da Minimum beträgt 0.
2.2 Variable einkom
Die Variable einkom stellt das monatliche Nettoeinkommen der Befragten dar. Sie ist ordinal skaliert mit zehn Kategorien und kann als metrische Variable betrachtet werden. Die Kategorien sind wie folgt definiert: 1 < 500 Euro 2 < 1.000 Euro 3 < 1.500 Euro 4 < 2.000 Euro 5 < 2.500 Euro 6 < 3.000 Euro 7 < 3.500 Euro 8 < 4.000 Euro 9 < 4.500 Euro 10 >= 4.500 Euro Es folgt numerische und graphische Verteilung der Variable einkom unter der Annahme dass sie als ordinal skalierte Variable definiert wird:
tally(~einkom, format="percent", data=daten_deskr)
## einkom
## 1 2 3 4 5 6 7
## 2.0143885 13.5251799 19.8561151 31.6546763 17.1223022 8.0575540 3.1654676
## 8 9 10
## 2.1582734 0.7194245 1.7266187
bargraph(~einkom, data=daten_deskr)
In der Tabelle ist die prozentuale Verteilung der Kategorien des Einkommens zu sehen und in der Abbildung wird es graphisch visualisiert. Demnächst werden die Kennwerte der metrisch betrachtete Variable dargestellt:
favstats(daten_deskr$einkom)
min <dbl> | Q1 <dbl> | median <dbl> | Q3 <dbl> | max <dbl> | mean <dbl> | sd <dbl> | n <int> | missing <int> | |
---|---|---|---|---|---|---|---|---|---|
1 | 3 | 4 | 5 | 10 | 4.123741 | 1.683689 | 695 | 0 |
d<- density(daten_deskr$einkom)
plot(d)
bwplot(daten_deskr$einkom)
Das Histogramm in der Abbildung ist als linksschief zu bezeichnen. Dem Boxplot zu Folge gibt es Paar Befragtn die mehr als 4500 Euro verdienen da die der 9. und 10. Kategorie der Lohngruppen gehören. Sie sind als Paar Ausreißer zu erkennen. Das erste Quartil beträgt 3 und das dritte Quartil 5, was beduetet das die Hälfte der Befragten können zwischen dritte und fünfte Gehaltsgruppe zugeordnet werden können (weniger als 1500 Euro und weniger als 2500 Euro). Der Median hat den Wert 4, also die Hälfte der Befragten verdienen weniger als 2000 Euro. Der Mittelwert liegt bei 4,12 und die Standardabweichung bei 1,68.
1.3 Variable geschlecht
Die Variable geschlecht stellt das Geschlecht der Befragten dar. Sie ist nominal skaliert mit der zwei Ausprägungen. Demnächst wird sie numerisch und graphisch dargestellt:
tally(~geschlecht, data=daten_deskr)
## geschlecht
## männlich weiblich
## 240 455
tally(~geschlecht, format="percent", data=daten_deskr)
## geschlecht
## männlich weiblich
## 34.53237 65.46763
bargraph(~geschlecht, data=daten_deskr)
Unter der Befragten wurden 240 (34 %) Männer und 455 (65%) Frauen beteiligt.
1.4 Variable azm
Das Merkmal azm stellt das Arbeitszeitmodell des Befragten dar. Das Skalenniveau der Variable ist nominal mit drei Ausprägungen: 1-Volzeit, 2-Teilzeit und 3-kein Beschäftigung (aktuell). Die nummerische und graphische Zuordnung sieht wie folgt aus:
tally(~azm, data=daten_deskr)
## azm
## KeineBesch Teilzeit Vollzeit
## 2 180 513
tally(~azm, format="percent", data=daten_deskr)
## azm
## KeineBesch Teilzeit Vollzeit
## 0.2877698 25.8992806 73.8129496
bargraph(~azm, data=daten_deskr)
Es gibt nur 2 Befragten die aktuell arbeitslos sind, 180 (25 %) haben eine Teilzeit- und 513 (73,81 %) eine Vollzeitbeschäftigung.