Korrelation graphisch
In diesem Eintrag werden wir die grafische Darstellung der Korrelation zwischen mehreren Variablen demonstrieren. In der Praxis ist es üblich, dass für Zwecke einer Regressionsanalyse Zusammenhänge visualisiert werden. Für dieses Beispiel wird der Datensatz “NaturalGas” aus dem AER-Paket von Christian Kleiber und Achim Zeileis (2008) verwendet. Zur Durchfühung der grafischen Darstellung wird die Funktion pairs() angewendet.
library(AER)
data("NaturalGas")
Zunächst schauen wir uns an, welche Variablen sich im Datensatz befinden:
summary(NaturalGas)
## state statecode year consumption price
## CA:23 5 :23 1967 : 6 Min. : 9430 Min. :0.680
## FL:23 10:23 1968 : 6 1st Qu.: 49104 1st Qu.:1.380
## MI:23 23:23 1969 : 6 Median :300836 Median :2.775
## NY:23 35:23 1970 : 6 Mean :252902 Mean :3.422
## TX:23 44:23 1971 : 6 3rd Qu.:346429 3rd Qu.:5.310
## UT:23 45:23 1972 : 6 Max. :637289 Max. :8.060
## (Other):102
## eprice oprice lprice heating
## Min. : 1.980 Min. : 5.01 Min. :0.680 Min. : 481
## 1st Qu.: 2.433 1st Qu.: 8.24 1st Qu.:1.258 1st Qu.:2082
## Median : 4.520 Median :19.86 Median :2.615 Median :4272
## Mean : 5.054 Mean :24.64 Mean :3.208 Mean :4155
## 3rd Qu.: 7.282 3rd Qu.:40.10 3rd Qu.:5.192 3rd Qu.:6498
## Max. :10.860 Max. :51.73 Max. :7.870 Max. :7440
##
## income
## Min. : 7465
## 1st Qu.: 9637
## Median :11367
## Mean :11193
## 3rd Qu.:12125
## Max. :16425
##
Aus der Überprüfung aller Variablen wird es für uns interessant zu sehen, ob es eine Korrelationen zwischen der Zielvariable price und den Variablen eprice, oprice und lprice gibt. Es wird der Behehl für die graphische Darstellung aller Korrelationen dürchgeführt:
pairs(log(NaturalGas[, c(5, 6, 7, 8)]))
Aus diesem Matrixbild können wir nicht nur die Korrelation zwischen der Preisvariable und anderen Variablen erkennen, sondern auch die gegenseitige Korrelation der verbleibenden drei. Dies wäre der erste Schritt, um die Voraussetzungen für die Konstruktion eines linearen Modells zu bestimmen. Im nächsten Blog werden wir mit der Regressionsanalyse fortfahren.