Lineare Regression
In Blog 3 haben wir die bestehende lineare Korrelation zwischen mehreren Variablen festgestellt. Da dies die Hauptbedingung für die Biildung eines Regressionsmodells ist, werden wir nun zeigen, wie die Funktion lm() verwendet wird, um die Koeffizienten des multiplen Regressionsmodells zu erhalten.
Regression ist eine statistische Methode, die in Finanz und Investitionsthemen oder anderen Disziplinen verwendet wird und es wird versucht, die Stärke und den Charakter der Beziehung zwischen einer abhängigen Variablen (normalerweise mit Y bezeichnet) und einer Reihe anderer Variablen (bekannt als unabhängige Variablen) zu bestimmen. Die Regressionsanalyse wird zu zwei Zwecken durchgeführt:
Um den Wert der abhängigen Variablen vorherzusagen,
Um die Wirkung einer oder mehrerer erklärenden Variablen auf die abhängige Variable abzuschätzen.
library(AER)
data("NaturalGas")
Zunächst schauen wir uns an, welche Variablen sich im Datensatz befinden:
summary(NaturalGas)
## state statecode year consumption price
## CA:23 5 :23 1967 : 6 Min. : 9430 Min. :0.680
## FL:23 10:23 1968 : 6 1st Qu.: 49104 1st Qu.:1.380
## MI:23 23:23 1969 : 6 Median :300836 Median :2.775
## NY:23 35:23 1970 : 6 Mean :252902 Mean :3.422
## TX:23 44:23 1971 : 6 3rd Qu.:346429 3rd Qu.:5.310
## UT:23 45:23 1972 : 6 Max. :637289 Max. :8.060
## (Other):102
## eprice oprice lprice heating
## Min. : 1.980 Min. : 5.01 Min. :0.680 Min. : 481
## 1st Qu.: 2.433 1st Qu.: 8.24 1st Qu.:1.258 1st Qu.:2082
## Median : 4.520 Median :19.86 Median :2.615 Median :4272
## Mean : 5.054 Mean :24.64 Mean :3.208 Mean :4155
## 3rd Qu.: 7.282 3rd Qu.:40.10 3rd Qu.:5.192 3rd Qu.:6498
## Max. :10.860 Max. :51.73 Max. :7.870 Max. :7440
##
## income
## Min. : 7465
## 1st Qu.: 9637
## Median :11367
## Mean :11193
## 3rd Qu.:12125
## Max. :16425
##
Nach der notwendigen Konfiguration und dem Einlesen des gleichen Datensatzes aus Blog 3 (NaturalGas),wird die Funktion lm() durchgeführt. Die Variable price wird als abhängige Variable definiert, die Variablen incom, eprice, oprice und lprice als unabhängige Variable festgesetzt. Für die Ausgabe aller Ergebnisse und F-Statistik wird die Funktion summary() verwendet:
mod1 <- lm(price ~ income + eprice + oprice + lprice, data = NaturalGas)
summary(mod1)
##
## Call:
## lm(formula = price ~ income + eprice + oprice + lprice, data = NaturalGas)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.16954 -0.12527 -0.04221 0.14467 0.99697
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.701e-01 1.756e-01 0.969 0.334
## income -1.604e-05 1.928e-05 -0.832 0.407
## eprice 2.726e-02 3.382e-02 0.806 0.422
## oprice 2.323e-02 3.474e-03 6.687 5.73e-10 ***
## lprice 8.485e-01 3.198e-02 26.535 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3023 on 133 degrees of freedom
## Multiple R-squared: 0.9811, Adjusted R-squared: 0.9806
## F-statistic: 1731 on 4 and 133 DF, p-value: < 2.2e-16
Der R2-Wert beurteilt die Güte eines Regressionsmodells, indem er die Erklärungskraft des Modells für die vorliegenden Daten darstellt. In diesem Fall beträgt er R² = 0.98. Dies bedeutet dass mit diesem Modell 98 % der Varianz der abhängigen Variable erklärt werden kann.
Im nächsten Blog werden wir uns mit der F-Statistik beschäftigen.