Regressionsrechnung

Oft werden zwei Merkmale daraufhin untersucht, wie stark sie miteinander zusammenhängen (korrelieren). Ein Maß dafür ist die Kovarianz:


("Mittelwert der Produkte minus Produkt der Mittelwerte")

Eine andere Möglichkeit besteht darin, die Daten durch eine geeignete Funktion möglichst gut anzunähern.

Lineare Regression

Bei der Methode der linearen Regression nimmt man an, dass zwischen den beiden Werten ein linearer Zusammenhang besteht, das heißt:
y = a·x + b + ein zufälliger Fehler
Die Konstanten a und b werden so bestimmt, dass die Summe der Quadrate der Fehler möglichst klein wird (Methode der kleinsten Fehlerquadrate von C.F. Gauß). Anschaulich können wir uns das so vorstellen, dass wir x und y als Koordinaten von Punkten auffassen und in ein Koordinatensystem einzeichnen. Wir suchen dann die Gerade, die diese Punktwolke am besten annähert (Regressionsgerade, siehe Beispiel). Diese Aufgabe kann man mit Hilfe der Differentialrechnung lösen und erhält als Gleichung der Regressionsgeraden:

y = a·x + b, wobei

Die zweite Formel ergibt sich daraus, dass die Regressionsgerade durch den "Schwerpunkt" der Punktwolke geht.

Der Korrelationskoeffizient r liefert ein Mass dafür, wie gut die gegebenen Werte durch diese lineare Funktion angenähert werden. Er ist definiert durch

Der Wert von r liegt immer zwischen −1 und 1. Dabei bedeutet
r nahe bei 1: starker positiver Zusammenhang (je größer x, umso größer y)
r nahe bei −1: starker negativer Zusammenhang (je größer x, umso kleiner y)
r nahe bei 0: schwacher oder gar kein Zusammenhang

Manchmal verwendet man auch das Bestimmtheitsmaß r2. Es gibt an, welcher Anteil der Abweichungen vom Mittelwert durch die Korrelation erklärt wird.

Achtung: Eine starke Korrelation muss noch keinen ursächlichen Zusammenhang bedeuten! (Es gibt zwar eine positive Korrelation zwischen der Anzahl der Störche im Burgenland und der Zahl der Geburten, aber daraus kann man nicht schließen, dass der Storch die Kinder bringt!)

Normalerweise ermittelt man die Regressionsgerade mit der Statistikfunktion des Taschenrechners oder anderer geeigneter Technologie.

Andere Regressionsmodelle

In manchen Fällen kann es zweckmäßiger sein, die gegebenen Daten durch eine quadratische Funktion, eine Exponentialfunktion usw. anzunähern. Dann spricht man von quadratischer Regression bzw. exponentieller Regression ... Auch diese Funktionen kann man mit der Statistikfunktion des Taschenrechners finden.


Beispiel:

Wir wollen anhand der Angaben aus dem vorigen Beispiel untersuchen, ob zwischen Körpergröße (x) und Schuhgröße (y) ein linearer Zusammenhang besteht.
Wir zeichnen die Werte in ein Koordinatensystem:

regression

Um die Regressionsgerade mit der Hand zu ermitteln, machen wir am besten eine Tabelle:

i

xi

yi

xi2

yi2

xi·yi

1

168

39

28224

1521

6552

2

170

39

28900

1521

6630

3

161

38

25921

1444

6118

4

168

38

28224

1444

6384

5

162

37

26244

1369

5994

6

172

41

29584

1681

7052

7

164

38

26896

1444

6232

8

167

38

27889

1444

6346

9

170

40

28900

1600

6800

10

158

37

24964

1369

5846

Summe

1660

385

275746

14837

63954

: n =

166

38,5

27574,6

1483,7

6395,4

V(x) = 27574,6 − 1662 = 18,6
V(y) = 1483,7 − 38,52 = 1,45
Cov(x,y) = 6395,4 − 166·38,5 = 4,4

a = 4,4/18,6 = 0,237
b = 38,5 − 0,237·166 = −0,769
r = 4,4/√(18,6·1,45) = 0,847

Die Gleichung der Regressiongeraden lautet also

y = 0,237·x − 0,769

Das heißt: Pro Zentimeter Körpergröße nimmt die Schuhgröße um durchschnittlich 0,237 zu.
Der Korrelationskoeffizient liegt nahe bei 1, es handelt sich also um einen starken positiven Zusammenhang.

Mithilfe der Regressionsrechnung kann man auch einen Trend abschätzen. Das ist vor allem dann von Bedeutung, wenn es sich bei den Daten um eine Zeitreihe handelt.

Beispiel:

Der Pkw-Bestand in Österreich betrug (in Tausend):
1970: 1197
1975: 1721
1980: 2247
1985: 2531
1990: 2991
Ermittle die lineare Regressionsfunktion und erstelle eine Prognose für 2000.

Wenn wir 1970 als Jahr 0 annehmen, lautet die Gleichung der Regressionsgeraden:

y = 87,96·x + 1257,8

Für 2000 (Jahr 30) erhalten wir dann den Wert

y(30) = 87,96·30 + 1257,8 = 3896,6

Wir können also für 2000 einen Pkw-Bestand von 3896600 erwarten (blauer Punkt). Tatsächlich waren es 4097000 Pkw, die Prognose ist also ziemlich gut.

Übungen