Bestimmtheitsmaß R² - Teil 3: Die Varianzzerlegung
Das R² ist ein Gütemaß der linearen Regression (s. Teil 1 und Teil 2 der Artikelserie über das Bestimmtheitsmaß). Ein wichtiges Konzept zum Verstehen des Bestimmtheitsmaß R² ist die Varianzzerlegung.
Allein unter Kenntnis der gemessenen Größe
Die folgende Grafik veranschaulicht dieses Konzept anhand einer einfachen Regression:
Abweichung
Die blauen Punkte stellen die gemessene Größe
- Die vertikale orangene Linie gibt die Gesamtabweichung einer beispielhaft ausgewählten Beobachtung
zum Mittelwert an – diesen Fehler würden wir machen, wenn wir mit dem Mittelwert die entsprechende Beobachtung vorhersagen würden. - Erklärte Abweichung: Die vertikale blaue Linie kennzeichnet die Abweichung der Regressionsgeraden zum Mittelwert – diesen Fehler können wir durch Hinzunahme der unabhängigen Variablen x vermeiden.
- Unerklärte Abweichung/Residuum: Die vertikale rote Linie gibt die Abweichung der speziellen Beobachtung
zur Regressionsgeraden an (Residuum ) – diesen Teil der Abweichung können wir auch durch Hinzunahme der unabhängigen Variablen x nicht vermeiden. Dabei ist zu beachten, dass die Residuen zufällig um die Regressionsgerade streuen sollten. Tun sie das nicht, ist von einer Fehlspezifikation des Modells auszugehen.
Das Prinzip der Varianzzerlegung spiegelt sich auch in der Formel zur Berechnung des R² wider:
oder
wobei
Fazit
Die naivste Vorhersage eines Merkmals für eine bestimmte unbekannte Beobachtung ist der Mittelwert über das Merkmal aller vorhandenen Beobachtungen. Die Nutzung der Information aus zusätzlichen (unabhängigen) Variablen im Rahmen eines Regressionsmodells kann helfen, diese Schätzung zu verfeinern und somit genauere Vorhersagen (Prognosen) zu treffen. Diese Verbesserung des Modells lässt sich am Bestimmtheitsmaß R² festmachen. Allerdings stimmen vorhergesagter Wert und beobachteter Wert in den seltensten Fällen exakt überein. In der Praxis bleibt immer eine Restabweichung des Punktes von der Regressionsgeraden – das Residuum. Bei einer korrekten Spezifikation des Modells sollten die Residuen zufällig um die Regressionsgerade streuen. Das R² nutzt das Konzept der Varianzzerlegung. Es besagt, dass sich die Varianz der abhängigen Variablen in erklärte Varianz und nicht erklärte Varianz (Residualvarianz) zerlegen lässt.