Logistische Regression - Modell und Grundlagen
Nach der Artikelserie zur einfachen linearen Regression und der multiplen linearen Regression widmet sich diese Artikelserie der logistischen Regression (kurz: Logit Modell). Das Logit-Modell ist ein extrem robustes und vielseitiges Klassifikationsverfahren. Es ist in der Lage, eine abhängige binäre Variable zu erklären und eine entsprechende Vorhersage der Wahrscheinlichkeit zu treffen, mit der ein Ereignis eintritt oder nicht. Die folgenden Beispiele verdeutlichen das Spektrum möglicher Anwendungen:
- Conversion-Prognose: Kauft ein Kunde ein Produkt?
- Bonität: Zahlt ein Kreditnehmer einen Kredit vollständig zurück?
- Markenbekanntheit: Kennt jemand eine Marke?
- Parteipräferenz: Würde eine Person Partei X wählen, wenn am kommenden Sonntag Bundestagswahlen wären?
- Medizinische Diagnose: Hat eine Person eine bestimmte Krankheit?
- Qualitätskontrolle: Entspricht ein Produkt der Spezifikation?
- Einschaltquoten: Hat eine Person eine TV-Sendung gesehen?
- A/B-Testing: Ist Version A einer Webseite besser als eine Version B?
- ...
Obwohl die zu erklärende Variable binär ist (also zwei Ausprägungen besitzt, z.B. ja oder nein, krank oder nicht-krank, besser/genauso gut oder schlechter, ...), kann das Logit-Modell über die reine Klassifikation hinaus auch eine Wahrscheinlichkeit dafür prognostizieren, dass eine Untersuchungseinheit einer Gruppe angehört (z.B. eine Person wird den Kredit mit einer Wahrscheinlichkeit von 95% zurückzahlen). Die Methodik entspricht dabei weitgehend der der linearen Regression - Hauptunterschied ist, dass bei der linearen Regression die abhängige Variable metrisch ist, während sie beim Logit Modell diskret (genauer gesagt: binär) ist.
Was ist der Unterschied zwischen einer metrischen und einer binären Variable?
Metrische Variable: Die Abstände der einzelnen Werte sind interpretierbar und es besteht eine Rangfolge zwischen ihnen. Beispiel: Gewicht, Reaktionszeiten, Geldbeträge, ...
Binäre Variable: Die Variable hat genau zwei Ausprägungen. Beispiel: Geschlecht (männlich, bspw. kodiert als 0; weiblich, bspw. kodiert als 1)
Vielleicht stellen Sie sich an diesem Punkt die Frage, warum eine lineare Regression für die Modellierung von binären abhängigen Variablen nicht die optimale Methode ist. Würde man die Wahrscheinlichkeit für ein beliebiges Ereignis Y=1 mittels eines einfachen linearen Regressionsmodells bestimmen, sähe dieses Modell grafisch folgendermaßen aus:
Das zugehörige lineare Regressionsmodell lautet:
Eine einfache lineare Regression modelliert die Werte, die sich auf der roten Regressionsgerade befinden. Theoretisch ist ihr Wertebereich
Konkret treten folgende Probleme bei der Modellierung einer binären abhängigen Variablen durch eine lineare Regression auf:
- Die linke Seite der Regressionsgleichung ist binär (es treten nur die Werte 0 und 1 auf), die rechte Seite ist metrisch skaliert.
- Das lineare Regressionsmodell gibt auch Werte <0 und >1 aus, was für die Modellierung einer Wahrscheinlichkeit unzweckmäßig ist.
- Die Residuenvarianz ist nicht homoskedastisch, d.h. die Varianz (
) der beobachteten Größe einer Beobachtung i ist von ihrem Niveau ( ) abhängig. , (wobei die Wahrscheinlichkeit für das Ereignis für die i-te Beobachtung im Datensatz ist). Dies ist der Fall, da die abhängige Variable der Bernoulliverteilung folgt.
Um diese Probleme zu beseitigen, wird eine Funktion auf die rechte Seite der Gleichung angewendet, deren Zweck es ist, den unbeschränkten Wertebereich der linearen Funktion auf den Bereich 0 bis 1 zu transformieren. Infrage kommende Funktionen sollten streng monoton steigend sein und den Bereich der reellen Zahlen auf das Intervall 0 bis 1 abbilden.
Für den Statistiker naheliegend ist die Nutzung verschiedener Verteilungsfunktionen, die genau diese Eigenschaften mitbringen. Bei der Verwendung der logistischen Verteilungsfunktion
ergibt sich das sogenannte Logit-Modell.
Eine Alternative zur logistischen Verteilungsfunktion stellt die Verteilungsfunktion der Normalverteilung dar. Wird diese verwendet, so ergibt sich das Probit-Modell. Das Logit-Modell wird dem Probit-Modell jedoch häufig vorgezogen, da die Regressionskoeffizienten einfacherer interpretiert werden können.
Das logistische Regressionsmodell
Das logistische Regressionsmodell zielt darauf ab, mithilfe der logistischen Verteilungsfunktion den Effekt der erklärenden Variablen
Wobei die logistische Verteilungsfunktion
mit
Dementsprechend wird die Wahrscheinlichkeit für
Die Chance
Was ist der Unterschied zwischen einer Chance und einer Wahrscheinlichkeit?
Eine Fußballmannschaft gewinnt im Durchschnitt eines von drei Spielen.
Ihre Wahrscheinlichkeit zu gewinnen ist: Anzahl der siegreichen Spiele / Anzahl gespielter Spiele = 1/3 = 33,3 %.
Die Chance eines Sieges hingegen ist das Verhältnis der Eintrittswahrscheinlichkeit eines Sieges zur Gegenwahrscheinlichkeit (einer Niederlage). Wahrscheinlichkeit eines Sieges / Wahrscheinlichkeit einer Niederlage = 1/3 / 2/3 = 1/2 oder 1:2. Eine Chance von 1:2 sagt in diesem Fall aus, dass die Mannschaft erwartungsgemäß von drei Spielen eines gewinnt und zwei verliert.
Interpretation der Koeffizienten
Aufgrund des nichtlinearen und indirekten Einflusses der erklärenden Variablen auf die Eintrittswahrscheinlichkeit
Das Logit ermöglicht jedoch noch eine konkretere Aussage über die Stärke des Einflusses. Diese bezieht sich jedoch nicht auf die Wahrscheinlichkeit, sondern auf die Chance, also die Odds: Erhöht sich der Wert der j-ten erklärenden Variable um den Wert 1, so verändert sich die Chance um den Faktor
Klassifikation über Schwellenwert
Mithilfe der Responsefunktion
Beispiel: Conversion-Prognose
Gehen wir als Beispiel von einer Conversion-Prognose aus. Y sei eine binäre Variable mit den Ausprägungen 0 = "Kunde kauft nicht" und 1 = "Kunde kauft". Wir schauen uns zwei Kunden aus dem Datensatz an. Gehen wir davon aus, dass sich für den Kunden mit der Nr. 23 eine Kaufwahrscheinlichkeit von 45% ergibt, also
Der Schwellenwert kann (innerhalb des Intervalls 0 bis 1) beliebig angepasst werden. Eine Verschiebung des Schwellenwerts hat Einfluss auf die Klassifikationsgüte des Modells. Häufig erfolgt die Anpassung gezielt, um die Klassifikationsgüte hinsichtlich vorgegebener Kriterien zu optimieren. Die Messung der Klassifikationsgüte ist Gegenstand des 2. Teils in unserer Artikelserie zum Logit-Modell.