Blog

Logistische Regression - Beurteilung der Klassifikationsgüte

Nachdem man ein Modell gefunden hat, das das Eintreten eines Ereignisses (bspw. der Kauf eines Produkts durch einen Kunden) vorhersagt, ist es angebracht, die Vorhersagequalität bzw. Modellgüte zu überprüfen. Prinzipiell ist es für viele Klassifikationsmodelle - wie der logistischen Regression - möglich, ein sogenanntes Pseudo-R² anzugeben (vgl. Artikelserie zum R²). Beim Logit-Modell gibt es jedoch gleich drei populäre Varianten des Pseudo-R²: McFadden R², Cox&Snell R² und das Nagelkerke R². Für ihre Berechnung wird sich der Likelihood des Nullmodells und des vollständigen Modells bedient.

Diese haben mit dem regulären R² aus der linearen Regression einen theoretischen Wertebereich zwischen 0 und 1 gemein. In der Praxis nehmen zumindest einige der Pseudo-R² jedoch auch für sehr gute Modelle selten Werte größer als 0.3 oder 0.4 an. Zudem ist keine so anschauliche Interpretation als Anteil der erklärten Varianz möglich. Ziel dieses Artikels ist es, einen Überblick über Gütemaße zu geben, die sich zur Einschätzung der Modell-/Klassifikationsgüte im Logit-Modell eignen. Dazu gehören auch leichter interpretierbare Maße als Alternative zum Pseudo-R².

Klassifikationsmatrix

Im Vorgriff auf den 3. Teil der Artikelserie verwenden wir das Beispiel der Klassifikation von Wein in Rot- bzw. Weißwein anhand der chemischen Eigenschaften. Hat man ein Modell gefunden, welches die Wahrscheinlichkeit vorhersagt, dass der untersuchte Wein ein Weißwein ist, kann dieses zur Klassifikation verwendet werden (sinnvoll ist ein Schwellenwert von 50% bzw. 0.5). Nun kann man unterscheiden, ob das Modell eine richtige Vorhersage getroffen hat oder nicht. Die richtigen und falschen Klassifikationen lassen sich in die vier folgenden Fälle einteilen:

  • Der untersuchte Wein ist weiß und das Modell hat dies richtig vorhergesagt (richtig positiv)
  • Der untersuchte Wein ist weiß und das Modell hat den Wein als Rotwein klassifiziert (falsch positiv)
  • Der untersuchte Wein ist rot und das Modell hat dies richtig vorhergesagt (richtig negativ)
  • Der untersuchte Wein ist rot und das Modell hat einen Weißwein vorhergesagt (falsch negativ)

Für die 6497 Weine aus dem Beispiel ergibt sich die folgende Klassifikationstabelle:

Weißwein (1)Rotwein (0)Summe
Vorhersage: Weißwein (1)Richtig positiv (A):
4887
Falsch negativ (D):
19
4906
Vorhersage: Rotwein (0)Falsch positiv (B):
11
Richtig negativ (C):
1580
1591
Summe489815996497

Ein abgeleitetes Gütemaß ist die Korrektklassifikationsrate, also die Anzahl der richtigen Vorhersagen geteilt durch die Anzahl der Beobachtungen: In unserem Beispiel werden 99.54% aller Weine korrekt in die Kategorien Rot und Weiß klassifiziert. Das Modell ist also außerordentlich gut. Die Zahl ergibt sich als Verhältnis der Fälle auf der Hauptdiagonale zur Gesamtzahl: A + C / ( A + B + C + D).

Zwei andere wichtige Maße, die sich aus der Klassifikationstabelle ableiten lassen, sind die Spezifität und die Sensitivität. Die Sensitivität wird auch Trefferquote genannt und bezeichnet den Anteil der richtig positiven an der Gesamtanzahl der positiven Objekte (im Beispiel: Weißweine). Die Spezifität bezeichnet dagegen den Anteil der richtig negativen an der Gesamtzahl der negativen Objekte (im Beispiel: Rotweine). Diese beiden Begriffe sind besonders im medizinischen Kontext gebräuchlich, wenn Krankheiten diagnostiziert werden sollen und man möglichst viele Kranke als krank (Sensitivität) und möglichst viele Gesunde auch als gesund (Spezifität) klassifizieren möchte. In unserem Beispiel mit den Weinen sind die Sensitivität und Spezifität mit 99.775% [Formel: A / (A + B)] bzw. 98.812% [Formel: C / (C + D)] sehr hoch. Das Pseudo-R² nach Cox & Snell beträgt im Vergleich dagegen nur mittelmäßig bis gute 0.65.

Unbalancierte Daten

In bestimmten Fällen erweisen sich auf der Klassifikationsmatrix basierende Gütemaße jedoch als problematisch: Einige Problemstellungen zeichnen sich durch unbalancierte Daten aus. Von unbalancierten Daten wird immer dann gesprochen, wenn im Rahmen der Klassifikation die Fallzahlen in den betrachteten Gruppen stark unausgewogen sind. Im Beispiel mit den Weinen oben beträgt das Verhältnis von Weißwein zu Rotwein ca. 3:1, was noch kein Problem darstellt. Geht es um die Diagnose seltener Krankheiten, die Vorhersage von Klicks auf Werbebanner oder auch Kreditausfälle, kann das Verhältnis allerdings auch bei 1:10 oder 1:100 liegen.

Nehmen wir als Beispiel die Vorhersage eines Kaufs (Y=1) in einem Onlineshop bei einer Conversionrate von 1%. Der Datensatz würde dann ca. 1% Käufer und 99% Nicht-Käufer enthalten. Bei der Optimierung des Modells auf dem kompletten Datensatz tritt eine Eigenheit des Logit-Modells hervor: Das Modell wird so angepasst, dass alle prognostizierten Conversion-Wahrscheinlichkeiten kleiner als 0.5 sind. In der Folge werden alle Fälle als Nicht-Käufer klassifiziert. Das führt im Beispiel zu einer Sensitivität von 0% (es wurde kein Käufer als solcher erkannt) und einer Spezifität von 100% (alle Nicht-Käufer wurden als solche erkannt). Aufgrund des ungleichen Verhältnisses beträgt die Korrektklassifikationsrate 99%, da es nur wenige Käufer gibt und es kaum ins Gewicht fällt, dass diese falsch klassifiziert werden. Das Modell hingegen ist für den eigentlichen Zweck - die Erkennung von Käufern - komplett ungeeignet. Um sich in solchen Situationen bei der Beuteilung der Modellgüte nicht in die Irre führen zu lassen, wird im folgenden die ROC-Kurve als alternatives Instrument vorgestellt.

Hinweis: In der Praxis würde man zur Vermeidung des beschriebenen Problems mit einer Stichprobe aus den Daten arbeiten, die alle Käufer enthält, jedoch nur einen zufällig ausgewählten Teil der Nicht-Käufer. Bewährt hat sich dabei ein Verhältnis von ca. 1:9, 2:8 oder 3:7, ab dem das Modell auch eine befriedigende Sensitivität aufweist. Zur Sicherung der Stabilität der Ergebnisse sollte die Datenselektion durch eine Kreuzvalidierung abgesichert werden.

ROC-Kurve

Eine Alternative ist die sogenannte Receiver Operating Characteristic (ROC). Hierbei wird der zur Klassifikation verwendete Schwellenwert systematisch zwischen 0 und 1 (0% und 100%) variiert. Für jede Abstufung des Schwellenwerts wird die sich ergebende Klassifikationstabelle bestimmt. Aus der Klassifikationstabelle werden Sensitivität und Spezifität abgelesen. Die ROC-Kurve schließlich ergibt sich, indem die Sensitivität (True positive rate) gegen 1-Spezifität (False positive rate) in einem Diagramm abgetragen wird. Für einen Schwellenwert von 0 werden stets alle Fälle in die Kategorie Y=1 eingeordnet, woraus sich eine Sensitivität von 1 und eine Spezifität von 0 ergeben. Dies entspricht dem Punkt (1,1) in der ROC-Kurve. Für einen Schwellenwert von 1 hingegen, werden alle Fälle als Y=0 eingeordnet, was zu einer Sensitivität von 0 und einer Spezifität von 1 führt, was dem Punkt (0, 0) in der ROC-Kurve entspricht.

Je weiter die ROC-Kurve von der Diagonalen (welche der Güte einer rein zufälligen Zuordnung durch Münzwurf entspricht) nach oben abweicht, desto besser ist das Modell. Eine geeignete Gesamtmaßzahl für die Kurve ist die Fläche unter dieser Kurve (AUC – Area under the Curve). Diese liegt zwischen 0.5 (rein zufällige Zuordnung) und 1 (perfekte Zuordnung). Um - in Analogie zum R² - auf eine besser interpretierbare Maßzahl zwischen 0 und 1 zu kommen, kann man vom AUC 0.5 abziehen und dies mit zwei multiplizieren (der sogenannte Sensitivitätsindex). Die Abbildung zeigt die ROC-Kurve für das logistische Modell aus dem Wein-Beispiel, welches die Flüssigkeitsdichte als einzige erklärende Variable nutzt. Das AUC beträgt hier 0.77 und der Sensitivitätsindex 0.55. Für das Modell mit allen zur Verfügung stehenden erklärenden Variablen betragen diese Werte 0.996 und 0.992.

Weitere Teile der Artikelreihe:

by Sarah Wagner

Logistische Regression - Beispiel in R

by Sarah Wagner

Logistische Regression - Modell und Grundlagen