XGBoost vs. LLMs für Predictive Analytics

2024-07-30by Sarah Wagner

Traditionell werden im Bereich Predicitive Analytics Methoden wie Regression, Entscheidungsbäume und bewährte Machine Learning Methoden wie XGBoost genutzt. Doch die rasante Entwicklung im Bereich der künstlichen Intelligenz bringt möglicherweise ein neues Werkzeug hervor: Large Language Models (LLMs). Denn sie haben das Potenzial den aktuellen Goldstandard XGBoost vom Thron zu stoßen. Obwohl LLMs eigentlich gar nicht dafür gemacht sind, metrische Zielvariablen auszugeben - wie es im Bereich Predictive Analytics aber sehr oft der Fall ist. Im Folgenden möchte ich die Vor- und Nachteile von XGBoost und LLMs für Predictive Analytics Anwendungen erläutern und eine Einschätzung abgeben, wie der neue State of the Art aussehen könnte.

Der Klassiker XGBoost

XGBoost (Extreme Gradient Boosting) ist ein leistungsfähiges Boosting-Framework, das Entscheidungsbäume verwendet, um präzise und schnelle Vorhersagemodelle zu erstellen. Es wurde für Effizienz und Genauigkeit optimiert und ist vor allem durch Kaggle Challenges bekannt geworden, da es bei besonders vielen Gewinner*innen eingesetzt wurde.

Vorteile von XGBoost in Bezug auf Predictive Analytics

Hohe Genauigkeit: XGBoost liefert oft bessere Vorhersagen als viele andere ML-Algorithmen
Effizienz: Optimiert für Geschwindigkeit und geringen Speicherverbrauch
Feature Importance: Bietet Einblick wie viel ein Feature zur Verbesserung der Accuracy beiträgt (“Gain”)
Skalierbarkeit: Funktioniert gut mit großen Datensätzen und lässt sich über mehrere Kerne und Maschinen verteilen

Nachteile von XGBoost in Bezug auf Predictive Analytics

Komplexität der Hyperparameter: Erfordert sorgfältige Abstimmung vieler Parameter
Rechenintensität: Trotz Optimierungen kann es bei sehr großen Datensätzen ressourcenintensiv sein
Input Daten: Textdaten können in XGBoost nicht als Feature dienen, diese müssen händisch in numerische Features überführt werden

Large Language Models (LLMs)

LLMs basieren auf neuronalen Netzen, die mit großen Textdatensätzen trainiert werden. Sie können komplexe sprachliche Aufgaben lösen, wie Textgenerierung, Übersetzungen und Fragen beantworten. Modelle wie GPT-4 sind in der Lage, menschenähnliche Texte zu verstehen und zu erzeugen.

Vorteile von LLMs in Bezug auf Predictive Analytics

Verarbeitung von Text und unstrukturierten Daten: Können große Mengen an Textdaten analysieren, interpretieren und machen damit auch unstrukturierte Datenquellen nutzbar für Prognosen
Vortraining: LLMs wurden auf großen Textdatensätzen vortrainiert und bringen damit oft schon Wissen mit, das für die Fragestellung relevant sein kann. Das ist allerdings ein zweischneidiges Schwert, denn das bringt auch die Gefahr von Information Leakage mit sich! (#43: Damit es im Live-Betrieb nicht kracht: Vermeidung von Overfitting & Data Leakage)

Nachteile von LLMs in Bezug auf Predictive Analytics

Information Leakage: Unter Umständen wurde das LLM auf Daten trainiert, die bereits das Ergebnis der Prognosefragestellung enthalten.
Intransparenz: Die Entscheidungsprozesse können nicht nachvollzogen werden. Nutzt man Open Source Modelle, kann man mit Explainable AI (XAI) aber nachhelfen.
Kosten: Für die Nutzung von LLMs muss entweder nach Token-Anzahl bezahlt werden oder es benötigt eine GPU um mit Open Source Modellen zu arbeiten.

The new State of the Art?

Um die Accuracy von Prognosen zu verbessern, können XGBoost und LLMs kombiniert werden. Zumindest wenn es relevante Textdaten oder unstrukturierte Daten für die Prognosefragestellung gibt. In dem Fall können aus den Textdaten / unstrukturierten Daten zusätzliche Features mithilfe des LLMs für die Prognose mit XGBoost erstellt werden. Alternativ können die strukturierten Features in Kombination mit den unstrukturierten Daten per Prompt direkt an ein LLM übergeben werden, um Prognosen zu generieren.

Und auch wenn es aktuell noch schwer abzusehen ist, ist es aktuell denkbar, dass LLMs allein in Zukunft den neuen State of the Art für Predictive Analytics darstellen werden. Hierzu muss erwähnt werden, dass in unseren bisherigen Tests nur LLMs mit Finetuning an XGBoost herangekommen sind, Zero Shot Ansätze noch nicht.

Fazit

Die Kombination von LLMs und XGBoost bietet eine vielversprechende Möglichkeit, die Prognosegenauigkeit zu verbessern. Während XGBoost weiterhin eine sehr gute Wahl für strukturierte Daten bleibt, können LLMs zusätzliche Einblicke aus unstrukturierten Textdaten liefern. Durch die Integration beider Methoden können wir die Stärken beider Ansätze nutzen und so noch präzisere und robustere Vorhersagemodelle entwickeln. Doch schon jetzt zeichnet sich ab, dass LLMs in bestimmten Szenarien besser performen als XGBoost. Für mehr Informationen, hört doch mal in unseren Podcast rein: #50: Predictive Analytics mit LLMs: ist GPT3.5 besser als XGBoost?