Big Data - Erfolgsgeschichten
In den vergangenen Jahren haben Unternehmen viele Milliarden Euro an Investitionen in Big Data-Infrastruktur gesteckt. Da darf man nun zu Recht gespannt auf die Erfolgsgeschichten sein. Einige dieser Erfolgsgeschichten sind ebenso spektakulär wie einprägsam - man hört sie immer wieder:
Storytime: Erfolgsgeschichten
Der Google Translator ist eine dieser Geschichten. Ohne ein Wörterbuch lernt dieser Dienst aus mehrsprachigen Dokumenten weitgehend eigenständig und kann nach dieser Trainingsphase Dokumente selbstständig in hoher Qualität übersetzen. Auch im Bereich Image Recognition, der automatischen Erkennung z.B. von Personen auf Videos oder Fotos, gibt es in jüngster Zeit große Erfolge. IBM Watson, eine Weiterentwicklung von "Deep Blue", ist ein Computersystem, welches Wissen aus riesigen Textbeständen (z.B. der Wikipedia) abrufen kann und damit in natürlicher Sprache gestellte Fragen zu beantworten weiß. Das System konnte sich in einem Test bei "Jeopardy" gegen zwei humane Gegner durchsetzen (Youtube). Auch Google Flu Trends erntete viel Beachtung: Der Service leitet aus Suchabfragen Prognosen für das Auftreten von Grippewellen ab. Spektakulär ist dabei insbesondere, dass der automatisch lernende Algorithmus mehrere Grippewellen schneller vorhersagte, als die aufwendige Vorhersage des Centers for Disease Control and Prevention (CDC). Ein viel zitiertes Beispiel für eine erfolgreiche Anwendung im Marketing (B2C) geht auf einen Artikel von Charles Duhigg in der New York Times (16.02.2012) zurück: Der Autor berichtet, wie die US-amerikanische Handelskette Target ein Modell entwickelt, mit dessen Hilfe schwangere Frauen anhand ihres Einkaufsverhaltens identifiziert werden sollen. Ein empörter Vater beschwert sich daraufhin bei Target darüber, dass das Unternehmen seiner Tochter, die noch die High School besucht, Coupons für Baby-Kleidung und Kinderbetten zuschickt. Der Store-Manager muss sich in aller Form bei dem aufgebrachten Vater entschuldigen. Ein paar Tage später wendet sich das Blatt, als der Vater – von Target auf das Thema gestoßen – herausfindet, dass seine Tochter tatsächlich schwanger ist. Eine Handelskette weiß eher um den Zustand einer jungen Frau, als ihr Vater, mit dem sie in einem Haushalt lebt... Big Brother lässt grüßen.
Der Blick hinter die Kulissen
Von Executives hört man häufig Sätze wie "die Daten haben wir – da muss man nur mal einen Data Mining-Algorithmus rüber laufen lassen". Konkrete Erfolgsgeschichten aus diesem unmittelbaren Umfeld bleiben die Betreffenden aber meist schuldig. Auf dem AWS Summit 2013 in Berlin versammelte Amazon das Who-is-Who der Branche. Als Erfolgsgeschichte für eine Big Data Analyse auf der hauseigenen Cloudplattform präsentierte Amazon die Analyse gigantischer Logfiles mittels Hadoop. Die Analyse dieser gigantischen Datenmengen, die ungefiltert mit konventioneller Hardware kaum möglich gewesen wäre, brachte die Erkenntnis, dass immer mehr Besucher der betrachteten Webseite innerhalb eines Zeitraums von mehreren Jahren über mobile Geräte surften. Dass Amazon im großen Plenum ausgerechnet diesen Fall auswählte, überraschte – ganz anders als die präsentierte Erkenntnis, die ebenso wertvoll wirkt, wie die Prognose, dass die FDP bei der nächsten Bundestagswahl unter 18% bleiben wird. Und schlimmer noch: Zur selben statistisch gesicherten Erkenntnis hätte man durch den Vergleich zweier Stichproben auch mit einem Bruchteil des Aufwands auf einem normalen Laptop kommen können. Und dieser Fall ist symptomatisch für viele Big Data-Erfolgsstorys, denn es kommt auch bei Daten nicht (nur) auf das Volumen an. Entscheidend ist entgegen vieler Meinungen ("With enough data, the numbers speak for themselves.") ein theoretischer Hintergrund und statistisches Know-how.
There are a lot of small data problems that occur in big data, they don’t disappear because you’ve got lots of the stuff. They get worse. (David Spiegelhalter)
Warum viel nicht immer viel hilft
Ein gutes Beispiel dafür liefert auch Tim Harford in seinem Artikel "Big data: are we making a big mistake?", in dem er zwei Umfragen zur Wahl des amerikanischen Präsidenten im Jahr 1936 vergleicht. Kandidaten waren u.a. Franklin D. Roosevelt und Alfred Landon. Die Zeitschrift "The Literary Digest" führte vor der Wahl eine postalische Leserumfrage unter Telefon- und Automobilbesitzern durch, bei der sie 2.4 Mio. ausgefüllte Umfragebögen erhielt. Selbst nach heutigen Maßstäben handelt es sich dabei um eine riesige Stichprobe. Auf Grundlage dieser sagte sie voraus, dass Landon die Präsidentschaftswahl mit 55% Stimmanteil gewinnen würde. Das Resultat war bekanntlich ein anderes: Roosevelt gewann mit eindeutigem Vorsprung und wurde Präsident der Vereinigten Staaten. Eine Umfrage von George Gallup lieferte jedoch aufgrund von nur 50 000 Beobachtungen im Vorfeld eine vollkommen richtige Prognose. Das entscheidende Stichwort lautet hier: Repräsentativität. Ob 2.4 Mio. oder 240 Beobachtungen, wenn eine Umfrage nicht repräsentativ ist, ist das Ergebnis verzerrt und irreführend. Das Problem der Zeitschrift "The Literary Digest" war, dass sie mit Telefon- und Automobilbesitzern im Jahr 1936 größtenteils sehr wohlhabende Menschen befragte, die ihre Stimme eher Landon als Roosevelt gaben. Somit war die Stichprobe verzerrt gegenüber der Grundgesamtheit der amerikanischen Bevölkerung, was eine falsche Prognose zur Folge hatte. George Gallup gab sich hingegen sehr viel Mühe, eine "Zufallsstichprobe" zu ziehen. Daten, so viele man auch davon hat, sprechen nicht für sich selbst, erst recht, wenn man nicht mit ihnen umzugehen weiß.
Erfolgsgeschichten kritisch hinterfragt
Der Hype um Google Flu Trends bekam kürzlich einen ordentlichen Dämpfer, als sich zeigte, dass das Modell in der jüngeren Vergangenheit zahlreiche z.T. gravierende Fehlprognosen abgab. So überschätzte es Grippewellen systematisch und alarmierte unnötigerweise die Bevölkerung. Google Flu Trends stützt sich auf Korrelationsanalysen, was problematisch ist, denn von Korrelation kann nicht auf Kausalität geschlossen werden. Für Kausalitätsanalysen ist Big Data jedoch nicht das Instrument der Wahl. Ebenso ist der Google Translator bei Weitem nicht fehlerfrei. Es gibt unzählige Artikel, die z.T. sehr amüsante Übersetzungsfehler des Google Tools dokumentiert haben.
Auf dem Data Science Day 2014 in Berlin berichteten IBM-Mitarbeiter - auf eine Nachfrage aus dem Publikum -, dass bei einem neuen Projekt ca. 90 Arbeitstage für die Anpassung von IBM Watson kalkuliert werden – voll-automatisches Lernen geht anders. Tim Harford entzaubert in seinem bereits zitierten Artikel in der FT auch die Erfolgsgeschichte von Target, indem er darauf verweist, dass es sich um einen Einzelfall handelt, der für sich genommen keine Aussagekraft hat. Es ist schließlich nicht bekannt, wie viele nicht-schwangere Frauen das Target-Modell fälschlicherweise (so wie vom Vater zunächst vermutet) mit Coupons für Baby-Produkte überschüttet hat und wie viele schwangere Frauen es nicht als solche erkannt hat. Auch wenn gute Geschichten oft besser im Gedächtnis bleiben als Zahlen – um aus dem Target-Modell einen Erfolg zu machen, bedarf es mehr als lediglich eines glorreichen dokumentierten Einzelfalls.
Der letzte Teil der Artikelserie zum Thema "Big Data" zeigt, wie Unternehmen - trotz z.T. ernüchternder Erkenntnisse - von Big Data profitieren können.