Quelle: www.bilanz.ch

Die Flops mit grossen Datensätzen häufen sich. Der Erfolg bleibt nur einer Handvoll Konzerne vorbehalten. Was bleibt vom «Öl des 21. Jahrhunderts»?

Vom grossen Big-Data-Versprechen bleibt nicht viel übrig. Ziemlich genau zehn Jahre ist es her, seit Chris Anderson, damaliger Chefredaktor des Tech-Magazins «Wired», in einem viel beachteten Artikel schrieb, Big Data werde die herkömmliche Forschung überflüssig machen. Allen voran werde die sogenannte wissenschaftliche Methode nutzlos, die mit einer Fragestellung und viel Recherche beginnt und mit einem Experiment und einer Schlussfolgerung endet.

Auf Andersons Pamphlet folgte die Euphorie. Es machte sich der Konsens breit, dass Wissenschaft und Wirtschaft bald von einem komplett neuen datengetriebenen System beherrscht würden. Die Propheten der Digitalisierung verkündeten einen beschleunigten technologischen Wandel. Neue Geschäftsmodelle sollten dereinst ganze Branchen wegdisrumpieren. «Es wird die Weise, wie wir über Gesundheit, Erziehung, Innovation und vieles mehr denken, völlig umkrempeln und Vorhersagen möglich machen, die bisher undenkbar waren», schrieb der österreichische Rechtswissenschaftler Viktor Mayer-Schönberger 2013 in seinem oft zitierten Buch «Big Data – Die Revolution, die unser Leben verändern wird».

Es kam dann anders

Beratungsfirmen gerieten ob des Hypes in einen Zahlenwahn. McKinsey wollte 2011 ausgerechnet haben, dass Big Data das US-Gesundheitssystem um 300 Milliarden Dollar günstiger machen solle – jährlich. Es kam dann anders. In vielen Branchen passierte das Gegenteil: In der Medizin verursacht Big Data hohe Kosten und zahlreiche Flops. Etwa in den Spitälern, die blind IBM gefolgt waren.

Der IT-Konzern hatte versprochen, dass sein Cloud-basierter Supercomputer Watson Ärzte bei der Diagnose von Krankheiten übertrumpfen werde. Mehrere Einrichtungen sprachen Datensätze und Gelder, um Watson zu füttern. Doch das renommierte Krebszentrum MD Anderson der University of Texas brach 2017 nach drei Jahren und 60 Millionen Dollar an Investitionen das Experiment ab. Auch die Uni-Kliniken Giessen und Marburg beendeten das Watson-Abenteuer frühzeitig, wie der «Spiegel» kürzlich berichtete. Schnell sei klar geworden, dass Watson mehr Marketing als Maschinen medizin sei. «Ich dachte mir: Wenn wir da weitermachen, investieren wir in eine Las-Vegas-Show», gab der oberste Verantwortliche in Marburg zu Protokoll.

«Bullshit-Generator»

«Das Ganze ist ein Bullshit-Generator», bemerkt Gerd Antes (69). Der Medizinstatistiker leitet das Institut für Evidenz in der Medizin in Freiburg im Breisgau und ist wissenschaftlicher Vorstand der Cochrane-Deutschland-Stiftung. Neben Watson hat er in seinem Fachgebiet viele andere Big-Data-Versuche scheitern sehen. Bis heute ist ihm kein einziges Projekt bekannt, das seine hohen Investitionen wert wäre: «Ich sage nicht, dass alles schlecht ist, es fehlt mir einfach der Qualitätsbegriff bei Big Data. Es gibt keine Beweise.»

Sein Paradebeispiel gefloppter Projekte ist Google Flu Trends. Google ist zwar einer der ganz wenigen Konzerne, die mit Big Data tatsächlich Geld verdienen. Doch der Versuch, eine künstliche Grippe-Früherkennung aufzubauen, scheiterte grandios. Aus den Millionen von Suchanfragen zu Symptomen versuchte Google ab 2008 ein Muster herauszufiltern, um bei der Prognose von Grippewellen schneller zu sein als die herkömmlichen Systeme, die auf Ärzte-Umfragen basieren.

Die ersten zwei Jahre klappte das ganz gut, die Resultate deckten sich zu 97 Prozent mit jenen der alten Messmethode und konnten deutlich früher ermittelt werden. Doch dann brach das System ein. Zwischen 2011 und 2013 sah die Software Grippewellen, wo im Nachhinein keine einzige Arztkonsultation registriert werden konnte. Google kommunizierte nie öffentlich über die Gründe für den Shutdown nach nur vier Jahren. Auf der Homepage schreibt der Konzern, man sei «gespannt, was als Nächstes kommt».

Ungefilterte Korrelationen

Ein möglicher Grund fürs abrupte Ende: Die Google-Ingenieure wussten nicht, wie der Rechner zu seinen Resultaten kam. Offenbar waren sie nicht in der Lage, eine Verbindung zwischen den Suchbegriffen und dem Ausbruch der Grippe herzustellen. Was sie hatten, waren statistische Muster: Korrelationen. Hier liegt das Hauptproblem von Big Data. Es gibt Korrelationen zuhauf, aber kaum bis gar keine Kausalität. Für Flu Trends heisst das: Nur weil in Bern plötzlich mehr Menschen Grippesymptome googeln, muss das nicht bedeuten, dass dort der Virus ausgebrochen ist. Sie könnten auch einfach im Fernsehen einen Beitrag über eine schwere Grippewelle im Südtirol gesehen und sich dann im Internet über Symptome informiert haben.

Kausalitätsbezüge herzustellen, ist gefährlich. Nur weil sich Faktor A und Faktor B parallel verändern, heisst das nicht, dass sie zusammenhängen. Statistiker haben über Jahrhunderte gelernt, falsche Korrelationen zu filtern. Algorithmen schaffen das bis heute nicht. Big-Data-Skeptiker machen sich einen Spass daraus. Die Website Tylervigen.com hat Grafiken übereinandergelegt, die sich zufällig gleich verhalten, aber nichts miteinander zu tun haben.

Eine zeigt die scheinbare Parallelität zwischen der Absatzentwicklung japanischer Autos in den USA und der Anzahl sterbewilliger Menschen, die vor Autos sprangen. Eine andere zeigt, dass der Pro-Kopf-Konsum von Käse genauso stark angestiegen ist wie die Anzahl Menschen, die im Schlaf starben, weil sie sich in ihrer Bettwäsche verhedderten. Der Computerforscher David Bailey umschreibt die Sache so: «Computer, die mit Big Data operieren, produzieren so schnell Unsinn wie nie zuvor.»

Ein Grundproblem liegt seiner Meinung nach bei den falschen Versprechen, die im Umgang mit der Datenflut abgegeben wurden. Die frühen Euphoriker und ihre Jünger sahen in Big Data Big Business. Doch auf raffinierte Businessmodelle warte man noch immer: «Da verkauft man die Technologie zu teuer», sagt Salathé. «Es hat bisher noch keiner ein ausserordentlich profitables Big-Data-Businessmodell gefunden, das nicht mit Werbung zu tun hat.»

«Es hat sich gezeigt, dass es nicht die Menge der Daten macht, sondern deren Qualität.» 
«Man muss höllisch aufpassen, dass man den Algorithmus nicht mit schiefen Daten füttert und damit eine falsche Realität aufbaut»

Kommentar

Ein toller Artikel, der mal mit einem Hype etwas aufräumt. Das nächste „große Ding“, dass gerade als Sau durch das Dorf getrieben wird, ist Künstliche Intelligenz bzw. Maschine Learning. Auch diese Themen sind sehr eng mit dem Thema Big Data verbunden. Während die überzogenen Erwartungen wahrscheinlich auch bald einer Ernüchterung weichen werden, sollten wir gleichzeitig aufpassen, dass wir hier nicht eine Büchse der Pandora öffnen. Siehe Maschinelles lernen als Waffe.

Letztendlich zeigt das Thema auch, dass wir uns noch viel zu wenig mit den Nebenwirkungen von Komplexität beschäftigen.