DIE GEFAHREN DER WAHL IN EINER BREXIT UND DONALD TRUMP WELT - TECHCRUNCH - SOZIALEN MEDIEN - 2019

Anonim

Michael Li Mitwirkender

Tianhui Michael Li ist Gründer von The Data Incubator, einem achtwöchigen Stipendium, um Doktoranden und Postdocs den Übergang von der Wissenschaft in die Industrie zu erleichtern. Zuvor war er Leiter der Monetarisierungsdatenforschung bei Foursquare und arbeitete bei Google, Andreessen Horowitz, JP Morgan und DE Shaw.

Mehr Beiträge dieses Mitarbeiters

  • Die Gefahren der Wahl in einer Welt von Brexit und Donald Trump

Raymond Perkins Mitwirkender

Raymond Perkins ist Forscher und Doktorand an der Princeton University.

Während des letzten Jahrzehnts haben wir große Probleme bei der Bekämpfung von Daten wie Kriminalität, Gesundheitsversorgung, Klimawandel und sogar die Auswahl eines Films erlebt.

Mit der Verfügbarkeit ständig wachsender Sammlungen von politischen Daten, komplizierteren statistischen Analysetechniken und der allgegenwärtigen Präsenz von sozialen Medien ist es verlockend zu glauben, dass große Datenmengen in der Lage sein sollten, uns eine vollkommen genaue Vorhersage von Likern mit großen Stimmen zu geben Brexit oder die amerikanische Präsidentschaftswahl.

Schließlich nimmt der statistische Fehler mit der Stichprobengröße ab, so dass man sich leicht vorstellen kann, dass Messfehler verschwinden, wenn die Daten unbegrenzt zur Verfügung stehen. In der Tat ist es eine der häufigsten statistischen Fehler, die wir als Big-Data-Trainingsunternehmen sehen, wenn wir bei großen Stichproben übertrieben sind.

Die Geschichte ist jedoch voll von warnenden Geschichten, in denen man sich durch den Ruf der süßen Sirene falscher Statistiken in Selbstgefälligkeit einlullt. Diese Warnungen sind nicht nur verstreute Anekdoten, sondern verschmelzen zu einem Muster, das sowohl das Versprechen als auch die potenzielle Gefahr von Big Data aufzeigt.

Im Jahr 1936, Literarischer Digest Umfrage prognostiziert republikanischen Gouverneur Alfred Landon von Kansas würde die bevorstehende Präsidentschaftswahl durch einen Erdrutsch gewinnen. Das Magazin glaubte an die Unwiderlegbarkeit seiner Stichprobengröße: Es hatte 10 Millionen Personen befragt - eine astronomische Zahl für jede Umfrage. Umso überraschender, als der demokratische Amtsinhaber, Präsident Franklin Delano Roosevelt, Landon in einem der schiefsten Wahlsiege der modernen amerikanischen Geschichte besiegte.

Trotz seiner Größe war die Sample-Population des Digest unglaublich voreingenommen: Das Befragungs-Team befragte nur seine eigenen Magazin-Abonnenten und Einzelpersonen in Automobil- und Telefonverzeichnissen - genau diejenigen mit einem Einkommen weit über dem nationalen Durchschnitt, die viel wahrscheinlicher Republikaner wählen würden.

Foto mit freundlicher Genehmigung von Flickr / The FDR Library & Museum.

Aber selbst die Erhebung einer unvoreingenommenen Bevölkerung kann die Genauigkeit der Abfrage nicht garantieren. Im 1982 Gouverneurs-Rennen von Kalifornien sagten Ausgangsumfragen fälschlicherweise Tom Bradley, der langjährige Bürgermeister von Los Angeles als der Wahlsieger mit einem bedeutenden Vorsprung voraus.

Am Wahltag verlor Bradley knapp seinen republikanischen Herausforderer. Eine Analyse nach der Wahl legte nahe, dass deutlich weniger weiße Wähler für Bradley, einen Afroamerikaner, stimmten, als Umfragen vorher vorhergesagt hatten. Das Phänomen, das heute als Bradley-Effekt bekannt ist, resultiert daraus, dass die Wähler den Meinungsforschern nicht ihre Absicht offenbaren, gegen einen nicht-weißen Kandidaten zu stimmen, aus Angst, sie würden für rassistisch gehalten werden.

Solche Auswirkungen beschränken sich nicht nur auf die Wahlen in den USA. Die Umfragen der britischen Parlamentswahlen von 1992 fielen einem ähnlichen Ereignis zum Opfer, als sie voraussagten, dass die Wahl eine knappe Mehrheit für die Labour Party hervorbringen würde.

Nachdem die Konservativen die Parlamentswahlen und eine Mehrheit von 21 Sitzen im Parlament gewonnen hatten, deuteten weitere Untersuchungen an, dass konservative Wähler nur ungern ihre Abstimmungsabsichten offen legten - die Presse nannte sie "Shy Tory Factor". Eine robuste und zufällige Stichprobe bedeutet also nichts wenn eine unverhältnismäßig große Anzahl von Befragten weniger als aufrichtig ist.

Diese Beispiele zeigen, dass bei der Abfrage oder jeder anderen Art der Stichprobenmessung zwei separate Komponenten des Messfehlers auftreten: der statistische Fehler (normale Schwankungen durch reine Zufälligkeit) und Stichprobenfehler (Fehler, die durch unbeabsichtigte oder unvermeidbare Stichproben einer voreingenommenen Population entstehen) ). Big Data bietet das Potenzial für verschwindend kleine statistische Fehler, trägt jedoch nicht dazu bei, das Risiko einer Stichprobenverzerrung zu eliminieren.

Bedenken Sie Brexit, das Referendum über das Verlassen des Vereinigten Königreichs. Während Umfragen, die online durchgeführt wurden, nahelegen, dass das Rennen sehr knapp war, prognostizierten die Telefonumfrageergebnisse einen komfortablen 18-Punkte-Sieg für diejenigen, die für "Bleiben" stimmten. Das Referendum ist knapp vorbei und zeigt, wie wichtig Stichprobenvorurteile für die genaue Vorhersage von Wahlergebnissen sind.

Im gleichen Sinne zeigen Umfrageergebnisse, dass der Kandidat Donald Trump in Online-Umfragen fast sechs Prozentpunkte besser schneidet als in Telefonumfragen. Einige Experten haben eine "politisch korrekte Voreingenommenheit" in der Telefonwahl - eine Art verallgemeinerter Bradley-Effekt - postuliert, bei der Wähler in unpersönlichen Online-Umfragen wahrheitsgetreuer sind als per Telefon. Nur der Wahltag kann uns definitiv sagen, ob die Online-Ergebnisse für die US-Präsidentschaftswahl genauer sind als die Telefonergebnisse.

Ironischerweise haben viele der Trends in der digitalen Revolution - wie das Herausziehen von Festnetzanschlüssen und die zunehmende Abhängigkeit von Online-Umfragen - die Stichprobenauswahl in der Umfrage verschlechtert. Allgemeiner ausgedrückt hat die Ära der Big Data - mit der Kluft zwischen digitalen Besitzern und Habenichtsen und ihrer Abhängigkeit von selbstselektierenden sozialen Medien - dazu geführt, dass Felder außerhalb der Umfrage anfälliger für Stichprobenverzerrungen geworden sind. Dies bedeutet nicht, dass große Daten nutzlos sind. Es unterstreicht die Wichtigkeit von Menschen, die Ergebnisse von Big Data zu interpretieren und in Frage zu stellen.