Best Practices für MTurk in der akademischen Forschung

Wer sich in letzter Zeit mit aktuellen Studien aus Forschungsdisziplinen wie dem Marketing oder der Psychologie auseinandergesetzt hat, ist sicherlich auf den Begriff Amazon Mechanical Turk gestoßen. „Human as a Service“ – auf diese Weise kann man die Dienstleistung beschreiben, die Amazon mittels des Crowdsourcing Marktplatzes namens Mechanical Turk (kurz MTurk) anbietet. Dabei handelt es sich um eine Plattform für Micro-Tasks, welche (noch) nicht in ausreichender Qualität mittels Rechenleistung von Computern umgesetzt werden können.

Die Nutzung von MTurk zur Gewinnung von Stichproben ist eine der meistverwendeten Methoden der Online-Datenerhebung. Dennoch haben einige Forscher weiterhin Bedenken gegenüber der Datenqualität von MTurk. Daher haben wir uns die Frage gestellt, welche Vor- und Nachteile die Nutzung von Mechanical Turk in der akademischen Forschung mit sich bringt und wie eine hohe Datenqualität sichergestellt werden kann.

Wie funktioniert Mechanical Turk?

Amazon Mechanical Turk ist eine Crowdsourcing Plattform, die als Online-Marktplatz für Auftraggeber (=Requester) dient. Requester geben Aufträge an selbstständige Online-Arbeiter (=Worker) ab. Diese erhalten bei erfolgreicher Durchführung der Aufträge eine Vergütung, die im Voraus vom Requester festgelegt wurde. Aufträge werden auch als Human Intelligence Tasks (kurz HIT) bezeichnet. Requester können den Worker-Pool bei der Erstellung des HITs mithilfe von Qualifikationsanforderungen eingrenzen. Worker können verfügbare HITs für die sie qualifiziert sind durchsuchen und frei wählen. Daraufhin haben Requester die Möglichkeit abgeschlossene Aufträge anzunehmen oder abzulehnen. Für abgelehnte Aufträge erhalten Worker keine Vergütung. Die hierdurch für Worker entstehende HIT-Approval-Rate dient den Requestern als Ausschlusskriterium. Sie ist ein entscheidender Faktor für die Menge an HITs, zu denen ein Worker zugelassen ist.

Welche Vorteile für die akademische Forschung bietet MTurk?

  • großer Probanden-Pool

Insgesamt sind über 500.000 Worker auf der MTurk Plattform verfügbar.

  • Einfacher Zugang und Geschwindigkeit

MTurk ermöglicht Forschern eine einfache Erstellung, Veröffentlichung und Verwaltung von Studien und eine schnelle Datenerfassung.

  • Flexibilität

Nahezu jede Aufgabenstellung, die mittels eines Computers gelöst werden kann, kann auf dem Marktplatz veröffentlicht werden

  • Niedrige Kosten

MTurk senkt die Kosten pro Probanden sowie die Verwaltungskosten von Studien.

Welche Nachteile für die akademische Forschung bietet MTurk?

  • Geringe Aufmerksamkeit von Workern

MTurker führen Studien schneller aus als andere Populationen, zudem führen sie während der Teilnahme an Studien nach eigenen Aussagen weitere Tätigkeiten aus.

  • Unehrlichkeit von Workern

Eine der größten Herausforderungen für Requester auf MTurk ist es Personen zu identifizieren, die absichtlich eine falsche Identität beanspruchen. Dies gilt auch für die Beanspruchung eines falschen Besitzes oder eines falschen Verhaltens. Durch unehrliche Angaben erhoffen sich manche Worker an einer Studie teilnehmen zu können und daran Geld zu verdienen.

  • Selbstselektion durch Worker

Worker entscheiden sich bewusst für die Nutzung des Internets und des Crowdsourcing Marktplatzes MTurk. Zusätzlich können sie frei wählen und bewusst entscheiden an welchen Studien sie teilnehmen.

  • Non-Naiveté von Workern

MTurk unterbindet die mehrfache Teilnahme eines Workers an einer Studie. Jedoch wird nicht verfolgt, ob der Worker bereits Studien mit einem ähnlichen Stimulus durchgeführt hat. Worker sammeln daher bestimmtes Wissen und Erfahrungen zu einem Stimulus und gelten somit als „non-naivé“.

  • Hohe Absprungraten von Workern

Hohe Absprungraten sind bei Online-Studien häufiger als bei beaufsichtigten Studien oder in der Feldforschung.

  • Fehlende Repräsentativität

Rund 75 % der Worker sind in den USA ansässig. Worker unterscheiden sich nicht nur in der Soziodemographie von der amerikanischen Bevölkerung. Sie haben zudem ein geringeres Level an Extraversion, emotionaler Stabilität sowie ein geringeres Selbstbewusstsein als die restliche US-Bevölkerung.

  • Fehlendes Sprachverständnis der Worker

Das Sprachverständnis der Teilnehmer beeinflusst deren Interpretation von Anweisungen und Studieninhalten.

Wie kann eine hohe Datenqualität auf MTurk sichergestellt werden?

Trotz der aufgelisteten Nachteile ist es möglich eine hohe Datenqualität für die akademische Forschung auf MTurk sicherzustellen. Folgende Handlungsempfehlungen sollten von Requestern beachtet werden.

Was muss vor der Studie auf MTurk beachtet werden?

Bei der Durchführung der Studie sollte darauf geachtet werden die Anonymität der Worker zu schützen. Insbesondere bei der Datenerfassung sollten außer der Worker-ID keine Daten erfasst werden, die zur Identifizierung der Worker beitragen könnten. Für die HIT-Erstellung der Studie sollten im ersten Schritt relevante Anforderungen identifiziert werden. Zudem sollten in der HIT-Beschreibung die Aufgabenstellung und die Höhe der Vergütung klar kommuniziert werden. Zur Erkennung von unqualifizierten Antworten müssen in die Studie mehrere Aufmerksamkeitstests und mindestens eine qualitative Frage eingebunden werden.  Zusätzlich können mithilfe der in früheren Studien gesammelten Worker-IDs Probanden ausgeschlossen werden.

Was muss während der Studie auf MTurk beachtet werden?

Während der Studie ist es wichtig, die Worker IDs zu erfassen. Dies ist notwendig, um Teilnehmer auszuschließen, die bereits an der Studie teilgenommen haben. Unqualifizierte Worker können ebenfalls mithilfe der Worker-ID entfernt werden. Nach Einreichung eines HITs sollte der Researcher diesen innerhalb von 24 bis 48 Stunden genehmigen oder ablehnen. Hierfür ist eine zuvor festgelegte Bewertungsmatrix empfehlenswert. Darüber hinaus ist die Einbindung von Mindestzeiten je Fragestellung, sowie ein Messen der Bearbeitungszeit während der Studie wichtig.

Was muss nach der Studie auf MTurk beachtet werden?

Researcher sollten die Daten der HITs sofort sichern, sowie nach einer Qualitätsprüfung, die Antworten von den Worker-IDs trennen. Nach der Datensammlung besteht die Möglichkeit, dass nicht alle der angenommenen HITs für die endgültige Analyse geeignet sind. Mithilfe statistischer Methoden sollten Rückwärtskodierte Items geprüft und nach Antwortmustern gesucht werden. Von großer Bedeutung ist das Sicherstellen der Transparenz der Studie. Hierfür sollten alle HIT-bezogenen Daten, wie Einstellungen und Anforderungen dokumentiert werden. Ergebnisse von Aufmerksamkeitstest und der Umgang mit non-naiveté sind ebenfalls wichtig für eine vollständige Dokumentation.

Wie ist die ethische Sichtweise auf Mechanical Turk?

Sowohl der Plattformbetreiber Amazon als auch Arbeitgeber umgehen rechtliche Anforderungen und Leistungen, da die Plattform weitestgehend unreguliert bleibt. Arbeiter gelten als Auftragnehmer und unterliegen somit den Gesetzen für Freiberuflern.

Ein US-Worker verdient auf MTurk im Durchschnitt $3.24 die Stunde. Wird die Arbeit eines Workers abgelehnt, so verschlechtert sich seine HIT-Approval-Rate. Er erhält anschließend weniger Zugang zu gut bezahlten HITs. Es kann zudem vorkommen, dass Requester einen HIT ablehnen, weil sie den Worker nicht bezahlen möchten.

Zusammenfassend lässt sich sagen, dass Amazon aus Sicht der sozialen Nachhaltigkeit zugunsten der Interessen von Amazon und den Requestern agiert. Requester sollten daher fair und konsequent handeln. Sie sollten sich für die Vergütung am geltenden Mindestlohn orientieren. Unsere Empfehlung für Researcher aus der akademischen Forschung ist sich ausreichend über die Nutzung des Crowdsourcing Marktplatzes zu informieren und sich für die Kommunikation auf MTurk zu schulen.

Quellenangaben:

[1] Aguinis, Herman et al. (2021) „MTurk Research: Review and Recommendations“, in: Journal of Management, 4. Ausgabe, S. 823–837.

[2] Buhrmester, Michael D. et al. (2018) „An Evaluation of Amazon’s Mechanical Turk, Its Rapid Rise, and Its Effective Use“, in: Perspectives on Psychological Science, 2. Ausgabe, S. 149–154.

[3] Chandler, Jesse et al. (2015) „Using Nonnaive Participants Can Reduce Effect Sizes“, in: Psychological Science, 7. Ausgabe, S. 1131–1139.

[4] Gleibs, Ilka H. (2017) „Are all “research fields” equal? Rethinking practice for the use of data from crowdsourcing market places“, in: Behavior Research Methods, 4. Ausgabe, S. 1333–1342.

[5] Goodman, Joseph K / Paolacci, Gabriele (2017) „Crowdsourcing Consumer Research“, in: Journal of Consumer Research, 1. Ausgabe, S. 196–210.

[6] Hauser, David et al. (2018) Common Concerns with MTurk as a Participant Pool: Evidence and Solutions, o.O.: PsyArXiv.

[7] Hulland, John / Miller, Jeff (2018) „Keep on Turkin’?“, in: Journal of the Academy of Marketing Science, 5. Ausgabe, S. 789–794.

[8] Ipeirotis, Panagiotis G. (2010) „Analyzing the Amazon Mechanical Turk marketplace“, in: XRDS: Crossroads, The ACM Magazine for Students, 2. Ausgabe, S. 16–21.

[9] Shank, Daniel B. (2016) „Using Crowdsourcing Websites for Sociological Research: The Case of Amazon Mechanical Turk“, in: The American Sociologist, 1. Ausgabe, S. 47–55.

[10] Young, Jacob / Young, Kristie M. (2019) „Don’t Get Lost in the Crowd: Best Practices for Using Amazon’s Mechanical Turk in Behavioral Research“, in: Journal of the Midwest Association for Information Systems, S. 7–34.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.