Analyse von sozialem Geschlecht und Intersektionalität im maschinellen Lernen

Technologien des maschinellen Lernens (ML) – unter anderem Risikobewertung, Empfehlungsdienste und Gesichtserkennung – werden in Gesellschaften voller geschlechtlicher, rassistischer bzw. ethnischer und anderer struktureller Diskriminierung betrieben. ML-Systeme können in der Verstärkung solcher Strukturen verschiedenste Rollen spielen, von menschlichen Vorurteilen in Trainingsdatensätzen bis hin zu bewussten oder unbewussten Entscheidungen beim Design von Algorithmen. Das Verständnis, wie soziales und biologisches Geschlecht, ethnische Zugehörigkeit und andere soziale Faktoren sich in verschiedenen Kontexten auf Algorithmen auswirken, kann Wissenschafter_innen dabei unterstützen, bewusste und fundierte Entscheidungen darüber zu treffen, welche Auswirkungen ihre Arbeit auf die Gesellschaft hat.

1. Analyse der gesellschaftlichen Ziele und Implikationen der Arbeit

Teams sollten anhand der folgenden Fragen gemeinsam die Ziele des zu entwickelten oder erforschten Systems definieren und seine potentiellen gesellschaftlichen Auswirkungen evaluieren:

a. Wie werden die Prioritäten und Ziele des Verfahrens bestimmt? Wer wird davon profitieren und wer wird dadurch ausgeschlossen oder gefährdet (Gurses et al., 2018)?

b. Welchen Einfluss haben Geschlechternormen auf die Forschung/das Produkt/ die Dienstleistung/ das System (Leavy, 2018)?

c. Welchen Einfluss könnte struktureller Rassismus auf die Arbeit haben, z. B. durch die Abbildung von rassistischen Stereotypen in Suchalgorithmen (Crenshaw, 1991; Noble, 2018)?

d. Welchen Einfluss haben Wohlstandsgefälle auf die Arbeit, z. B. wird das System gegen in Armut Lebende eingesetzt werden oder sie ausschließen (Eubanks, 2018)?

e. Welchen Einfluss hat ökologische Nachhaltigkeit auf die Arbeit, z. B. dort, wo das Training eines Deep Learning-Modells eine schlechte CO2-Bilanz hat (Strubell et al., 2019)?

2. Analyse der Daten auf potentielle Einseitigkeit

Jeder Trainingssatz sollte Informationen darüber enthalten, wie die Daten gesammelt und annotiert wurden. Daten, die menschliche Information enthalten, sollten Metadaten umfassen, die Statistiken zu Faktoren wie soziales und biologisches Geschlecht, ethnischer Zugehörigkeit, Alter und Wohnort von Teilnehmenden zusammenfassen (Gebru et al., 2018; MIT Media Lab, 2018). Datenerfassung über Crowdsourcing wie etwa MS Turk sollte Informationen zu den Crowd-Teilnehmenden ebenso wie die entsprechenden Anweisungen für die Datenerfassung enthalten (Zou & Schiebinger, 2018).

a. Betten die Datensätze, die für Training und Testung des Modells verwendet werden, menschlichen Bias ein? S.  z. B. Buolamwini & Gebru (2018).

b. Analyse der Kontexte der Datensatzerstellung – welche bekannten Geschlechterbiases und -normen könnten das Verfahren der Datensatzerstellung beeinflussen (s.  z. B. Shankar et al., 2017)? Einige Merkmale sind möglicherweise anders zu interpretieren, wenn sie als Zeichen der Identifikation von Mitgliedern einer selbstdefinierten gesellschaftlichen Gruppe benutzt werden (z. B. die absichtliche, gesellschaftlich-affirmative Verwendung von Wörtern, die gemäß den allgemeineren gesellschaftlichen Normen als beleidigend empfunden werden).

c. Möglicherweise wird Bias auch in der Phase der Datenaufbereitung eingeführt, in der u. a. entschieden wird, welche Eigenschaften der Algorithmus beachten soll. Zunächst sollte überlegt werden, ob es angemessen ist, dass der Algorithmus das soziale Geschlecht berücksichtigt (z. B. wenn er in der Werbung für Kleidung verwendet wird, die häufig geschlechtsspezifisch ist) oder nicht (z. B. wenn er für Stellenangebote eingesetzt wird, die für alle sozialen Geschlechter gleich sichtbar sein müssen). Wenn es nicht angemessen ist, sollte in Betracht gezogen werden, explizite Attribute des sozialen Geschlechts zu entfernen. Zudem sollte überlegt werden, ob irgendeines der ausgewählten Merkmale möglicherweise unter unterschiedlichen sozialen Geschlechtern ungleich verteilt sein könnte. Wenn das Modell etwa Merkmale benutzt, die mit dem sozialen Geschlecht korrelieren könnten, etwa Beruf oder „Alleinerzieher_innenstatus“, könnte es das soziale Geschlecht weiterhin indirekt einbeziehen.

d. Bias kann auch in die objektiven Funktionen und/oder die Heuristiken eingebettet sein, die suchbasierte Algorithmen anleiten. Zum Beispiel könnte die Benutzung von Gesundheitsausgaben als Annäherung an die medizinischen Bedürfnisse bei der Formulierung einer Zielfunktion zu einem rassistischen Bias führen, wenn Patient_innen aus einer ethnischen Gruppe weniger Geld zur Verfügung steht (Obermeyer et al., 2019).

e. Umfassen die Trainingsdaten ein ausreichend diverses Sample der Bevölkerung, um zu gewährleisten, dass daran trainierte Modelle in allen Bevölkerungsgruppen gut funktionieren? Sind die Daten in Bezug auf soziales Geschlecht, ethnische Zugehörigkeit, Wohnort, Alter und andere soziale Faktoren ausgewogen?

3. Analyse des Modells im Hinblick auf Fairness

a. Wurde eine angemessene Definition von Fairness formuliert und das ML-Modell darauf getestet?

Wenn ein ML-Modell eingesetzt wird, um für Menschen signifikante Ergebnisse zu bestimmen, und wenn rechtliche Beschränkungen oder gesellschaftlich vereinbarte Normen eindeutig sind, kann es angebracht sein, eine quantifizierbare Größe für Fairness zu formulieren. Sie kann verwendet werden, um das Modell zu testen und herauszufinden, ob seine Outputs unfaire, ungleiche Auswirkungen je nach sozialem Geschlecht haben könnten (Dwork et al., 2012; Hardt et al., 2016; Davies et al., 2017). NB: Selbst ein System, das derartigen Messungen zufolge „fair” ist, könnte trotzdem auf ungerechte Art eingesetzt werden, wenn es auf bereits marginalisierte Bevölkerungsgruppen angewandt wird.

b. Bei der Beurteilung von potentiell diskriminierenden ML-Modellen ist Intersektionalität zu beachten.

Einige Fairness-Messungen prüfen die Leistung des Modells hinsichtlich einer isoliert betrachteten begrenzten Gruppe von geschützten Eigenschaften (z. B. soziales Geschlecht, ethnische Zugehörigkeit); dadurch könnten jedoch intersektionale Formen von Diskriminierung übersehen werden, bei denen Menschen an der Überschneidung von zwei oder mehreren Diskriminierungsarten stehen (z. B. „schwarze Frauen“, „ältere Männer mit asiatischer Abstammung“). Alternative Messungen sollen gewährleisten, dass der Algorithmus nicht nur aggregiert, sondern auch für jede der einzelnen Bevölkerungsgruppen eine gute Leistung bringt, die feinkörniger sein können (Kim et al., 2019; Tannenbaum et al., 2019).

c. Verwendung der Fairness-Definition, um das ML-System einzugrenzen oder erneut zu trainieren.

Nach der Etablierung einer Fairness-Definition sollte dieses für die Prüfung von existierenden Systemen oder die Eingrenzung der Entwicklung eines neuen Systems eingesetzt werden, damit es der Definition entspricht. Dabei können unterschiedliche Zugänge gewählt werden, entweder die Datenbearbeitung im Vorfeld, um Verzerrungen im Modell zu entschärfen, die Eingrenzung des Lernalgorithmus, oder die Modifikation des Modells nach dem Training. Welche davon am praktikabelsten ist, hängt vom Kontext ab (Bellamy et al., 2018).

d. Wurde bedacht, wie das Modell nach seinem Einsatz mit allgemeineren sozio-technologischen Systemen auf geschlechtsspezifische Weise interagieren könnte?

Ein Modell etwa, das entwickelt wurde, um das optimale Gebot für Werbeplätze in einer personalisierten Auktion vorherzusagen, kann im Test genderneutral scheinen. Wenn dieses System allerdings gegen Mitbewerber eingesetzt wird, die ihre Zielgruppe nach sozialem Geschlecht anvisieren, kann das vermeintlich genderneutrale System die Werbeflächen letztlich mit Gender-Bias platzieren (Lambrecht & Tucker, 2019). Wenn die Outputs verwendet werden, um menschliche Entscheidungsfindung zu begleiten, können potentielle Voreingenommenheiten der Entscheidungsträger_innen alle entzerrenden Maßnahmen im ML-Modell aufheben oder überkompensieren.

4. Unterkategorien des maschinellen Lernens

Während die oben genannten Überlegungen weithin angewandt werden können, unterscheiden sich entzerrende Maßnahmen je nach Unterart des maschinellen Lernens. Es folgt eine unvollständige Liste von Unterkategorien, für die möglicherweise unterschiedliche Methoden nötig sind.

a. Natürliche Sprachverarbeitung:

  • In der Forschung wurden unterschiedliche Arten vorgestellt, wie Gender-Bias in Computermodellen von Sprachen analysiert und identifiziert werden kann, insbesondere in der Worteinbettung. Geometriebasierte Techniken ermöglichen den Vergleich der Einbettung von maskulinen und femininen Worten im Verhältnis zu anderen Wörtern in einer Sprache. Diese Zugänge ermöglichen es auch, den Bias derartiger Einbettungen zu korrigieren, z. B. so, dass „Babysitter“ eine gleiche Nähe zu „Großvater“ und „Großmutter“ hat (Bolukbasi et al., 2016). Andere Forschungsteams haben den Standard des Impliziten Assoziationstests auf Worteinbettungen angewandt, um zu beweisen, dass diese viele menschenähnliche Verzerrungen enthalten (Caliskan et al., 2017). Und wieder andere haben eine genderneutrale Variante von GloVe entwickelt (Zhao et al., 2018). Für Bilder wurde zunächst gezeigt, dass Trainingsalgorithmen die in den Trainingsdaten vorhandenen Verzerrungen verstärken können, und dann eine Technik entwickelt, um diese Verstärkung zu reduzieren (Zhao et al., 2017).
  • Ähnliche Techniken können auch verwendet werden, um historische Stereotypen und Verzerrungen in der Gesamtgesellschaft zu untersuchen. Forschungen verwendeten geometriebasierte Messgrößen für Worteinbettungen, die an Textdaten aus 100 Jahren trainiert wurden, um Veränderungen in historischen Verzerrungen aufgrund des sozialen Geschlechts oder der ethnischen Zugehörigkeit zu identifizieren (Garg et al., 2018). Ähnliche Methoden können auch eingesetzt werden, um Verzerrungen in heutigen Texten zu vergleichen.

b. Ranking- und Empfehlungsdienste

  • Fairness im Ranking betrifft Situationen, wo ein Gruppe von Menschen oder ein Satz von Artikeln gerecht gereiht werden müssen (z. B. Kandidat_innen für ein Einstellungsgespräch oder Buchempfehlungen). Da Qualitäts- oder Relevanzmaßstäbe zuungunsten bestimmter Gruppen verzerrt sein können – z. B. Kandidatinnen oder Autorinnen – könnten die höchstgereihten Kandidat_innen oder Bücher für andere überproportional relevant sein – z. B. Männer. Berechnungsansätze für gerechtes Ranking zielen darauf ab, bei solchen Suchergebnissen oder Empfehlungen eine gereihte Gruppenfairness zu erzwingen (z. B. Zehlike et al., 2017).

c. Spracherkennung

  • Die derzeitige Spracherkennung unterliegt ähnlichen Herausforderungen wie die Bilderkennung (Tatman, 2017); bei der Sammlung von repräsentativen Datensätzen sollte ebenso große Sorgfalt angelegt werden.

d. Gesichtserkennung

  • Der Bericht des National Institute of Standards and Technology (NIST) zur Evaluation von kommerziellen Gesichtserkennungsdiensten von 2019 ergab, dass „schwarze Frauen … die demographische Gruppe mit der höchsten FMR (False Match Rate)“ sind (NIST, 2019).

Relevante Fallstudien

Maschinelles Lernen/Machine Learning, öffnet eine externe URL in einem neuen Fenster
Maschinelle Übersetzung/Machine Translations, öffnet eine externe URL in einem neuen Fenster
Virtuelle Assistenten/Virtual Assistants, öffnet eine externe URL in einem neuen Fenster
Gesichtserkennung/Facial Recognition, öffnet eine externe URL in einem neuen Fenster

Bellamy, R. K., Dey, K., Hind, M., Hoffman, S. C., Houde, S., Kannan, K., ... & Nagar, S. (2018). AI fairness 360: An extensible toolkit for detecting, understanding, and mitigating unwanted algorithmic bias. arXiv preprint arXiv:1810.01943.

Bolukbasi, T., Chang, K. W., Zou, J. Y., Saligrama, V., & Kalai, A. T. (2016). Man is to computer programmer as woman is to homemaker? Debiasing word embeddings. In Advances in Neural Information Processing Systems (pp. 4349-4357).

Caliskan, A., Bryson, J., & Narayanan, N. (2017). Semantics derived automatically from language corpora contain human-like biases. Science, 356(6334), 183-186.

Crenshaw, K. (1991). Mapping the margins: Intersectionality, identity politics, and violence against women of color. Stanford Law Review, 43, 1241.

Corbett-Davis, S., Pierson, E., Feller A., Goal S., & Huq A. (2017). Algorithmic decision making and the cost of fairness. In Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 797-806). ACM.

Dwork, C., Hardt, M., Pitassi, T., Reingold, O., & Zemel, R. (2012). Fairness through awareness. In Proceedings of the 3rd innovations in theoretical computer science conference (pp. 214-226). ACM.

Eubanks, V. (2018). Automating inequality: how high-tech tools profile, police, and punish the poor. New York: St. Martin's Press, 2018.

Garg, N., Schiebinger, L., Jurafsky, D., & Zou, J. (2018). Word embeddings quantify 100 years of gender and ethnic stereotypes. Proceedings of the National Academy of Sciences, 115(16), E3635-E3644.

Gebru, T., Morgenstern, J., Vecchione, B., Vaughan, J. W., Wallach, H., Daumeé III, H., & Crawford, K. (2018). Datasheets for datasets. arXiv preprint arXiv:1803.09010.

Hardt, M., Price, E., & Srebro, N. (2016). Equality of opportunity in supervised learning. In Advances in Neural Information Processing Systems (pp. 3315-3323).

Grother, P. J., Ngan, M. L., & Hanaoka, K. K. (2019). Ongoing Face Recognition Vendor Test (FRVT) part 1: verification (No. NIST Interagency/Internal Report 

Gurses, S., Overdorf, R., & Balsa, E. (2018). POTs: The revolution will not be optimized. 11th Hot Topics in Privacy Enhancing Technologies (HotPETs).

Holland, S., Hosny, A., Newman, S., Joseph, J. & Chmielinski, K. (2018). The dataset nutrition label: a framework to drive higher data quality standards. Preprint at https://arxiv.org/abs/1805.03677, öffnet eine externe URL in einem neuen Fenster.

Jobin, A., Ienca, M., & Vayena, E. (2019). Artificial Intelligence: the global landscape of ethics guidelines. arXiv preprint arXiv:1906.11668.

Kim, M.P., Ghorbani, A. and Zou, J. (2019), ‘Multiaccuracy: black-box post-processing for fairness in classification’. In Proceedings of the 2019 AAAI/ACM Conference on AI, Ethics, and Society, 247-254.

Lambrecht, A., & Tucker, C. (2019). Algorithmic bias? An empirical study of apparent gender-based discrimination in the display of stem career ads. Management Science (2019). https://doi.org/10.1287/mnsc.2018.3093, öffnet eine externe URL in einem neuen Fenster

Leavy, S. (2018). Gender bias in artificial intelligence: the need for diversity and gender theory in machine learning. In Proceedings of the 1st International Workshop on Gender Equality in Software Engineering. ACM.

National Institute of Standards and Technology, U.S. NIST (2019) Face Recognition Vendor Test (FRVT) Part 2: Identification. https://www.nist.gov/publications/face-recognition-vendor-test-frvt-part-2-identification., öffnet eine externe URL in einem neuen Fenster

Nielsen, M. W., Andersen, J. P., Schiebinger, L., & Schneider, J. W. (2017). One and a half million medical papers reveal a link between author gender and attention to gender and sex analysis. Nature Human Behaviour, 1(11), 791.

Nielsen, M. W., Bloch, C.W., Schiebinger, L. (2018). Making gender diversity work for scientific discovery and innovation. Nature Human Behaviour, 2, 726-734.

Noble, S. U. (2018). Algorithms of Oppression: How Search Engines Reinforce Racism. New York: NYU Press.

Obermeyer, Z., Powers, B., Vogeli, C., & Mullainathan, S. (2019). Dissecting racial bias in an algorithm used to manage the health of populations. Science, 366(6464), 447-453.

Popejoy, A. B., & Fullerton, S. M. (2016). Genomics is failing on diversity. Nature, 538(7624), 161-164.

Prates, M. O., Avelar, P. H., & Lamb, L. (2018). Assessing gender bias in machine translation—a case study with Google Translate. arXiv preprint arXiv:1809.02208.

Schiebinger, L., Klinge, I., Sánchez de Madariaga, I., Paik, H. Y., Schraudner, M., and Stefanick, M. (Eds.) (2011-2019). Gendered innovations in science, health & medicine, engineering and environment, engineering, machine translation.

Shankar, S., Halpern, Y., Breck, E., Atwood, J., Wilson, J., & Sculley, D. (2017). No classification without representation: assessing geodiversity issues in open data sets for the developing world. arXiv preprint arXiv:1711.08536.

Strubell, E., Ganesh, A., & McCallum, A. (2019). Energy and policy considerations for deep learning in NLP. arXiv preprint arXiv:1906.02243.

Sweeney, L. (2013). Discrimination in online ad delivery. Queue, 11(3), 10.

Tannenbaum, C., Ellis, R., Eyssel, F., Zou, J, & Schiebinger, L. (2019) Sex and gender analysis improves science and engineering, Nature, 575(7781), 137-146.

Tatman, R. (2017) Gender and dialect bias in YouTube's automatic captions. In Proceedings of the First Workshop on Ethics in Natural Language Processing (pp. 53–59). ACL.

Wagner, C., Garcia, D., Jadidi, M., & Strohmaier, M. (2015). It's a man's Wikipedia? Assessing gender inequality in an online encyclopedia. In Ninth International AAAI Conference on Web and Social Media,v (pp. 454-463).

Zehlike, M., Bonchi, F., Castillo, C., Hajian, S., Megahed, M., & Baeza-Yates, R. (2017). Fa*ir: a fair top-k ranking algorithm. In Proceedings of the 2017 ACM on Conference on Information and Knowledge Management (pp. 1569-1578). ACM.

Zhao, J., Wang, T., Yatskar, M., Ordonez, V. & Chang, K.-W. (2017). Men also like shopping: reducing gender bias amplification using corpus-level constraints. arXiv preprint arXiv:1707.09457.

Zhao, J., Zhou, Y., Li, Z., Wang, W., & Chang, K. W. (2018). Learning Gender-Neutral Word Embeddings. arXiv preprint arXiv:1809.01496.

Zou, J. & Schiebinger, L. (2018). Design AI that’s fair. Nature, 559(7714), 324-326.