Jak dyskryminują nowe technologie

Ewa Drygalska

Artykuł pojawił się w numerze: Co nam dają algorytmy?

Nikt nie jest wolny od uprzedzeń, wszyscy do pewnego stopnia je stosujemy. Stereotypy wbudowane w modele sztucznej inteligencji stają się jednak bardziej niebezpieczne niż nasze.

Wyobraźmy sobie taką sytuację: poszukując pracy na stanowisku redaktora(-rki) miesięcznika „Znak”, oprócz CV i listu motywacyjnego rekruter prosi także o udostępnienie naszych profili w mediach społecznościowych. Celem jest sprawdzenie, czy nasza osobowość pasuje do kultury pracy w redakcji. Przechodząc do drugiego etapu, odbywamy zdalną rozmowę kwalifikacyjną, która analizowana jest m.in. przez sztuczną inteligencję pod kątem naszych reakcji i wyników testów psychologicznych. A te niepostrzeżenie rozwiązujemy podczas zadań rekrutacyjnych pod pozorem grania w gry komputerowe.

To nie opis jednego z odcinków serialu Black Mirror czy technologicznej fikcji, powstałej w głowach któregoś z autorów science fiction. To już powszechna praktyka stosowana przez duże korporacje przy zatrudnianiu kandydatów w Stanach Zjednoczonych. Wspomaganie działów osobowych wyspecjalizowanymi algorytmami i danymi dotyczącymi naszego stylu życia ma zapewnić szybkość procesu, bezstronność i równe szanse w zatrudnieniu. Czy aby na pewno?

Broń matematycznej zagłady

Problemy z „obiektywnymi” algorytmami rekrutacyjnymi opisuje m.in. Cathy O’Neil w głośnej książce Broń matematycznej zagłady. O’Neil – matematyczka, która przez lata pracowała w branży zajmującej się modelowaniem dużych zasobów danych – podaje w niej niezliczone przykłady wykorzystania algorytmów, które okazały się dalekie od przypisywanej im neutralności. Od usług publicznych przez zatrudnienie, ewaluację pracowników, rekrutację na studia, bankowość po aplikacje randkowe: algorytmy sztucznej inteligencji wykorzystywane są w coraz większej liczbie dziedzin naszego życia. Według Raportu ONZ z 2019 r. nowe technologie stosowane w polityce społecznej dotykają rosnącej liczby obywateli, tworząc nową koncepcję rządzenia nazywaną „cyfrowym welfare state”.

Czy tego chcemy, czy nie, pozostawiamy po sobie mnóstwo śladów, danych i informacji, które są następnie zestawiane, przetwarzane i modelowane w systemy rozpoznawania i kalkulowania ryzyka, nie pozostając bez wpływu na naszą codzienność. O’Neil, a z nią wiele innych badaczek udowadniały, że dynamicznie rozwijająca się branża AI (Artificial Intelligence), dostarczając przełomowych rozwiązań, nie tylko czyni nasze życie wygodniejszym i łatwiejszym, ale może mieć na nie także negatywny wpływ. Bez Big Data nie bylibyśmy w stanie zrozumieć planetarnej skali zmian klimatycznych, „zobaczyć”, jak wygląda czarna dziura, ani znaleźć czegokolwiek w przepastnej sieci internetu. Ale prospołecznie nastawieni naukowcy, aktywistki, prawniczki oraz technologiczni „sygnaliści” dostarczają coraz nowszych przykładów wykorzystania algorytmów w różnych systemach, które mają skutki dyskryminujące lub wprost posługują się uprzedzeniami. Nieprzejrzyste, wykorzystywane na masową skalę i niekiedy krzywdzące systemy O’Neil nazywa właśnie bronią matematycznej zagłady. Matematyka i statystyka mają bowiem znacznie większy wpływ na stan naszego konta, zdolność kredytową, awans lub zwolnienie z pracy, a w ekstremalnych przypadkach także na naszą wolność, niż nam się powszechnie wydaje.

W swojej książce autorka opisuje np. badania amerykańskich naukowców, którzy sfabrykowali kilka tysięcy podań o pracę, a następnie wysyłali je w odpowiedzi na ogłoszenia rekrutacyjne. Analogiczne pod kątem kwalifikacji życiorysy różniły się jedynie danymi kandydatów: połowa z nich prezentowała osoby białe, pozostałe zaś były podpisywane nazwiskami sugerującymi pochodzenie afroamerykańskie. Badacze stwierdzili, że „białe” nazwiska wzbudzały zainteresowanie o połowę częściej niż „czarne”. W 2018 r. z kolei dziennikarze odkryli, że algorytmy firmy Amazon odrzucały podania na stanowiska techniczne i inżynierskie pochodzące od kobiet. W tym przypadku powodem była konstrukcja modelu, który oparty na idealnym kandydacie z przeszłości – mężczyźnie, bo oni dominują w branży IT – szukał po prostu podobnych typów. Ostatecznie algorytm został wycofany. Czasami jednak wiara w algorytmy może doprowadzać do znacznie większych nierówności w traktowaniu.

Raport mniejszości

W 2016 r. niezależna organizacja pozarządowa ProPublica opublikowała niepokojący raport dotyczący algorytmu COMPASS używanego w kilku amerykańskich stanach, który ocenia prawdopodobieństwo popełnienia kolejnych czynów karalnych przez aresztowanych. Okazało się, że wykazywał on uprzedzenia wobec osób czarnoskórych, u których ryzyko recydywy oceniał znacznie wyżej niż u innych, mimo oczywistych przesłanek, które powinny wskazywać coś odwrotnego. Jeśli osoba zatrzymana została wcześniej skazana jedynie za wykroczenia, ale była czarnoskóra, jej stopień ryzyka oceniano jako znacznie wyższy niż u osoby o białym kolorze skóry skazanej uprzednio za poważne przestępstwa, takie jak napad czy przemoc domowa. Ryzyko popełnienia przyszłych czynów karalnych było kalkulowane na podstawie przeszłości aresztowanego, a także informacji na temat jego zamieszkania i sytuacji rodzinnej. Jak udowadniali twórcy raportu, algorytm był nie tylko rasistowski, ale i wysoce nieskuteczny: jedynie 20% osób z wysokim prawdopodobieństwem popełnienia groźnych przestępstw faktycznie się ich dopuszczało.

###banner###

Jeśli COMPASS przypomina fabułę Raportu mniejszości, to podobnie ambitne założenia mają modele uczenia maszynowego do prognozowania miejsc przyszłych przestępstw. Jeden z takich systemów (choć nigdy niewdrożony) w ramach międzynarodowego konkursu projektowała polska firma deepsense.ai. Na czym polegał model opracowany przez Polaków? Ich predykcja kryminologiczna dzieliła daną dzielnicę na mniejsze obszary i zliczała przestępstwa, które w nich popełniono w przeszłości. Założeniem było tutaj, że im więcej czynów kryminalnych występowało w danym obszarze, tym bardziej wzrasta prawdopodobieństwo popełnienia kolejnych. W tym algorytmie wykorzystywane są tylko dane historyczne (milion przestępstw zebranych w ciągu pięciu lat), w innych także dodatkowe czynniki, takie jak demografia, pogoda, a nawet informacje zbierane z mediów społecznościowych.

W przypadku zidentyfikowania miejsc o największym współczynniku kryminogenności policja może wysłać do nich dodatkowe patrole. Jednak w wielu niedofinansowanych dzielnicach, gdzie obywatele wchodzili w konflikty z policją lub wcześniej byli przez nią niesprawiedliwie traktowani, pojawienie się funkcjonariuszy ma efekt drażniący i może wywoływać agresję. Mowa np. o dzielnicach zamieszkanych przez społeczności, gdzie akty przemocy wybuchały często właśnie z powodu konfliktów z białą policją, a w polskich warunkach o blokowiskach, gdzie niechęć do służb porządkowych często przekazywana jest z pokolenia na pokolenie. Możemy też zapytać, co z pozostałymi przestępstwami, takimi jak gwałty, morderstwa czy przemoc domowa, które zazwyczaj popełniane są nie na ulicach, lecz w domowym zaciszu.

Jeszcze innym celem nowych technologii policyjnych takich jak Operation LASER jest identyfikowanie konkretnych osób, które z większym prawdopodobieństwem będą zaangażowane w działalność przestępczą. Oprogramowanie do nadzoru mediów społecznościowych wydobywa i analizuje informacje osobiste i powiązane dane z platform. Dane te są wykorzystywane do przewidywania wzorców zachowań oraz połączeń między użytkownikami i innymi ludźmi.

Według Citizen Lab, kanadyjskiej organizacji znanej w Polsce z raportowania stosowania oprogramowania śledzącego Pegasus, używanie systemów wykorzystujących wszystkie lub niektóre z wymienionych technologii poważnie narusza prawa człowieka. Badacze wskazują m.in. na naruszenia prawa do prywatności, prawa do pokojowych zgromadzeń i zachowania na nich anonimowości, a także prawa do równości, naruszanego poprzez automatycznie implementowane uprzedzenia, ukierunkowywanie modeli na określone grupy społeczne czy wreszcie brak transparentności – i w związku z tym trudności w odwołaniu się, jeśli nieznane są dokładne kryteria podejmowanych decyzji. „O ile technologie policyjne wykorzystujące algorytmy mogą wydawać się przyszłościowe, to nie da się ich oddzielić od przeszłości. Są one oparte na danych historycznych, które wpisują się w systemową dyskryminację i kolonializm w kanadyjskim systemie karnym” – piszą autorzy raportu Citizen Lab. Ponad 80 naukowców i naukowczyń pracujących w dziedzinie sztucznej inteligencji apelowało do wielkich platform, by zaprzestały sprzedaży swojego oprogramowania policji. W 2020 r. Amazon, IBM i Microsoft ogłosiły ograniczenia w sprzedaży swoich algorytmów do czasu wyjaśnienia nieścisłości.

W 2019 r. amerykański National Institute of Standards and Technology poddał audytowi kilkadziesiąt systemów rozpoznawania twarzy używanych w setkach aplikacji. Z ich analizy wynika, że większość z nich znacznie różniła się od siebie pod kątem skuteczności prawidłowego rozpoznawania tożsamości lub, co gorsza, wskazywała fałszywie dodatnie wyniki, które mogły prowadzić do utożsamienia osoby zupełnie niewinnej z poszukiwanym przestępcą. Wszystkie błędy w dokładności ujawniły się na grupach osób niebiałych, szczególnie zaś Afroamerykanów. To tylko kilka jaskrawych przykładów algorytmicznych uprzedzeń, które coraz częściej wypływają na światło dzienne, każąc nam zadawać pytania o etykę stosowania zautomatyzowanych modeli podejmowania decyzji.

Skąd się biorą kłopoty?

Czy algorytmicznych uprzedzeń można uniknąć? Uprzedzenia to psychologiczne, naturalne w gruncie rzeczy heurystyki, które stosujemy w codziennym życiu, aby ułatwić sobie podejmowanie decyzji, uprościć wybory i dokonywać szybkich ocen. Nikt nie jest od nich wolny, wszyscy do pewnego stopnia nieświadomie je stosujemy. Powtarzamy je jednak, budując modele sztucznej inteligencji i algorytmy używane później na szeroką skalę, co sprawia, że stają się tym niebezpieczniejsze. Źródła uprzedzeń w modelach matematycznych są trojakie.

Pierwszym i bodaj najważniejszym problemem mogą być po prostu kiepskie dane używane do trenowania algorytmów. Jak pisze w swojej książce „Raw Data” is an Oxymoron („Surowe dane” to oksymoron) Lisa Gitelman, nie istnieją obiektywne, nieprzetworzone czy tytułowe „surowe” dane. Każdy zestaw danych jest zbierany za pomocą wybranej metodologii i próbki, które dobierane są subiektywnie przez badaczy i analityków. Dane zbierane wybiórczo, przy użyciu starych metod (np. sondaży wyborczych ciągle w wielkim stopniu robionych przez stacjonarne telefony), luki w danych czy bardzo małe próbki potrafią zafałszować wszystkie kolejne kroki w procesie budowania modeli. Udowadniała to m.in. Timnit Gebru w swoich badaniach, krytykując użycie wielkich baz danych do rozumienia języka naturalnego stosowanych m.in. do stworzenia modeli językowej sztucznej inteligencji. Pokazywała bowiem, że modele służące do generowania języka takiego jak GPT-2 i 3 trenowane były na gigantycznych ilościach niefiltrowanych danych ściąganych maszynowo z internetu, m.in. z forum Reddit (którego użytkownicy swobodnie zamieszczają linki do interesujących ich portali) czy Wikipedii. W czym tkwi niebezpieczeństwo? 67% użytkowników Reddita w Stanach Zjednoczonych to mężczyźni pomiędzy 18. a 29. rokiem życia. A jedynie od 9% do 15% wikipedystów stanowią kobiety. W samym języku zakodowanych było więc wiele stereotypów, mizoginii, mowy nienawiści, rasizmu, idei ekstremistycznych oraz nacjonalistycznych. Czy naprawdę chcemy, by internetowy śmietnik, którym często bywa Reddit, posłużył za właściwy model ludzkiej komunikacji?

Skoro do modeli AI wkładamy dane historyczne, które często zawierają tradycyjne uprzedzenia i stereotypy, to poleganie na nich będzie powtarzaniem tych samych błędów w myśleniu. Wspomniana Timnit Gebru wraz z Joy Buolamwini w 2017 r. przedstawiła pracę Gender Shades (Odcienie płci). W swoich badaniach autorki pokazały, że algorytmy wykrywania twarzy największych gigantów technologicznych: Google, Amazona, IBM czy Microsoftu, szczycące się efektywnością na poziomie ponad 90%, o wiele gorzej radzą sobie z rozpoznawaniem twarzy o niebiałym kolorze skóry. Jak czytamy w artykule, w przypadku kobiet o ciemniejszej karnacji pomyłki modelu wynosiły aż 35% w porównaniu do 1% w przypadku kobiet białych. Co więcej, systemy AI wiodących firm…