„Ocena faktów, ocena norm: Trenowanie modeli uczenia maszynowego na potrzeby osądzania ludzi wymaga zmodyfikowanego podejścia do oznaczania danych”

Przetłumaczył z języka angielskiego: Jarosław Matuszczak – sędzia Sądu Rejonowego w Malborku delegowany do pełnienia obowiązków głównego specjalisty w Wydziale Rozwoju Usług Sądowych Departamentu Informatyzacji i Rejestrów Sądowych Ministerstwa Sprawiedliwości

Aparna Balagopalan, David Madras, David H. Yang, Dylan Hadfield-Menell, Gillian K. Hadfield i Marzyeh Ghassemi

Od tłumacza

Poniższy artykuł, opublikowany oryginalnie w SCIENCE ADVANCES VOL. 9, NO. 19, w dniu 10 maja 2023 r. (DOI: 10.1126/sciadv.abq070), jest szczególnie istotnym sygnałem, wskazującym na nowy, dotąd słabo rozpoznany problem znaczenia etykietowania danych, związany z trenowaniem systemów sztucznej inteligencji opartych na uczeniu maszynowym (ML) nadzorowanym (tj. wykorzystującym dane wcześniej opatrzone przez ludzi etykietami klasyfikującymi), które mają zostać wykorzystane do oceny, czy doszło do naruszenia normy. Zgodnie z wynikami badania, które jest jego podstawą, do już istniejących problemów związanych ze stosowaniem ML, dołączył nowy, dotyczący polegający na tym, że nieodpowiednie wytyczne dla osób etykietujących dane, działających w dobrej wierze, mogą skutkować ni tym, że oceny naruszenia norm dokonane przez system AI będą istotnie odbiegały od ocen dokonanych przez ludzi. Źródłem rozbieżności jest fakt oczywisty, jeśli zostanie zauważony: system AI (ML), wytwarza odmienny wzorzec oceny, jeśli bazuje na niewłaściwie (z punktu widzenia zastosowania systemu) zaetykietowanych (oznaczonych) danych. W konsekwencji jego decyzje (oceny zachowania) będą różniły się od ocen dokonywanych przez ludzi mających zastosować te same normy w identycznych sytuacjach. W istocie, nie będzie to jednak błąd maszyny jako takiej, lecz błąd stanowiący następstwo wadliwego ludzkiego założenia. W artykule tym, co stanowi o jego wyjątkowym znaczeniu z punktu widzenia procesu stosowania prawa, autorzy zidentyfikowali jako wadliwe założenie, polegające na przyjęciu za prawidłowy „rozbicia” procesu stosowania normy postępowania na dwa oddzielone od siebie etapy, tj.

ustalenia wystąpienia określenia faktu/cechy faktycznej (bez podania celu jakiemu ma służyć to ustalenie, tj. oceny naruszenia normy), a następnie
przyłożenia do jego wyniku (ustalonego faktu) normy postępowania, w celu stwierdzenia, czy doszło do jej naruszenia.

Założenie to zawiera w sobie inne, ukryte założenie wstępne, mianowicie iż takie postępowanie da takie same albo i lepsze rezultaty, jak stosowanie normy w jednym kroku, tj. od razu dokonania oceny, czy w danej sytuacji doszło do naruszenia normy postępowania. Tymczasem w toku badania okazało się, że przy uczeniu nadzorowanym modelu ML opartym o etykiety powstałe w pierwszym etapie (wyłącznie opis), skutkowało tym, że model ów znacznie częściej stwierdzał naruszenie normy, w porównaniu z modelem opartym na danych etykietowanych w warunkach ustalania faktu z zamiarem oceny, czy naruszono normę.

Autorzy wyraźnie zastrzegli, że ani badaniem ani artykułem nie aspirują do postawienia wniosków odnośnie ludzkich procesów kognitywnych, w tym do procesu oceny naruszenia norm prawa. Niemniej jednak wyniki badania stanowią istotny dowód pośredni na to, że fragmentacja procesu stosowania norm, także prawych, może skutkować częstszym stwierdzaniem wypełnienia hipotezy danej normy postępowania. W klasycznym modelu budowy normy prawnej, jej hipoteza określa warunki, często faktyczne, które muszą zajść, by można było zastosować jej dalszą część (dyspozycję, czasem także sankcję). W równie klasycznym modelu stosowania norm przez organy państwowe, w tym przez sądy, po to by stwierdzić, jaką normę zastosować należy najpierw ustalić stan faktyczny istotny z punktu widzenia przedmiotu sprawy. Innymi słowy, najpierw ustala się, czy zaistniały określone fakty (jak w ww. pkt 1), a następnie do tak ustalonego stanu faktycznego dokonuje się „podstawienia” odpowiedniej normy prawnej (zrekonstruowanej z przepisów) w procesie subsumpcji. Różnica, jaka istnieje w porównaniu z sytuacją analizowaną w artykule, polega na tym, że ludzie stosujący prawo wiedzą, jaki jest cel dokonywanych ustaleń fatycznych, tj. mniej lub bardziej świadomie od razu analizują ów stan faktyczny pod kątem zastosowania pewnej kategorii norm prawa (np. popełnienia określonych czynów zabronionych, wstąpienia podstaw odpowiedzialności odszkodowawczej, powstania uprawnień z tytułu ubezpieczenia społecznego itd.). Tymczasem jak wynika z badania i opartego na nim artykułu, zastosowanie tej samej metody przy trenowaniu systemów ML prowadzi do ich nadmiernej surowości w ocenianiu. Inaczej mówiąc, system uczony na danych, ocenianych przez osoby nie mające świadomości tego, że dane te posłużą do oceny naruszenia norm, i które stwierdzały binarnie (0 – 1) wystąpienie określonych faktów, miał wyraźną tendencję do częstszego stwierdzania wypełnienia hipotezy normy prawnej. Porównanie następowało względem identycznych systemów ML wytrenowanych na danych, które były etykietowane przez osoby mające świadomość, że czynią to pod kątem stwierdzenia naruszenia określonej normy. Podstawowym praktycznym wnioskiem płynącym, w mojej ocenie, z tego artykułu, jest to, że przy budowaniu i trenowaniu w sposób nadzorowany systemów ML, mających w pewnych sprawach zastąpić człowieka przy rozstrzyganiu spraw (ergo: stosowaniu norm), konieczne jest oparcie etykietowania danych o kryterium normatywne, a nie występowania danej cechy faktycznej. Jeżeli chcemy by system AI naśladował faktyczne ludzkie osądzanie zachowań, koniecznym jest, by tworząc zbiory danych, które mają następnie zostać zastosowane do trenowania, walidacji i testowania sądowych systemów AI, zadbać o to, by poszczególne obiekty były etykietowane przez osoby mające świadomość tego, że analizują je od razu pod kątem wypełnienia hipotezy normy postępowania. Nakłada to na organizatorów procesu wdrożenia obowiązek starannego przygotowania pytań, będących podstawą nadawania etykiet oraz jasnego wyartykułowania celu nadawania etykiet. Oddzielnej dyskusji wymagać też będzie to, kto ma uczestniczyć w procesie etykietowania danych mających posłużyć do trenowania sądowych systemów AI. Osobom mniej zainteresowanym samym technicznym sposobem przeprowadzenia badania a bardziej na zarysowanych powyżej konsekwencjach, sugeruję skupienie się na przedostatniej części artykułu, pt.: „DYSKUSJA”, od sekcji zatytułowanej „Etykietowanie danych dla zadań normatywnych wymaga starannej uwagi w nadzorowanych potokach uczenia maszynowego”.

Jeśli chodzi o samo tłumaczenie artykułu, to zostało ono sporządzone z zamiarem zapewnienia jak największej klarowności i zrozumiałości dość trudnego oryginalnego tekstu, co niestety odbyło się kosztem precyzji pojęć z zakresu statystyki i Data Science (nauki dotyczącej metod analizy danych). Wyjaśnienia i przypisy tłumacza odnośnie ich znaczenia i tłumaczenia mają dwojaką postać. W prostszych przypadkach znajdują się w nawiasach wprost w tekście. Natomiast w przypadkach wymagających szerszego omówienia albo konieczności przytoczenia oryginalnego fragmentu wobec wysokiego prawdopodobieństwa wystąpienia rozbieżności w tłumaczeniu danego zwrotu, przybrały formę przypisów końcowych, podobnie jak przypisy merytoryczne oryginalnego tekstu. Szczególnie istotne zdaniem tłumacza fragmenty zostały wytłuszczone z odpowiednim wyjaśnieniem w nawiasie.

Kończąc niniejszy wstęp chciałbym poczynić jeszcze jedną istotną uwagę. Tłumaczenie nie zawiera dwóch ostatnich podsekcji oryginalnego artykułu (o nazwach „image” i „text”) w sekcji zatytułowanej „ML model training” (Trening modelu ML) jak również nie obejmuje załączników i dodatkowego tekstu. Wynika to z faktu, że niniejsze tłumaczenie jest przeznaczone głównie dla osób nie dysponujących fachową wiedzą z zakresu Data Science i budowy modeli uczenia maszynowego. Tymczasem części te zawierały liczne odniesienia do technicznych pojęć stosowanych w tych dziedzinach, jak np. „multitask head [added] to the pretrained model”, które jest jednym z prostszych, tam użytych. Oczywiście można je przetłumaczyć wprost jako „wielozadaniowa głowa dodana do pre – trenowanego (albo: wstępnie wytrenowanego) modelu” jednakże bez szerszego wyjaśnienia, co oznaczają tutaj „głowa” (i to wielozadaniowa) oraz pre-trenowany model, inaczej „backbone model”, będzie to niezrozumiałe dla osób nie zajmujących się tą dziedziną nauki. Z kolei podczas umieszczania stosownych wyjaśnień w przypisach, okazało się, że zajmują one kilka razy więcej miejsca niż tłumaczony fragment, co prowadziło do tego, że więcej wysiłku czytelnik musiałby wkładać w ich analizę, niż na główny tekst. Z kolei dla osób zajmujących się wdrażaniem rozwiązań ML czy Data Science tłumaczenie to i wyjaśnienia nie dość, że będą bez znaczenia, to wręcz mogą przeszkadzać w odbiorze meritum, gdyż w tych dziedzinach operuje się, co do zasady, nomenklaturą anglojęzyczną. Tym czytelnikom sugeruję zapoznanie się z treścią całej sekcji „ML model training” oryginalnego artykułu, jak również z załącznikami do niego, a najlepiej z całym artykułem w oryginale.

Streszczenie

W miarę jak rządy i przemysł zmierzają ku zwiększonemu wykorzystaniu zautomatyzowanych systemów decyzyjnych, istotnym staje się uwzględnienie tego, jak dokładnie takie systemy mogą odtworzyć ludzki osąd. Wskazujemy na główną potencjalną przyczynę porażki takiego działania, wobec stwierdzenia, że osoby opisujące dane¹ różnie oznaczają obiekty w zależności od tego, czy zadawane jest im pytanie o sam fakt, czy o normę zachowania z nim związaną². Podważa to odruchowe założenie, przyjęte w wielu standardowych procedurach pozyskiwania danych do uczenia maszynowego (ML), że nie ma różnicy między przewidywaniem klasyfikacji obiektu ze względu na wystąpienie określonej cechy faktycznej, a przewidywaniem oceny, czy obiekt narusza regułę opartą na wystąpieniu tej samej cechy faktycznej. Stwierdzamy, że używanie etykiet opisujących fakty do trenowania modeli przeznaczonych do dokonywania osądów normatywnych, wprowadza znaczący błąd pomiaru. Pokazujemy, że modele wytrenowane przy użyciu etykiet faktycznych dostarczają znacząco różnych, ocen niż wytrenowane przy użyciu etykiet normatywnych i, że wpływ tego efektu na wydajność modelu może przekraczać wpływ innych czynników (np. rozmiaru zbioru danych), które rutynowo przyciągają uwagę badaczy i praktyków ML.

Wstęp

Budowanie systemów do dokonywania lub wspierania osądów normatywnych jest ważnym celem i przykładem zastosowania uczenia maszynowego (ML). Takie systemy, jeśli są dobrze zaprojektowane, aby dokładnie wdrażać ludzkie zasady i normy, obiecują zmniejszenie zaległości i kosztów podejmowania decyzji³, poprawę sprawiedliwości (poprzez wyeliminowanie błędów w ocenie, takich jak nieumiejętność ignorowania nieistotnych faktów⁴) oraz zwiększenie dostępu do neutralnego orzekania⁵. Istniejące przypadki użycia obejmują zautomatyzowane podejmowanie decyzji w kontekście zatrudnienia⁶, oceny ryzyka kredytowego⁷, wymiaru sprawiedliwości w sprawach karnych⁸ i usług administracji państwowej⁹. Rządy na całym świecie zaczynają regulować wykorzystanie zautomatyzowanego podejmowania decyzji zarówno w sektorze publicznym, jak i prywatnym¹⁰ ¹¹

Ludzkie systemy zasad i norm, w tym systemy prawne, składają się z opisów stanów faktycznych¹², do których stosuje się następnie normę, tj. dokonuje się ich normatywnego osądu. Jeśli ktoś uważa, że reguła postępowania wyrażona w prawie została naruszona, to twierdzi, że wystąpiły faktyczne przesłanki do zastosowania reguły prawnej (wypełnienie hipotezy normy), co uzasadnia wydanie orzeczenia stwierdzającego naruszenie (należy zauważyć, że rozróżnienie między osądem faktycznym (stwierdzeniem wystąpienia faktu), a osądem prawnym jest złożone w rozumowaniu prawnym; dyskusja na ten temat znajduje się w: L. Morawski, „Law, fact and legal language.”¹³). W dobrze funkcjonującym systemie prawnym decyzje podejmowane na podstawie osądu normatywnego są oparte na uzasadnieniu¹⁴: odwołaniu się do powodów uzasadniających decyzję poprzez wykazanie, że jest ona zgodna z zasadami, które są podstawą jej wydania. Na przykład, jeśli post wyświetlany na platformie mediów społecznościowych zostanie uznany za naruszający kodeks postępowania platformy, system powinien być w stanie uzasadnić ten wniosek, poprzez wskazanie na wystąpienie istotnej okoliczności faktycznej, np. post zawierał odczłowieczającą wypowiedź na temat członków określonej grupy religijnej lub etnicznej (zob. np. standardy społeczności dotyczące mowy nienawiści na platformach mediów społecznościowych pod adresem https://transparency.fb.com/policies/community-standards/hate-speech/) oraz wskazanie normy kodeksowej zabraniającej takich komentarzy. Ustalenia faktyczne mogą być subiektywne i wiązać się z nieporozumieniami: np. nie ma „bazowej prawdy” na temat tego, co stanowi mowę odczłowieczającą¹⁵. Systemy prawne wykorzystują jednak zasady proceduralne, takie jak wymóg jednomyślności ławy przysięgłych, do rozstrzygania takich sporów, zarówno po to by dokonać ustaleń faktycznych jak i po to, by wydać wyroki na podstawie tychże ustaleń.

Pozornie rozsądnym podejściem do wyskalowania tych procedur jest trenowanie klasyfikatorów w celu wykrywania obecności faktycznych predykatów (faktycznych cech danego punktu danych) reguły normatywnej. Na przykład, aby wykryć naruszenia kodeksu postępowania platformy mediów społecznościowych na dużą skalę, można zbudować model klasyfikujący (wykrywający) obecność faktycznych cech zabronionych przez kodeks, takich jak odczłowieczające wypowiedzi na temat grupy religijnej lub etnicznej, a następnie zastosować logikę „jeśli – to”, aby przekształcić klasyfikację faktów w oceny normatywne: jeśli mowa została opisana jako odczłowieczająca, to stwierdzamy naruszenie normy zabraniającej takich wypowiedzi (i stosujemy sankcję – przyp. tłumacz).

Poniżej wykazujemy wadę tego pozornie rozsądnego podejścia: Nie jest ono w stanie wiernie odtworzyć ludzkiej oceny naruszeń norm. Przeprowadziliśmy eksperymenty z udziałem ludzi, pokazując, że stwierdzają oni abstrakcyjną obecność poszukiwanych cech faktycznych zupełnie inaczej, niż gdy oceniają naruszenia norm, nawet jeśli naruszenia norm zależą całkowicie od obecności rzeczonych cech faktycznych. Co więcej, istnieje znaczna rozbieżność pomiędzy uczestnikami zarówno w ocenach faktycznych, jak i normatywnych. Jednakże rozbieżność jaka występuje pomiędzy nimi w ocenach faktycznych, nie odpowiada dokładnie rozbieżności pomiędzy uczestnikami dokonującymi ocen normatywnych. Przedstawiamy poniżej wyniki w czterech różnych kategoriach, które były poddane ocenie – zdjęć ubrań, zdjęć posiłków, zdjęć zwierząt domowych oraz fragmentów tekstu z forum dyskusyjnego i pokazujemy, że ludzie są zasadniczo mniej skłonni do stwierdzenia, że dana reguła została naruszona, niż do stwierdzenia, że dane cechy faktyczne (na których opiera się ta sama reguła) są obecne.

Stworzyliśmy dwa zbiory danych z tymi samymi obiektami, ale opatrzonych dwoma różnymi rodzajowo zbiorami etykiet: opisowym zbiorze etykiet, w którym poprosiliśmy osoby etykietujące o zidentyfikowanie wyłącznie faktycznych cech obrazu lub tekstu, a następnie zastosowaliśmy regułę, aby pośrednio (bez udziału uczestników – przyp. tłumacz) określić, czy wystąpiło naruszenie, oraz normatywnym zbiorem etykiet, w którym poprosiliśmy osoby etykietujące od razu o bezpośrednią ocenę, czy obraz lub tekst narusza regułę opartą na tych faktycznych cechach. Wyszkoliliśmy modele uczenia nadzorowanego ML (ResNet-50¹⁶ i ALBERT¹⁷) na obu zbiorach danych. Okazało się, że różnice pomiędzy wspomnianymi zbiorami danych znalazły odzwierciedlenie na obu wytrenowanych modelach. Model wytrenowany na zbiorze etykiet opisowych wykazywał znacznie gorsze wyniki przewidywania ludzkich decyzji w ocenie naruszeń (tj. słabiej przewidywał normatywną ocenę sytuacji dokonaną przez człowieka) w porównaniu z modelem wytrenowanym na zbiorze etykiet normatywnych. W szczególności stwierdziliśmy, że modele wyszkolone przy użyciu etykiet opisowych częściej stwierdzają naruszenie reguł niż ludzcy „sędziowie” we wszystkich czterech kategoriach danych.

Wreszcie, udowodniliśmy, że ta luka, w skuteczności przewidywania zachowań (osądów), między tymi dwoma modelami jest porównywalna lub większa niż luka w skuteczności istniejąca między różnymi architekturami modeli (ML) czy wynikająca z wyboru zbiorów danych, na których to różnicach najczęściej koncentrują się wysiłki mające na celu poprawę skuteczności modelu (np. zakłócenia w etykietach lub rozmiar zbioru danych).

Ta luka w zakresie skuteczności przewidywania osądów, między modelami opartymi na danych etykietowanych opisowo a modelami opartymi na danych etykietowanych normatywnie, jest kluczowym spostrzeżeniem, szczególnie dlatego, że dane dla systemów uczenia maszynowego są często gromadzone w otoczeniu opisowym (przy zastosowaniu etykiet opisowych – przyp. tłumacz)¹⁸ ¹⁹ ²⁰ ²¹. Nasze odkrycia pokazują, że modele uczenia maszynowego mające na celu wspomaganie lub automatyzację ludzkich²² osądów normatywnych będą regularnie popełniać istotne błędy, jeśli będą trenowane na etykietach opisowych. W naszych konkretnych przypadkach oznacza to, że modele rutynowo nadmiernie często stwierdzają naruszenia reguł (wytłuszczenie – tłumacz). Nasze badanie zidentyfikowało istotne zjawisko dotyczące sposobu, w jaki ludzie dokonują osądów i rozumowania normatywnego²³, które nie jest uwzględnione w systemach uczenia maszynowego. Nasza analiza ma głębokie implikacje dla sposobu, w jaki budujemy, zbieramy dane i oceniamy systemy ML, które mają działać w warunkach stosowania norm zachowania. Obecne praktyki szkoleniowe w zakresie uczenia maszynowego nie zwracają uwagi na etykietowanie danych jako aspektu złożoności ludzkiego zachowania²⁴ ²⁵. Wiele dużych, powszechnie używanych zbiorów danych gromadzi tylko kilka etykiet na element (patrz rys. 1), nie dostrzegając możliwych różnic w postrzeganiu przez różnych ludzi tych samych obiektów, nawet jeśli postrzeganie to opiera się na kryteriach faktycznych (stwierdzaniu wystąpienia w obiekcie danej cechy faktycznej – przyp. tłumacz). Nasze badanie podkreśla znaczenie przypisywania wielu etykiet do każdego pojedynczego obiektu, w celu oceny zróżnicowania etykietowania przez uczestniczące osoby etykietujące. Jeśli chodzi o szkolenie zautomatyzowanych systemów decyzyjnych do wydawania osądów normatywnych, to istnieje niewiele dobrowolnych przypadków ujawnienia konkretnych procedur stosowanych do zbierania etykiet, które to zjawisko uznajemy za kluczowe. Podczas gdy niektóre systemy zostały przeszkolone przy użyciu historycznych decyzji normatywnych (nie zebranych specjalnie w celu opracowania modelu) jako obiektów docelowych dla modeli szkoleniowych²⁶ ²⁷, brak informacji o zasadach etykietowania utrudnia udowodnienie tego, co mocno podejrzewamy, że jest prawdą, tj. że standardową praktyką jest szkolenie systemów do zastosowań normatywnych na podstawie wyłącznie etykiet faktycznych i rutynowo na etykietach uzyskanych w innym celu, które można niedrogo uzyskać z publicznie dostępnych źródeł. Konkretne przykłady, które możemy zidentyfikować, obejmują wykorzystywanie etykiet faktycznych do konstruowania normatywnych osądów dotyczących naruszenia zasad ubioru na placu budowy²⁸, zasad zakazujących toksycznych treści w internecie (np. Perspective API; https://perspectiveapi.com) oraz zasad oceny testów online²⁹. Rozwijamy te obserwacje w części artykułu pt.: „Dyskusja”.

Rys. 1. Duże zbiory danych ML są coraz ważniejsze, ale rzadko dostępne są liczne etykiety danych przypadające na element. Rysunek pokazuje rozmiar (liczbę obiektów w zbiorze) w stosunku do liczby etykiet na element, na przykładzie wybranych popularnych zbiorów danych (przypisy nr 20, 21, 40, 81, 83 – 87). Zbiorom danych wskazanym jako punkty od 1 do 9 na rysunku odpowiadają kolejno zbiory danych wskazane w przypisach nr 84, 20, 84, 21, 85, 86, 87, 40, 81.

Nasze wyniki sugerują, że w tych przypadkach pominięto kluczową kwestię: osąd normatywny jest kompleksowym procesem, którego nie można łatwo podzielić na ustalanie faktów i stosowanie reguł. Podejścia do automatyzacji oparte na takim podziale mogą stwarzać fałszywą obietnicę obiektywności. Pełne uwzględnienie tego aspektu wymagałoby bardziej starannych i kosztownych wysiłków w celu wyselekcjonowania danych specjalnie dla potrzeb kontekstu normatywnego, w którym mają zostać zastosowane. Rośnie literatura na temat słabości ludzkich umiejętności w zakresie właściwego wykorzystywania prognoz ML³⁰ ³¹, nawet w warunkach eksperckich³². Podkreśla się w niej także istotne znaczenie jakie ma zwracanie szczególnej uwagi na złożoność interakcji człowiek – maszyna, jeśli chodzi o dokonywanie ocen, a nasze wyniki nadają nowy wymiar temu istotnemu problemowi.

Wyniki

Pozyskiwanie danych w zestawieniach normatywnych i opisowych

Pozyskaliśmy etykiety normatywne i opisowe w czterech stypizowanych kategoriach (zbiorach danych), aby sprawdzić różnice w sposobie, w jaki ludzie oceniają fakty a w jaki normy. Trzy pierwsze z tych kategorii dotyczyły oceny obrazów, a czwarta oceny krótkich próbek tekstu. Stworzyliśmy fikcyjne zasady (lub kody) rządzące tymi czterema kategoriami, które:

w kategorii „Odzież” odzwierciedlają one zasady dotyczące ubioru (ang. dress code) noszonego w biurze lub szkole,
w kategorii „Posiłek” odzwierciedlają zasady dotyczące składu/wyglądu posiłków podawanych w szkołach,
w kategorii „Zwierzę domowe” odzwierciedlają zasady dotyczące tego jakie psy są akceptowane w budynkach mieszkalnych,
w kategorii „Komentarz” odzwierciedlają wytyczne dotyczące komentarzy publikowanych na forach internetowych (ryc. 2A).

Rys. 2A i 2B. Porównanie etykiet oceny naruszenia reguł zebranych w oparciu o kryterium normatywne z etykietami skonstruowanymi przy użyciu etykiet opartych na występowaniu cech faktycznych ( zebranych w oparciu o kryterium opisowe).

Tłumaczenie treści komórek tabeli w rys. 2A (poczynając od lewej strony, przecinkami oddzielono nazwy kolejnych komórek):

Wiersz pierwszy (tytuły kolumn tabeli): Zbiór danych/kategoria (Dataset), Przykład (Example), Etykiety z kryterium opisowym (Descriptive), Etykiety z kryterium normatywnym (Normative),
Wiersz drugi: „Odzież”/ „zasady ubioru (dress code)”, zdjęcie przykładowe osoby w ocenianym ubraniu, fiszka z oceną cechy faktycznej [pola wyboru do zaznaczenia: Skóra (czy odsłonięta jest duża powierzchnia), Grafika (ubranie ma napis, grafikę czy obraz), Długość ubrań (czy przedstawia krótkie spodnie albo krótką spódniczkę], fiszka z oceną normatywną [Naruszenie? (Pola wyboru do zaznaczenia: Tak/Nie), Jeśli tak, to dlaczego? (Pola wyboru do zaznaczenia: Skóra, Grafika, Długość ubrań)],
Wiersz trzeci: „Posiłek”, zdjęcie przykładowe posiłku, fiszka z oceną cechy faktycznej [pola wyboru do zaznaczenia: Cukier (Zawiera dużo cukru), Smażone (zawiera smażoną żywność), Brak warzyw (zawiera mniej niż 1 porcję warzyw lub owoców)], fiszka z oceną normatywną [Naruszenie? (Pola wyboru do zaznaczenia: Tak/Nie), Jeśli tak, to dlaczego? (Pola wyboru do zaznaczenia: Cukier, Smażone, Brak warzyw],
Wiersz czwarty: „Zwierzę domowe”, zdjęcie przykładowe, fiszka z oceną cechy faktycznej [pola wyboru do zaznaczenia: Rozmiar (Jest dużego rozmiaru), Zaniedbany (nie jest należycie zadbany), Agresywny (wygląda agresywnie)], fiszka z oceną normatywną [Naruszenie? (Pola wyboru do zaznaczenia: Tak/Nie), Jeśli tak, to dlaczego? (Pola wyboru do zaznaczenia: Rozmiar, Zaniedbany, Agresywny],
Wiersz piąty: „Komentarz”/ „Wytyczne forum internetowego”, Przykładowy komentarz: „Jeśli zobaczysz kogoś, kto tak robi, użyj proszę na tym gnojku swojego areozolu na niedźwiedzie”, fiszka z oceną cechy faktycznej [pola wyboru do zaznaczenia: Negatywny (zawiera negatywny komentarz), Grożący (zawiera groźbę), Obsceniczny (zawiera sprośne słownictwo)], fiszka z oceną normatywną [Naruszenie? (Pola wyboru do zaznaczenia: Tak/Nie), Jeśli tak, to dlaczego? (Pola wyboru do zaznaczenia: Negatywny, Grożący, Obsceniczny].

(A) Zbieramy etykiety opisowe (tj. obejmujące oceny występowania cech faktycznych) i normatywne etykiety oceny naruszenia reguł dla czterech kategorii: „Ubiór” (zasady dotyczące ubioru), „Posiłek” (zasady dotyczące składu posiłków w szkole), „Zwierzę domowe” (zasady dotyczące zwierząt domowych w budynku) i „Komentarz” (zasady dotyczące komentarzy na internetowym forum dyskusyjnym). (B) Kontrastujące zachęty do gromadzenia danych, proszące osoby etykietujące o dokonywanie opisowych ocen (A), zamiast bezpośredniej normatywnej oceny naruszeń zasad (B). Należy zauważyć, że przykładowe obrazy i obiekty tekstowe pokazane na rysunku pochodzą z otwartych, publicznie dostępnych zbiorów danych.

Nasz celem było zachowanie realizmu, ale jednocześnie prostoty przy tworzeniu naszych kodów postępowania, dlatego użyliśmy tylko trzech cech faktycznych w każdym zbiorze reguł (kodzie). Ponadto, upewniliśmy się, że ocena wystąpienia cechy faktycznej nie zależy od oceny stanu cudzego umysłu, takich jak intencja osoby, ani nie wymagają dodatkowej specjalistycznej wiedzy. Na przykład, w przypadku zbioru „Posiłek”, dodaliśmy „wysoką zawartość cukru”, zamiast pytać o potencjalne alergeny, a z kolei wykluczyliśmy cechy takie jak „seksualnie prowokujące” z naszych zasad ubioru (dress code’u). Zrobiliśmy to, aby naśladować sytuacje, w których uczony model ML może, prawdopodobnie, osiągnąć sukces w klasyfikowaniu cech faktycznych. Należy jednak zauważyć, że do zbiorów reguł (kodów postępowania) włączyliśmy cechy faktyczne zawierające pewne elementy subiektywności, które mogą być różnie oznaczane i oceniane (na przykład, jakiego rozmiaru musi być pies, aby był określany jako „duży”?).

Dla każdego zbioru danych (kategorii), zaprezentowaliśmy uczestnikom rekrutowanym za pośrednictwem platformy Amazon Mechanical Turk (MT) obiekt (obraz lub próbkę tekstu) i poprosiliśmy ich o odpowiedź na pytania (Rys. 2B). Uczestnicy przy każdym zbiorze danych zostali przydzieleni do jednej z dwóch grup oceniających według następujących kryteriów:

Kryteria opisowe: Uczestnikom przedstawiano trzy cechy faktyczne, które mogły wystąpić w obiektach danego zbioru danych i proszono ich o wskazanie (tak/nie), czy występują w konkretnym obiekcie. Uczestnicy w tej grupie nie otrzymywali konkretnej zasady normatywnej, którą mieliby stosować przy ocenie, ani nie byli zachęcani do rozważania naruszeń jakichkolwiek zasad. Następnie udzielone przez nich odpowiedzi zostały użyte do konstrukcji normatywnych ocen dla obiektu przy użyciu logiki „jeśli-to”: Jeśli uczestnik wskazał, że któraś z trzech przedstawionych mu cech, które mogły wystąpić w danym zbiorze danych, faktycznie występowała, to wówczas obiekt był klasyfikowany jako naruszający tę zasadę w ocenie tego uczestnika.
Kryteria normatywne (ocenne): Uczestnicy otrzymywali odpowiednią zasadę normatywną dla oceny danego zbioru danych i byli pytani, czy zasada została naruszona przez obiekt (tak/nie), tj. czy zostały spełnione kryteria do jej zastosowania. W tej grupie były zatem zbierane oceny normatywne. Następnie uczestnicy zostali poproszeni o wskazanie wszystkich powodów uzasadniających ich ocenę, wybierając, które z cech faktycznych zawartych w odpowiedniej zasadzie (jej hipotezie – przyp. tłumacz) występowały.

Każdy zbiór danych (danych w każdej kategorii) zawierał 2000 obiektów, przy czym każdy z tych obiektów został oznaczony przez 20 uczestników w obu grupach kryteriów (opisowej i normatywnej – przyp. tłumacz), co daje w sumie 40.000 punktów danych w każdej z grup kryteriów. Wszystkie obiekty w każdym przypadku pochodziły z istniejących zbiorów danych (szczegóły w dodatkowym tekście).

Terminem „etykiety opisowe” określamy etykiety ocen powstałe poprzez zastosowanie logiki „jeśli – to” do etykietowania cech zebranych przy użyciu kryteriów opisowych, natomiast terminem „etykiety normatywne” określamy etykiety ocen powstałe przez zastosowanie kryteriów normatywnych.

Etykiety opisowe i normatywne znacząco się różnią.

Najpierw przetestowaliśmy hipotezę zakładającą, że dane, niezależnie czy opatrzone etykietami opisowymi czy normatywnymi nie różnią się mimo uzyskiwania ich za pomocą dwóch różnych grup kryteriów (w oryginale: są pobierane/losowane z tej samej dystrybucji – przyp. tłumacz). Rozpoczęliśmy jej weryfikację od skonstruowania pojedynczej etykiety oceny dla każdego obiektu, poprzez uśrednienie etykiet ocen uzyskanych od 20 osób etykietujących, w każdej z dwóch grup kryteriów (opisowych i normatywnych). W ten sposób, każdy obiekt został określony za pomocą jednej etykiety normatywnej i jednej etykiety opisowej: odsetka uczestników, których odpowiedzi wygenerowały ocenę „naruszenie” zgodnie z danym warunkiem. Następnie określono procent uczestników, których odpowiedzi stwierdzały „naruszenie” wg danych kryteriów: Etykieta „1” oznacza pełną zgodność etykietujących, że obiekt narusza kod postępowania w danej kategorii, a etykieta „0” oznacza ich pełną zgodność, że naruszenie nie występuje. W ten sposób uzyskaliśmy silne dowody (Rys. 3A), które pozwalają odrzucić hipotezę, że etykiety ocen generowane w myśl tych dwóch grup kryteriów można uznać za równoważne (że pochodzą/są losowane z tej samej dystrybucji) we wszystkich czterech kategoriach (P <0.0001, test H. Kruskala-Wallisa; wyniki dokładnego testu w dodatkowym tekście). Różnica jest znaczna: średnia bezwzględna różnica (czyli średnia bezwzględna różnica procentowa pomiędzy liczbą etykietujących, w poszczególnych grupach kryteriów, którzy zidentyfikowali naruszenie) wynosi około 10% w przypadku danych z kategorii „Odzież” i „Komentarz”, a 20% w przypadku danych z kategorii „Posiłek” i „Zwierzę domowe”.

Rys. 3(A-D). Oceny uzyskane na podstawie etykiet opisowych znacznie różnią się od tych uzyskanych na podstawie ocen normatywnych. Słupki wykresów na diagramach (A) i (B) wypełnione wyłącznie kolorem oznaczają wynik przy zastosowaniu kryterium normatywnego.
Słupki oznaczone dodatkowo siatką albo kropkami oznaczają wynik przy użyciu etykiet stwierdzających wystąpienie jednej z trzech cech faktycznych (kryterium faktyczne). W diagramach (C) i (D) słupki silniej zabarwione oznaczają wynik całkowity (łączny), kolumny średnio zabarwione – wynik z wysokim poziomem kontrowersji (liczby sprzecznych ocen co do tego, czy cecha/naruszenie występuje w danym obiekcie – przyp. tłumacz) a słupki najsłabiej zabarwione – wynik z niskim poziomem kontrowersji.

Zbadano różnicę między etykietami zebranymi wg kryteriów opisowych i normatywnych za pomocą (A) średniej bezwzględnej różnicy między etykietami, które mówią o naruszeniu wg każdego kryterium i (B) średniej różnicy między tymi samymi etykietami, której kierunek pokazuje, że liczba etykiet stwierdzających naruszenie, zebranych przy zastosowaniu kryteriów opisowych, jest często wyższa (dla różnych obiektów). Zmierzono też odsetek obiektów, dla których rozkład zebranych etykiet jest znacząco różny między (C) dwoma kryteriami. Odsetek ten jest również oceniany między (D) etykietami normatywnymi i opisowymi z kontekstem.

Różnica między kryteriami jest również spójna pod względem kierunku w większości badanych zbiorów danych (rys. 3B). Dla każdej kategorii średnia stwierdzonych naruszeń przez obiekty, przy zastosowaniu etykiet opisowych jest znacznie wyższa niż odpowiadająca jej średnia stwierdzonych naruszeń przy zastosowaniu etykiet normatywnych (wytłuszczenie – tłumacz). Oznacza to, że istnieje znacznie większe prawdopodobieństwo, że obiekt zostanie oznaczony jako „naruszający” (mający cechę powodującą naruszenie) gdy zastosuje się kryteria opisowe niż przy zastosowaniu kryteriów normatywnych (P <0,0001, test Wilcoxona rangowanych znaków (ang. Wilcoxon signed-ranks test, znany również pod nazwą testu Wilcoxona dla pojedynczej próby – przyp. tłumacz). Wielkość tej różnicy w zbiorach danych obejmujących kategorie „Odzież” i „Komentarz” wynosi mniej niż 8%, ale wzrasta do 15-20% w zbiorach danych z kategorii „Posiłek” i „Zwierzę domowe”. Należy zauważyć, że w tym miejscu omawiamy średnią różnicę, podczas gdy w poprzednim akapicie (nad rys. 3 – przyp. tłumacz) omawialiśmy średnią różnicę bezwzględną. Analizując te ogólne oceny, porównaliśmy również etykiety nadane bazowym cechom faktycznym w każdej z grup kryteriów (opisowych i normatywnych), ponownie uśredniając je dla 20 osób etykietujących dla danej grupy kryteriów. Okazało się, że dla 11 z 12 cech, których występowanie było oceniane w czterech zbiorach danych (kategoriach), etykiety powstałe w oparciu o kryteria opisowe, są wyższe (częściej stwierdzają naruszenie – przyp. tłumacz) niż te powstałe w oparciu o kryteria normatywne (rys. 3B). Potwierdza to obserwację, że nawet gdy poproszono osoby etykietujące o skupienie się na stwierdzaniu obecności istotnych ze względu na pytania cech, uczestnicy rzadziej stwierdzali, że taka cecha występuje, gdy działali w oparciu o kryteria normatywne niż w oparciu o kryteria opisowe.

Biorąc pod uwagę obserwowane przez nas różnice między etykietami normatywnymi i opisowymi, zbadaliśmy, czy niektóre obiekty byłyby oznaczane znacząco inaczej w obu grupach kryteriów. Aby to oszacować, przeprowadziliśmy test statystyczny między binarnymi (0 – 1) ocenami tego czy doszło do naruszenia, zebranymi w obydwu grupach kryteriów dla każdego obiektu (przy użyciu dokładnego testu Boschloo, wariantu dokładnego testu Fishera). Gdy ten test zwróci wartość P ≤0,05, oznacza to, że kryteria dają znacząco różne wyniki dla danego obiektu. Przebadaliśmy wszystkie cztery zbiory danych (kategorie). Stwierdziliśmy, że odsetek obiektów, które otrzymują znacząco różne oceny (stwierdzenie naruszenia albo jego brak), w zależności od tego, który z dwóch grup kryteriów zostało zastosowane, waha się od niskiego poziomu 3,5% (kategoria „Komentarz”) do wysokiego poziomu 37,8% („Posiłek”) (rys. 3C).

Różnice etykietowaniu są odporne (nie zależą od) na kontrowersyjność przykładu

W poprzedniej sekcji nasza analiza koncentrowała się na statystykach, które są uśrednione dla ocen wszystkich obiektów w danym zbiorze danych (kategorii). Jednak wiele z tych obiektów ma niską kontrowersyjność: wyraźnie reprezentują lub nie reprezentują naruszenia danej reguły (albo reprezentują daną cechę albo jej brak – przyp. tłumacz). Spodziewaliśmy się, że w takich przypadkach osoby etykietujące obiekty będą zgodne i oczekiwaliśmy, że nie będzie różnicy między etykietami powstałymi wg kryteriów opisowych i normatywnych. Na przykład obraz osoby noszącej długie spodnie (zakrywające nogi na całej długości), koszulę zapinaną na guziki i marynarkę, prawdopodobnie nie zostanie oznaczony jako naruszenie naszego kodeksu ubioru (dress code’u), ani w grupie kryteriów opisowych ani w grupie kryteriów normatywnych. Natomiast przypadki, w których możemy zaobserwować różnicę w ocenach normatywnych, mogą być bardzo kontrowersyjne wówczas, gdy ocena, czy dana cecha występuje w obiekcie, nawet jako wyłącznie faktyczne zjawisko, jest dość subiektywna. Przykładowo, jak krótka musi być spódnica, aby została uznana za „krótką”? Są to przypadki, w których normatywne osądy stwierdzające wystąpienie naruszeń mogą być kwestionowane i wymagają uzasadnienia. W praktyce to właśnie te wysoce kontrowersyjne przypadki, w których osądy normatywne stwierdzające wystąpienie naruszeń są bardziej prawdopodobne, wymagają uzasadnienia. W takich przypadkach spodziewaliśmy się wyższego wskaźnika niezgody pomiędzy osobami etykietującymi (rozbieżności w ocenach – przyp. tłumacz). To w nich przewidywaliśmy większe prawdopodobieństwo pojawienia się różnic w wynikach ocen dokonywanych na podstawie kryteriów normatywnych. Heurystycznie zdefiniowaliśmy obiekt jako wysoko kontrowersyjny, jeśli występuje co najmniej 20% niezgodność między nadanymi mu etykietami opisowymi.

Korzystając z tej samej metodologii, co przy poprzednim teście statystycznym (dokładny test Boschloo), stwierdziliśmy, że odsetek obiektów o wysokiej kontrowersyjności, tj. tych, które otrzymują znacząco różne etykiety w zależności od tego, w oparciu o którą grupę kryteriów zostały dokonane, wynosi do 63,32% („Posiłek”) (ryc. 3B). Oznacza to, że w większości przypadków obiekty wysoko kontrowersyjne częściej niż pozostałe otrzymują znacząco odmienne etykiety (oceny), w zależności od tego wg której grupy kryteriów zostały ocenione. Natomiast znacząco różne etykiety oceny zostały nadane, w zależności od zastosowanych kryteriów (opisowych czy normatywnych) jedynie dla 4,91% obiektów tekstowych o niskiej kontrowersyjności.

Ponadto zauważyliśmy, że różnice w etykietach poszczególnych obiektów powstałe na skutek zastosowania różnych grup kryteriów (różnice opisowo-normatywne) występują w całym zakresie rozbieżności pomiędzy etykietującymi (rys. 4). Zautomatyzowany system decyzyjny generuje binarną etykietę (konkluzję) – naruszenie lub nie – w oparciu o zdefiniowaną progową proporcję etykietujących, którzy oznaczają obiekt jako naruszający (mający daną cechę). Na przykład przy niskim progu nawet niewielka liczba osób oceniających obiekt jako naruszający (mający daną cechę) będzie wystarczająca, aby system zakwalifikował obiekt jako naruszający zasadę (wytłuszczenie – tłumacz). Stwierdziliśmy, że zidentyfikowana przez nas różnica (pomiędzy etykietami nadanymi wg kryteriów opisowych a nadanymi wg kryteriów normatywnych- przyp. tłumacz) utrzymuje się w całym spektrum progów, w których uzyskanie takiej binarnej etykiety jest akceptowalne (rys. S2 z tekstu dodatkowego – nieobecny w tekście zasadniczym).

Rys. 4. Zaobserwowane oceny stwierdzające naruszenie odbiegają od tego, czego oczekiwalibyśmy, gdyby przyjąć, że kryteria normatywne i opisowe były identyczne (dla potrzeb etykietowania obiektów).

Powyższy wykres przedstawia rozkład etykiet normatywnych dla każdej wartości etykiety opisowej (zaokrąglonej) dla zbiorów danych (A) „”, (B) „Posiłek”, (C) „Zwierzę domowe” i (D) „Komentarz”. Rozproszone punkty pokazują etykiety normatywne uzyskane dla każdego unikalnego oszacowania naruszenia wg etykiety opisowej. Obserwujemy, że oceny normatywne często odbiegają od linii 45°, której spodziewalibyśmy się, gdyby rezultaty obydwu grup kryteriów były identyczne. Szare linie i szaro zacienione obszary wskazują 95% przedziały Cloppera-Pearsona wokół oszacowania punktu etykiety opisowej, a kolorowe krzywe w każdym przypadku łączą mediany i 95% przedziały ufności etykiet normatywnych. Widzimy, że kilka punktów leży poza szarym zacienionym obszarem, co interpretujemy jako to, że etykiety normatywne często wykraczają poza to, czego oczekiwalibyśmy, na podstawie etykiet opisowych i związanych z nimi wariancją. Zazwyczaj to odchylenie następuje w dół: obserwowana mediana dla ocen normatywnych jest często niższa niż odpowiadających im ocen opisowych dla zbiorów danych „Posiłek”, „Zwierzę domowe” i „Komentarz”.

Różnice w etykietowaniu są odporne na kontekst oceny

Jednym z możliwych wyjaśnień różnic zaobserwowanych między rezultatami zastosowania kryteriów normatywnych i opisowych może być to, że uczestnicy stosujący kryteria normatywne mają po prostu więcej kontekstu. Na przykład „wysoka ekspozycja skóry” może być oceniana inaczej, jeśli uczestnicy myślą o tej funkcji w kontekście stroju odpowiedniego do wyjścia do biura, a nie na wyjście z przyjaciółmi. Może to oznaczać, że różnica, którą obserwujemy w etykietowaniu, nie wynika z tego, jak ludzie stwierdzają istnienie faktu, a jak naruszenie jakiejś normy, ale raczej z tego, jakimi informacjami dysponują, podczas dokonywania subiektywnej oceny faktów.

Aby zbadać czy ten efekt występuje, wprowadziliśmy trzeci rodzaj kryteriów: opisowe z kontekstem, który jest identyczny z grupą kryteriów opisowych, z wyjątkiem dodania w nich kontekstu dotyczącego sytuacji. W przypadku zbioru danych „Odzież” poprosiliśmy uczestników o zidentyfikowanie cech pozwalających ocenić, czy te ubrania „mogą być noszone w biurze lub szkole”; w przypadku zbioru danych „Posiłek” – czy posiłki są „zdrowe i pełnowartościowe”; w przypadku zbioru danych „Zwierzę domowe” – czy okazane psy „byłyby nie na miejscu w małych pomieszczeniach”; a w przypadku warunku „Komentarz” – czy fragment tekstu jest „pełen szacunku”. Okazuje się, że nawet z tym dodatkowym kontekstem, oceny opisowe i normatywne różnią się znacząco (P <0,0001, test H Kruskala-Wallisa). Co więcej, w przypadku dwóch z czterech zbiorów danych („Posiłek” i „Zwierzę domowe”) kryteria opisowe i opisowe z kontekstem nie różnią się istotnie pod względem średniej – „Posiłek”: P = 0,22 i „Zwierzę domowe”: P = 0,08 (test H Kruskala-Wallisa).

Kryteria opisowe z kontekstem i normatywne. również prowadzą do nadania znacząco różnych etykiet oceny aż dla połowy obiektów o wysokiej kontrowersyjności (rys. 3; wytłuszczenie – tłumacz). Warto zauważyć, że wprowadzenie kontekstu do zbioru danych „Komentarz” zwiększa liczbę przykładów wykazujących znaczącą różnicę między etykietami opisowymi i normatywnymi z około 4 do 10%. Wnioskujemy na tej podstawie, że obserwowane przez nas efekty nie są spowodowane dostępnością kontekstu dla oceny, o którą proszeni są etykietujący.

Różnice w etykietowaniu wpływają na wydajność modelu

Nasze eksperymenty i analizy dotyczące etykietowania wykazały znaczące różnice w ocenach dokonywanych na podstawie kryteriów opisowych i normatywnych. W tym miejscu omawianie badanie wpływu tych różnic w etykietowaniu, na wydajność modeli ML wytrenowanych do automatyzacji osądów normatywnych. Ma to na celu określenie, jak dokładnie modele wyszkolone do oceny faktów (tj. wyszkolone przy użyciu etykiet opisowych) przewidują osądy dotyczące naruszeń reguł (tj. etykiet normatywnych). W języku uczenia maszynowego: testujemy wydajność modeli wytrenowanych opisowo w warunkach zmiany dystrybucji³³, a konkretnie zmiany dystrybucji z etykiet z opisowych na normatywne.

Dla każdego zbioru danych wytrenowaliśmy modele przy użyciu etykiet opisowych lub normatywnych i przetestowaliśmy je na zestawie wstrzymanych danych z etykietami normatywnymi. We wszystkich przypadkach wytrenowaliśmy nadzorowane wielozadaniowe modele predykcyjne, w których przewidywana jest (skonstruowana) opisowa lub normatywna ocena naruszenia reguły, a także trzy faktyczne wartości cech (rys. 3). Modele ResNet-50 (zob. przypis nr 17) i ALBERT (zob. przypis nr 18) są używane odpowiednio do klasyfikacji obrazów i tekstów. Szczegóły eksperymentu znajdują się w tekście uzupełniającym.

Stwierdziliśmy w ten sposób, że modele wyszkolone przy użyciu etykiet opisowych osiągają niższą dokładność (rys. 5) w przewidywaniu naruszeń reguł normatywnych, zwłaszcza w przypadku obiektów, które są trudne do uzgodnienia przez ludzi (wytłuszczenie – tłumacz). Nawet w przypadku stosunkowo małych zbiorów danych (2000 obiektów) – gdzie próbkowanie może dawać zniekształcone wyniki – ta różnica w dokładności / wyniku F1 jest nadal znacząca (P ≤ 0,05, testu Wilcoxona dla pojedynczej próby z podpisem rangi / H. Kruskala-Wallisa). Zwracamy uwagę, że modele wytrenowane na zbiorze danych „Komentarz” dają stosunkowo dużą rozbieżność w wydajności³⁴, dlatego pomimo utrzymującej się luki, różnica w dokładności może nie być statystycznie istotna w przypadku sparowanego testu dla niektórych modeli (choć istotna w przypadku niesparowanego testu H. Kruskala-Wallisa; patrz tekst dodatkowy).

Co więcej, stwierdzamy, że z użyciem modeli opisowych (modeli ML wytrenowanych na etykietach opisowych – przyp. tłumacz) wiąże się wyższy wskaźnik wyników fałszywie dodatnich na zbiorze testowym w każdym przypadku; oznacza to, że jest bardziej prawdopodobne, że modele te błędnie uznają obiekt za naruszający (normę postępowania – przyp. tłumacz). W związku z tym, więcej stwierdzonych naruszeń (przy etykietowaniu) w danych daje przewidywalnie więcej przewidywań naruszenia zasad wyprowadzonych przez model (patrz rys. 3, gdzie etykiety opisowe z większym prawdopodobieństwem doprowadzą do wygenerowania etykiety/wyniku naruszenia normy). Większe różnice i podobne tendencje zaobserwowano w przypadku obiektów, które są sporne pod względem normatywnym, tzn. tych, które przy normatywnej etykiecie osądu zostały ,uśredniając, uznane za kontrowersyjne (osoby etykietujące częściej różniły się w ocenie czy doszło do naruszenia normy – przyp. tłumacz), (np. rys. S4 – rysunek znajduje się w załącznikach – przyp. tłumacz).

Rys. 5. Modele wytrenowane na etykietach opisowych dają istotnie statystycznie różne przewidywania niż modele wytrenowane na etykietach normatywnych.

Trenowanie modeli na etykietach opisowych (Train: Descriptive – mocniej zabarwione słupki wykresów) daje znacznie niższą dokładność i wyższe wskaźniki fałszywie dodatnie (tj. nieprawidłowo oznaczone jako naruszenie) we wszystkich czterech zbiorach/kategoriach danych, gdy są testowane na obiektach z etykietami normatywnymi (testy H Kruskala-Wallisa; patrz także rys. S4). Gwiazdki wskazują 95% przedziały ufności dla każdej metryki wydajności (od A do D). Strzałki w tytule każdego wykresu wskazują kierunek „lepszej” wydajności (jeśli strzałka jest skierowana do góry, oznacza to że im wyższy słupek tym bardziej prawidłowe przewidywanie, jeśli skierowana jest w dół – im niższy słupek, tym rzadszy błąd w przewidywaniu – przyp. tłumacz).

Osadziliśmy także rozmiar utraty dokładności w odpowiednim kontekście poprzez porównanie go ze zmianami w dokładności spowodowanymi „szumem” etykiet, mniejszą ilością danych i zmianami w architekturze modelu. Na rys. 6A pokazujemy, że średnia utrata dokładności (przewidywania wyniku – przyp. tłumacz) spowodowana przejściem z etykiet normatywnych na opisowe jest równoważna dodaniu od 20 do 40% „szumu” etykiet w czasie szkolenia lub usunięciu od 50 do 95% punktów danych szkoleniowych i walidacyjnych (przy tej samej konfiguracji hiperparametrów) (wytłuszczenie – tłumacz). Na rys. 6B porównujemy je ze zmianą wynikającą ze zmiany architektury modelu, z małego „destylowanego” modelu transformatora „ALBERT” (zob. przypis nr 18), na duży model transformatora „BERT”³⁵. Gdy oba modele są trenowane na danych etykietowanych opisowo, dokładność większego modelu poprawia się o 2,12% w zbiorze danych „Komentarz” (wzrost o 4,61% w przypadku obiektów o niskiej kontrowersyjności; wzrost o 0,96% w przypadku obiektów o wysokiej kontrowersyjności). W przeciwieństwie do powyższego, trenowanie mniejszego modelu ALBERT na etykietach normatywnych poprawia wydajność o 5,54% (6,42% na obiektach o wysokiej kontrowersyjności; brak znaczących różnić w teście H. Kruskala-Wallisa – na poziomie 0,05, z poprawką na wielokrotne testowanie). Zaznaczenia wymsaga, że wybór danej architektury modelu jest często wysoce zoptymalizowany³⁶.³⁷ przez badaczy i praktyków ML. Na przykład różnica w zależności od klasy modelu między modelami RoBERTa³⁸ i ALBERT prowadzi do 0,5% różnicy w dokładności w teście porównawczym MNLI-m³⁹. Powyższe porównanie sugeruje, że wybór etykiet ma stosunkowo duży wpływ na wydajność modeli ML w zastosowaniach normatywnych (przy stosowaniu norm – stwierdzania ich naruszenia – przyp. i wytłuszczenie – tłumacz). Ponadto zaobserwowaliśmy, że wydajność względna modeli BERT i ALBERT różni się w zależności od losowej inicjalizacji.

Rys. 6. Wpływ „opisowo-normatywnego” błędu pomiaru jest porównywalny z dużymi zmianami w szumie danych, zmniejszeniem rozmiaru danych i zmianą klasy modelu.

Wzrost liczby błędów w klasyfikacji przypadków spowodowany przejściem z etykiet normatywnych na opisowe w czasie treningu jest porównywalny (Aa) z dodaniem 20% do 40% szumu etykiet lub (Ab), zmniejszeniem rozmiaru zbioru danych o 50 do 95% (lewy górny i prawy górny róg). (B) Ponadto zgromadzenie „lepszych danych” (przy użyciu etykiet normatywnych w zadaniu normatywnym przy użyciu/trenowaniu modelu o tej samej pojemności) wpływa na dokładność klasyfikacji porównywalnie do trenowania „lepszego modelu” (przy użyciu etykiet opisowych w zadaniu normatywnym (mającym na celu dokonanie oceny normatywnej – przyp. tłumacz) przy użyciu modelu o wyższej pojemności; na dole).

Ponadto wstępna analiza zbioru danych „Komentarz” wskazuje, że wpływ błędów przewidywania co do zastosowania reguł powstałych na skutek zastosowania etykiet opisowych i normatywnych może się różnić w zależności od podzbioru. Na przykład, różnica w odsetku przewidywanych naruszeń reguł forum internetowego w przypadku modeli opisowych i normatywnych (wytrenowanych na danych etykietowanych opisowo albo normatywnie) dla podzbioru komentarzy ze wzmiankami o mężczyznach wynosi 13,48% w przypadku modelu opisowego i modeli normatywnych, w porównaniu do 14,55% w przypadku podzbioru komentarzy ze wzmiankami o kobietach.

Wreszcie, w celu sprawdzenia solidności i możliwości uogólnienia wniosków, zweryfikowaliśmy, czy zaobserwowane trendy wyższych wskaźników naruszeń (do częstszego stwierdzania wystąpienia naruszeń – przyp. tłumacz) w przypadku modeli wyszkolonych opisowo utrzymują się w ściśle powiązanych, istniejących wcześniej (przed badaniem – przyp. tłumacz), dużych zbiorach danych wzorcowych w zakresie odpowiadającym zbiorowi „Komentarz” (sekcja SA.11).

Dyskusja

Wykazaliśmy, że bezpośrednio stwierdzone w zbiorach danych oceny naruszeń reguł (etykietowanie normatywne) znacznie różnią się wynikami od tych skonstruowanych pośrednio, tj. gdzie ocena normatywna była poprzedzona oddzielnym etapem stwierdzenia obecności w zbiorze danych cech faktycznych (etykietowanie opisowe), których wystąpienie jest konieczne do zastosowania danej normy. Jest to zaskakujący wynik. Logicznie rzecz biorąc, spodziewalibyśmy się, że te dwie procedury dadzą taki sam wynik.

Zwracamy uwagę, że przedstawione przez nas cechy faktyczne często wymagają dokonania subiektywnego wyborów: Czy ekspozycja skóry w tym stroju jest wysoka? Czy ten komentarz zawiera nieprzyzwoity język? Nie są to faktyczne oceny z obiektywnie jednoznacznymi odpowiedziami. Stopień subiektywności oceny może się różnić w zależności od cech faktycznych. Dostrzegaliśmy te rozbieżności w ocenie faktów w naszym opisowym kryterium. Niemniej jednak to zróżnicowanie w ocenie faktów nie wyjaśnia rozbieżności między oceną wystąpienia faktu a oceną naruszenia normy (wymagającej uprzedniego stwierdzenia wystąpienia tego faktu – przyp. tłumacz). Gdyby w grę wchodziła tylko subiektywna ocena, powinniśmy zaobserwować taki sam odsetek uczestników oceniających cechę jako obecną w danym obiekcie, jak i oceniających regułę jako naruszoną przez ten obiekt, ponieważ cecha jest obecna. Nasze wyniki pokazują jednak różnicę (rys. 3A) w tych proporcjach: stwierdziliśmy konsekwentnie mniejszy jest odsetek osób, które identyfikują niejednoznaczną cechę jako obecną, gdy są proszone o dokonanie od razu oceny wg kryteriów normatywnych (w przeciwieństwie do oceny dokonanej przy użyciu kryteriów opisowych) (rys. 3B).

Nasze wyniki modelowania wskazują, że różnica między etykietami opisowymi i normatywnymi przekłada się na wydajność modelu (ML – przyp. tłumacz). W szczególności modele trenowane przy użyciu etykiet opisowych (tj. skonstruowanych ocen naruszeń (takich, gdzie najpierw dokonano oceny występowania cech faktycznych a następnie dopiero „przyłożono” do nich dyspozycję normy prawnej – przyp. tłumacz) osiągają gorsze wyniki w porównaniu z modelami trenowanymi na etykietach normatywnych (gdzie ocena wystąpienia naruszenia jest zespolona z oceną wystąpienia cechy mogącej naruszać normę). Proponujemy, aby postrzegać to zjawisko jako istotną formę błędu pomiaru w kontekście zautomatyzowanych systemów decyzyjnych. W takich systemach staramy się zautomatyzować osądy dokonywane przez ludzi. Prawidłową etykietą wyjściową byłaby zatem etykieta wygenerowana przez uczestników w przyjętym przez nas kryterium normatywnym: Czy ten obiekt narusza regułę? (wytłuszczenie – tłumacz). Wykazaliśmy bowiem, że model wytrenowany na etykietach cech faktycznych, powstałych przy zastosowaniu kryterium opisowego będzie konsekwentnie błędny, tzn.: zautomatyzowany system oparty o tak etykietowane dane będzie oceniał inaczej niż ludzie.

W powiązanej pracy Rottger i in.⁴⁰ również wskazują na konieczność zwracania uwagi na to, w jaki sposób ludzie w praktyce etykietują obiekty (w ich przypadku tekst) na potrzeby automatyzacji oceny. Podobnie jak my, proponują oni rozróżnienie – między paradygmatem opisowym a paradygmatem nakazowym – i przeprowadzają eksperyment na ludziach, aby zidentyfikować różnice w etykietach wynikające z różnych instrukcji etykietowania. Podkreślają również znaczenie dostosowania praktyk gromadzenia etykiet do potrzeb, do których model zostanie wykorzystany. Koncentrują się jednak na zakresie, w jakim model ma na celu wywołanie (opisowej) zmienności w indywidualnych przekonaniach (na przykład na temat tego, co stanowi mowę nienawiści) w porównaniu z koncentrowaniem się (nakazowo) na pojedynczym, nakazowym przekonaniu (na przykład na tym, co stanowi mowę nienawiści zgodnie ze szczegółowymi wytycznymi treści publikowanej na platformie mediów społecznościowych). W naszych ramach oba te paradygmaty mieszczą się w kryterium „opisowym”, ponieważ wymagają oceny (subiektywnych) faktów; ich „nakazowy” paradygmat nie obejmuje naszego „normatywnego” kryterium, w którym osoby etykietujące są proszone o dokonanie bezpośredniej oceny tego, czy doszło do naruszenia (na przykład) polityki dotyczącej treści.

Różnice w etykietowaniu wpływają na zautomatyzowane dokonywanie osądów

Procesy selekcji i etykietowania danych na potrzeby zautomatyzowanych systemów często nie są w pełni jawne i mogą obejmować zmianę przeznaczenia danych historycznych⁴¹. Na podstawie ograniczonych dostępnych informacji udało nam się zidentyfikować kilka przykładów opisowych praktyk etykietowania dla aplikacji normatywnych⁴². Chociaż nie ma publicznie dostępnych przykładów demonstrujących automatyzację osądów normatywnych opartych wyłącznie na etykietach faktycznych, niektóre dostępne przykłady ujawniają jednak ukryte założenie, że budowanie systemu do przewidywania dowodów potrzebnych do stwierdzenia występowania danych faktów jest właściwym podejściem, mającym wspierać ludzki osąd (w przeciwieństwie do budowania systemu służącego przewidywaniu ludzkich ocen dowodów faktycznych). Na przykład organy ścigania wykorzystują modele ML, które dokonują faktycznych prognoz dotyczących treści filmów w celu oceny naruszeń przepisów dotyczących pornografii dziecięcej⁴³, a sądy wykorzystują modele, które dokonują faktycznych prognoz dotyczących prawdopodobieństwa ponownego popełnienia przestępstwa przez oskarżonego w celu uzyskania normatywnych osądów dotyczących kaucji, wyroków i zawieszenia⁴⁴ ⁴⁵ ⁴⁶. Zauważamy również, że nawet jeśli badacze zwracają szczególną uwagę na praktyki etykietowania, a w szczególności na subiektywność ocen, nadal czynią pozornie naturalne założenie, że ocena obecności faktycznych predykatów jest odpowiednia do szkolenia modelu w zakresie dokonywania oceny⁴⁷.

Nasze wyniki ujawniają ważny aspekt zastosowania uczenia maszynowego w zastosowaniach normatywnych. W środowiskach, w których celem jest skalowanie istniejących procesów normatywnych, oceny maszynowe mogą wprowadzać nowe źródło stronniczości ocen. Odkryliśmy, że automatyzacja decyzji za pomocą modelu wyszkolonego na opisowych etykietach skutkowała osądami, które były surowsze w porównaniu z bezpośrednio uzyskanymi ludzkimi osądami normatywnymi (dla konkretnych zbiorów danych i grupy uczestników, którą badaliśmy). Może to mieć realne konsekwencje dla osób, które są oceniane przez maszyny, i mogą one być skłonne sprzeciwić się temu, by ich sprawa została rozstrzygnięta przez maszynę.

W innych przypadkach celem zautomatyzowanego systemu jest złagodzenie ludzkich błędów w ocenie, takich jak uprzedzenia rasowe lub płciowe⁴⁸. W takich przypadkach kuszące może być rozumowanie, że wykorzystanie „tylko faktów” do konstruowania osądów maszynowych byłoby lepsze niż trenowanie ich na stronniczych osądach ludzkich. Nasze wyniki pokazują wady tego podejścia. Wydaje się, że uprzedzenia nie wyjaśniają różnicy między naszymi kryteriami normatywnymi i opisowymi: Dwa z naszych zbiorów danych – „Jedzenie” i „Zwierzę domowe” – nie zwiększają ryzyka, że osądy zostaną znacząco zniekształcone przez uprzedzenia wobec grup chronionych. Wręcz przeciwnie, to faktyczne przewidywania mogą wprowadzać uprzedzenia: Na przykład szeroko dyskutowany system COMPAS do przewidywania ryzyka recydywy wykorzystuje tendencyjny wskaźnik zastępczy ponownego aresztowania do trenowania swoich modeli⁴⁹. Nasza praca sugeruje, że próby zmniejszenia stronniczości powinny koncentrować się na usprawnieniu procesu tworzenia etykiet. Na przykład, zamiast powielać historyczne decyzje, można spróbować wyselekcjonować dane dla normatywnych osądów, w oparciu o osądy dokonywane w wyidealizowanych warunkach, które kontrolują lub łagodzą stronniczość. Modele trenowane na takich danych pozwalają uniknąć pułapki fałszywego obiektywizmu. Jest to znacznie droższe niż szkolenie na rzeczywistych danych generowanych przez ludzkie systemy oceny, ale uważamy, że tego właśnie wymaga uczciwość i rzetelne oddanie różnicy między tym, jak ludzie oceniają fakty, a tym, jak oceniają normy.

Szersze powiązanie z badaniami obecnymi w literaturze prawniczej i psychologicznej

Nasze wyniki współgrają z efektami stwierdzonymi w relewantnych eksperymentach opisanych w literaturze psychologicznej. Tversky i Kahneman⁵⁰ po raz pierwszy zwrócili uwagę na efekt „ramowania” (ang. framing)⁵¹, pokazując, że osoby mają różną tolerancję na ryzyko w zależności od tego, czy hazard jest przedstawiany jako strata czy zysk. Liczne badania wykazały, że wybór różni się w zależności od tego, czy jest prezentowany w pozytywnym czy negatywnym kontekście⁵² ⁵³. Sprawdziliśmy, że ten konkretny efekt „ramowania” nie był odpowiedzialny za nasze wyniki. W badaniu odporności opisanym w tekście uzupełniającym, nasze zadania normatywne przedstawione jako „zgodność” zamiast „naruszenia” nie doprowadziły do statystycznie istotnych różnic (test H. Kruskala-Wallisa na reprezentatywnej podpróbie naszych zestawów danych).

W innych badaniach z zakresu prawa i psychologii badano aspekty relacji między ocenami faktycznymi i normatywnymi, a w szczególności wpływ kolejności. W klasycznym badaniu Simon i Mahan⁵⁴ stwierdzili, że przysięgli byli mniej skłonni do uznania oskarżonego za winnego w sprawie karnej, jeśli najpierw zostali poproszeni (przed naradą z innymi) o oszacowanie prawdopodobieństwa, że oskarżony, jako fakt, popełnił czyn zabroniony. W innym ważnym zbiorze badań Holyoak i współpracownicy⁵⁵ ⁵⁶ ⁵⁷ pokazują, że na zgłaszane oceny faktyczne mogą wpłynąć później dokonane oceny normatywne, w ten sposób, że początkowo mieszane postrzeganie/ocena faktów przybiera bardziej skrajne postacie, które wspierają pojawiający się osąd. Efekt ten jest postrzegany jako odzwierciedlający słabość ludzkiego rozumowania normatywnego, ponieważ ludzie zmieniają swoje przekonania na temat występowania faktów, aby osiągnąć większą spójność między swoimi przekonaniami a osądem. Podobnie jak nasze badanie, badania te pokazują, że osądy dotyczące faktów (i wniosków prawnych) mogą się różnić w zależności od tego, czy ktoś uważa, że został poproszony o ocenę stanu faktycznego jako kwestii opisowej, czy też o dokonanie jego oceny (osądu).

Nasze wyniki nie dają się jednak wytłumaczyć efektem stwierdzonym w tych artykułach. W innym teście odporności nie stwierdziliśmy występowania istotnej różnicy między ocenami tego, czy doszło do naruszenia prawa dokonanymi przed i po ocenie wystąpienia faktów, potwierdzających naruszenie prawa (test H. Kruskala-Wallisa z korektą wielokrotnego testowania na reprezentatywnej podpróbie naszych zbiorów danych, opisany w tekście dodatkowym). Ponadto, z teoretycznego punktu widzenia, nie ma powodu, aby sądzić, że nasze wyniki są napędzane dysonansem poznawczym i dążeniem do spójności, które zidentyfikowała literatura prawnicza i psychologiczna. Przywołane badania spójności⁵⁸ badają złożone warunki osądu – takie w procesach karnych – w których z czasem wysłuchuje się znacznych ilości niejednoznacznych dowodów, a następnie dokonuje się osądu. Efekt spójności sugeruje, że ludzie w tym otoczeniu mogą zacząć formułować normatywne wnioski (winny, niewinny), zanim usłyszą wszystkie dowody, a następnie mogą zmienić swoje postrzeganie dowodów, aby wesprzeć swój wyłaniający się osąd. W badaniu przeprowadzonym przez R. J. Simon i L. Mahan⁵⁹, rozważano osądy dokonane po naradzie z innymi i wpływ dokonania oceny faktów przed naradą. W naszym badaniu przyjęliśmy jednak prostą zasadę: brak deliberacji i brak znacznego upływu czasu między wydaniem osądu a przedstawieniem faktycznych powodów (osądy i ich motywy są wywoływane na jednym ekranie ankiety). Co więcej, nasi uczestnicy nie mogą zmienić swoich faktycznych osądów po dokonaniu osądu normatywnego zatem różnice, które obserwujemy, występują między badanymi, a nie w nich samych.

Nasza praca wiąże się również ściśle z badaniami nad etyką obliczeniową w modelach językowych. Jednakże, podczas gdy większość ostatnich prac koncentrowała się na budowaniu modeli, które mają zdolność dokonywania ocen moralnych podobnych do ludzkich⁶⁰,⁶¹, nasze badanie sprawdza podstawowe założenie dotyczące ludzkiego rozumowania normatywnego, nieodłącznie związane z obecnymi praktykami pozyskiwania danych ML.

Etykietowanie danych dla zadań normatywnych wymaga starannej uwagi w nadzorowanych potokach uczenia maszynowego⁸⁶

Podkreślamy, że badamy alternatywne podejścia do etykietowania dla uczenia maszynowego, które przynoszą pożądane rezultaty, a nie psychologię człowieka jako taką. Porównujemy podejścia, w sposób, który wydaje się rozsądny – zbieramy faktyczne etykiety, a następnie wykorzystujemy je do konstruowania osądów – z alternatywą, którą można uznać za równoważną – prosimy osoby etykietujące bezpośrednio o dokonanie osądu – i wykazujemy, że nie są one jednak równoważne. Literatura z zakresu prawa i psychologii identyfikuje błędy, które może popełniać ludzkie (indywidualne i zbiorowe) rozumowanie w złożonych warunkach i oferuje propozycje ich zredukowania. Uczestnicy naszego badania nie popełniają natomiast błędów w ocenie. Mogą po prostu angażować się w inne procesy poznawcze, gdy dokonują osądów normatywnych, niż gdy oceniają fakty. Jest to hipoteza, która nie została zbadana w istniejącej literaturze z zakresu prawa i psychologii (wytłuszczenie – tłumacz). Jednak hipoteza, że ocenianie faktów i ocenianie norm to po prostu zupełnie inne zadania, jest wiarygodna, gdy zastanowimy się nad tym, co ludzie robią, oceniając naruszenia norm. W drodze eksperymentalnej konsekwentnie odkrywaliśmy, że nasi uczestnicy dają ocenianemu obiektowi przywilej wynikający z wątpliwości: sytuacja niejednoznaczna często uznawana jako nienaruszająca normy⁶². Jedną z możliwych interpretacji tego zjawiska polega na przyjęciu, że uczestnicy naszego badania przypisują różne koszty do swoich osądów w zależności od tego które mieli zastosować kryterium: Podjęcie błędnej decyzji w zakresie oceny faktycznej jest tylko kwestią nieprawidłowego opisania świata. Błąd normatywny to kwestia potencjalnego wyrządzenia krzywdy innemu człowiekowi. Statystycznie ujmując powyższe błędy, nasi uczestnicy mogli oceniać wyniki fałszywie pozytywne albo fałszywie negatywne, w równym stopniu przy stosowaniu obydwu grup kryteriów, ale przykładać większą wagę do fałszywie pozytywnych wyników przy stosowaniu kryteriów normatywnych niż przy użyciu kryteriów opisowych.

Sugerujemy, że jest kwestią otwartą, czy „prawidłowym” sposobem dokonywania osądu normatywnego jest najpierw ocena faktów, a następnie zastosowanie logiki do tych faktów, czy też sformułowanie osądu, a następnie wyartykułowanie faktycznych ustaleń przy uzasadnieniu tego osądu, zwłaszcza gdy fakty są niejednoznaczne. Wiele systemów ludzkiej oceny przestrzegania norm w praktyce nie zmusza podmiotu dokonującego osądu, by najpierw dokonał ustaleń faktycznych, a dopiero następnie ocenił, czy doszło do naruszenia norm postępowania. Zazwyczaj przysięgli nie są proszeni najpierw o przedstawienie swoich ustaleń faktycznych, a następnie o wydanie wyroku „winny” lub „niewinny”. Chociaż Sąd Najwyższy Stanów Zjednoczonych nie rozstrzyga kwestii faktycznych, procedura rozstrzygania spraw polega na tym, że sędziowie najpierw głosują nad wyrokiem, a następnie wyznaczony sędzia przedstawia powody uzasadniające ten wyrok. Wiele decyzji administracyjnych (np. w przedmiocie uznania odliczenia podatkowego za dozwolone, w przedmiocie naruszenia zasad BHP) jest podejmowanych bez podania, z urzędu, uzasadnienia w pierwszej instancji; przyczyny rozstrzygnięcia są przedstawiane dopiero ex post, jeśli decyzja zostanie zakwestionowana. Fakt, że tak wiele ludzkich systemów dokonywania oceny przyjmuje takie podejście, nie jest oczywiście błędem, który powinniśmy naprawić za pomocą automatyzacji.

Nasze ustalenia wyraźnie podkreślają wagę tego, „kto” powinien dokonywać oceny. Jeśli opisowe etykiety nie przekładają się logicznie na normatywne osądy, powinniśmy oczekiwać, że także ludzkie osądy będą się różnić w zależności od tego jaka grupa będzie badana, w jakiej kulturze, miejscu (czynnik geograficzny) i czasie. Tematem rozważań powinien być udział reprezentatywnej grupy w ramach publicznego nadzoru nad systemami ML. Ograniczeniem konfiguracji naszego badania jest to, że wszyscy jego uczestnicy zostali zrekrutowani za pośrednictwem platformy Amazon MT. Ze względu na charakter zadań często spotykanych na platformie, uczestnicy ci mogą wykazywać stosunkowo mniejszą zmienność przy dokonywaniu ocen, w określonych kontekstach etykietowania, w porównaniu z innymi grupami oceniających. Weryfikacja możliwości uogólnienia wyników niniejszego badania w różnych populacjach ekspertów i osób niebędących ekspertami może być zatem ważnym kierunkiem przyszłych prac. Ważnym kierunkiem przyszłych prac są również kontrolowane eksperymenty oceniające wpływ stopnia subiektywności, nieodłącznie związanego z odnotowywaniem istnienia cech faktycznych w każdym przypadku.

Wnioski dla odpowiedzialnego rozwoju sztucznej inteligencji

Z otrzymanych przez nas wyników płyną ważne praktyczne wnioski dla odpowiedzialnego rozwoju sztucznej inteligencji (AI). Stanowią one uzupełnienie badań nad uczciwością w systemach sztucznej inteligencji i uprzedzeniami społecznymi nieodłącznie związanymi z etykietowaniem danych⁶³ ⁶⁴.

Proponujemy, aby producenci zbiorów danych i modeli, którzy tworzą lub pozyskują zbiory danych do trenowania systemów ML, ujawniali podpowiedzi dotyczące etykietowania, używane przy gromadzeniu danych (np. stosowane ramy/kryteria opisowe lub normatywne) i wyraźnie określali, do jakich potencjalnych normatywnych przypadków, najlepiej pasują ich modele. Na przykład model wytrenowany na zbiorze danych obrazów, zebranych z opisami ich treści lub jakości, mógłby zawierać stwierdzenie, że model ten nie jest dobrze dostosowany do zastosowań normatywnych, które opierają się na wyuczonych opisach. Może to służyć jako ostrzeżenie, że prawdopodobnie wystąpią luki (rozbieżności – przyp. tłumacz), w wydajności między opisowymi i normatywnymi przypadkami testowymi. Docelowo, producenci zbiorów danych i modeli powinni dążyć do trenowania ich na etykietach normatywnych uzyskanych w starannie dobranych, idealnych warunkach dedykowanych dla zadań normatywnych. Jako minimum należy wymagać ujawnienia, czy model został wytrenowany na etykietach opisowych, ujawnić charakter zestawu testowego i ostrzec, że model wytrenowany na etykietach opisowych może osiągać gorsze wyniki w zadaniach normatywnych. Producenci zbiorów danych i modeli powinni korzystać z narzędzi takich jak Datasheets for Datasets⁶⁵ i Modelcards for Model Reporting⁶⁶ w celu zwiększenia przejrzystości.

Jeśli chodzi o użytkowników modeli, wzywamy ich do upewnienia się, że modele wdrożone do wykonywania zadań normatywnych są albo przeszkolone w oparciu o starannie opracowane etykiety normatywne, albo odpowiednio dostosowane w celu wyeliminowania luk w wydajności. Jeśli dane treningowe dla modelu nie są w pełni ujawnione, użytkownicy powinni zażądać szczegółowych informacji o wskazówkach i kontekście jaki był udzielany przy etykietowaniu danych treningowych modelu. Co jest niezwykle istotne, nasza praca sugeruje, że dalsi użytkownicy mogą potrzebować szczegółowych informacji na temat ram zastosowanych przy gromadzeniu danych. Najprostszą interwencją, jaką mogą podjąć użytkownicy, jest użycie normatywnego zestawu testowego, który jest specyficzny dla kontekstu wdrożenia. Potencjalnym środkiem zaradczym może być dopracowanie modeli na etykietach normatywnych jako wewnętrznej modyfikacji, która zostanie wdrożona przed jakimkolwiek szerszym zastosowaniem danego modelu. Ponadto należy zbadać wzajemne oddziaływanie między postrzeganą legitymizacją użytkowników końcowych dotkniętych zautomatyzowanymi osądami, a zastosowanymi wskazówkami przy etykietowaniu danych.

Wreszcie, z perspektywy regulacji prawnych i audytu, oczywiste jest, że znacznie więcej uwagi należy poświęcić temu, w jaki sposób są wybierane i oznaczane dane, na których trenowane są zautomatyzowane systemy decyzyjne. Chociaż przyłączamy się do apeli o zapewnienie, by zbiory danych były bezstronne, nasza praca pokazuje, że usuwanie błędów (ang. debiasing) z danych będzie niewystarczające, aby mieć pewność, że wyniki zautomatyzowanych systemów stanowią rezultat wiernej implementacji zasad i norm rządzących naszymi społeczeństwami. Jak zauważyliśmy powyżej, uzyskanie etykiet oceny, które odzwierciedlają idealny ludzki osąd, może wymagać kosztownej selekcji danych dobranych specjalnie dla docelowego zadania, opartej na uważnej socjologicznej analizie szczegółów tego, w jaki sposób oceny są wydawane. Regulacja prawna może być konieczna, aby przezwyciężyć silną tendencję, obecną w dzisiejszych ekosystemach ML, do polegania na tanio dostępnych wstępnie oznakowanych (z nadanymi wstępnymi etykietami) zbiorach danych.

Jednym z zamierzeń zastosowania zautomatyzowanych systemów decyzyjnych może być poprawa błędów w ludzkich osądach. Wyniki naszego badania podkreślają złożoność i potencjalne pułapki stojące na drodze do realizacji tej wizji. Sugerują one, że należy poświęcić więcej uwagi procesowi oceny normatywnej, który ma zostać wsparty lub zautomatyzowany. Deweloperzy powinni jasno określać cele automatyzacji, opierać swoje metody na istniejących ludzkich osądach i ujawniać szczegóły wdrażanego procesu oceny normatywnej. Nasze wyniki podważają koncepcję tzw. „nadludzkiej” wydajności modeli AI przy zastosowaniu ich do dokonywania ocen normatywnych. Zamiast tego próby redukcji błędnych osądów powinny koncentrować się na gromadzeniu danych z procesu dokonywania osądu, które mają na celu bezpośrednią redukcję występowania niepożądanych uprzedzeń.

Na koniec podkreślamy, że chociaż celowo do naszego badania wybraliśmy zbiory danych, w których podejmowanie decyzji jest realistyczne, nie zalecamy ich stosowania w praktyce. Korzystanie z narzędzi sztucznej inteligencji do wykrywania naruszeń reguł jest złożonym zagadnieniem, a zautomatyzowane podejmowanie decyzji może być nieodpowiednie w niektórych sytuacjach. Wykazaliśmy, że takie wykrywanie naruszeń może nie odzwierciedlać ludzkich osądów dotyczących przestrzegania norm, a wcześniejsze badania wykazały, że wdrożone systemy sztucznej inteligencji są podatne na błędy i uprzedzenia⁶⁷. Co więcej, ludzcy operatorzy mogą podążać za stronniczymi poradami⁶⁸ z takich modeli. Wiele trudnych ludzkich problemów może nie znajdować technicznych rozwiązań. Podkreślamy, że wdrażanie modeli w systemach ludzkich musi dokładnie uwzględniać pełny kontekst społeczny.

Materiały i metody

Uczestnicy i rekrutacja

Zrekrutowaliśmy uczestników za pomocą Amazon MT (https://requester.mturk.com) z następującymi kryteriami akceptacji: (i) uczestnicy mieszkają w Stanach Zjednoczonych lub Kanadzie oraz (ii) każdy uczestnik ma ocenę akceptacji powyżej 98%. Projekt został zatwierdzony przez Institutional Research Ethics Board Uniwersytetu w Toronto (protokół nr 00037283).

Stworzyliśmy zadania, w których uczestnicy podawali etykiety dla czterech różnych zbiorów danych, z których każdy zawierał 2000 obiektów i trzy kryteria oceny. Rekrutacja dla każdego z czterech zestawów danych została przeprowadzona niezależnie przy użyciu kontrolowanego eksperymentu online. Biorąc pod uwagę dużą liczbę obiektów do etykietowania (2000 punktów danych do etykietowania na kryterium w każdym zestawie danych), stworzyliśmy zadania etykietowania strumieniowego, w których wysyłaliśmy nowe obiekty zbioru danych do uczestników w czasie rzeczywistym, uruchamiając zadania etykietowania w czasie. Każde takie zadanie jest mikrozadaniem lub zadaniem inteligencji ludzkiej (human intelligence task – HIT; https://www.mturk.com/help), składającym się z instrukcji i obiektów do etykietowania. Każdy obiekt zbioru danych – osadzony w HIT-ach – został oznaczony przez 20 różnych uczestników w każdym kryterium i zbiorze danych.

Uczestnicy stale otrzymywali nowe obiekty danych do etykietowania, o ile HIT etykietowania był aktywny, a oni mieli niezbędne kwalifikacje do wykonania zadania. Należy zauważyć, że kolejność takich HIT-ów widocznych dla uczestników jest domyślnie losowa (zaimplementowana przez Amazon MT). W rezultacie wielkość puli uczestników zwiększała się z czasem dla każdego warunku w każdym zestawie danych. Dodatkowe badania przesiewowe przeprowadzono przy użyciu danych wejściowych dostarczonych do kontroli uwagi wbudowanych w każdy HIT. Jeśli dane zadanie zostało odrzucone (np. z powodu niezaliczenia sprawdzenia uwagi), zadanie ponownie wchodziło do strumienia obiektów do etykietowania i było wybierane do etykietowania przez innego uczestnika. Zadania były wydawane partiami, zgodnie z wytycznymi dotyczącymi najlepszych praktyk w zakresie etykietowania danych w MT, aby narzucić górny limit liczby HIT-ów, które kwalifikujący się uczestnik może wykonać w danym czasie (tj. liczbę unikalnych HIT-ów w partii). Zaobserwowaliśmy, że całkowita liczba HIT-ów ukończonych przez uczestnika (tj. w poszczególnych partiach) różniła się w zależności od zadania.

Cztery główne badania gromadzenia zbiorów danych zostały zakończone między majem 2020 r. a lipcem 2022 r. Niektóre części zbiorów danych „Zwierzę domowe” i „Komentarz” nakładały się na siebie, podczas gdy inne zbiory danych były gromadzone sekwencyjnie, aby zminimalizować nakładanie się zbiorów danych. Łącznie zrekrutowaliśmy 3373 uczestników do wszystkich czterech zestawów danych. Szczegóły dotyczące populacji uczestników znajdują się w tabeli nr 1⁶⁹.

Oszacowaliśmy czas potrzebny na ukończenie i zrozumiałość instrukcji dla każdego HIT za pomocą badań pilotażowych (szczegóły w sekcji S5.5). Wynagrodzenie za każdy HIT wynosiło co najmniej 12 USD za godzinę. Ogólnie rzecz biorąc, zaobserwowaliśmy, że ukończenie normatywnego zadania etykietowania trwało dłużej, a zatem zapłaciliśmy nieco więcej, aby to odzwierciedlić. W sumie, za cztery zestawy danych, zapłaciliśmy 5140,24 USD za etykietę „Odzież”, 5944,24 USD za etykietę „Posiłek”, 7123,98 USD za etykietę „Zwierzę domowe” i 5616,1 USD za etykietę „Komentarz”, bez podatku.

Szczegóły kolekcji etykiet adnotacji

Na rys. S1⁷⁰ pokazujemy przykładowy interfejs z naszego potoku gromadzenia danych MT. Zawiera on trzy kluczowe elementy:

1) Podpowiedź wprowadzająca: W warunku opisowym napisaliśmy: „Chcielibyśmy, abyś zidentyfikował niektóre cechy…”, a w warunku normatywnym wprowadziliśmy i opisaliśmy odpowiedni kodeks lub politykę i poprosiliśmy osobę nadającą etykiety o dokonanie oceny naruszenia/braku naruszenia.

2) Obiekt(y): Wyświetlaliśmy dany obiekt jeden po drugim, niezależnie od tego, czy był to obraz, czy fragment tekstu.

3) Odpowiedzi pod każdym obiektem: W warunku normatywnym najpierw poprosiliśmy osobę nadającą etykiety o dokonanie oceny „tak/nie” co do tego, czy norma kodeksu/polityki została naruszona, a następnie poprosiliśmy o podanie przy każdej z trzech przyczyn (tj. cech faktycznych), uzasadnienia decyzji za pomocą wyborów „tak/nie”. W warunku opisowym poprosiliśmy tylko o odpowiedzi „tak/nie” dla każdej z trzech cech faktycznych, na temat tego, czy dane cechy są obecne w ocenianym obiekcie.

Warunek opisowy z kontekstem jest identyczny z warunkiem opisowym, z nieznacznie zmodyfikowanymi wskazówkami wprowadzającymi. Zrzuty ekranu podpowiedzi dla wszystkich warunków dla wszystkich zestawów danych można znaleźć w materiałach uzupełniających.

Źródło danych i selekcja przykładów

Aby utworzyć cztery zbiory danych, wybraliśmy przykłady z następujących źródeł:

„Odzież” – 2000 obrazów pobranych z „ClothingAttributes”⁷¹ i zbioru danych „DeepFashion”⁷² (wszystkie twarze na obrazach zostały zamazane w celu ochrony prywatności).
„Posiłek” – 2000 obrazów pobranych głównie ze zbiorów danych „Food-101”⁷³, „Food-11”⁷⁴ i „FFoCat”⁷⁵. Niektóre obrazy płatków śniadaniowych zostały dodatkowo wybrane z „Pixaby” (https://pixabay.com/) dla kategorii „wysoka zawartość cukru” przy użyciu wyszukiwanych haseł, takich jak „śniadanie” (ze względu na niewielką liczbę obrazów tego typu w obu zbiorach danych). Wybraliśmy również kilka obrazów z otwartych zbiorów danych „Kaggle” (https://kaggle.com/datasets).
„Zwierzę domowe” – 2000 obrazów wybranych ze zbiorów danych „Stanford Dogs”⁷⁶ ⁷⁷ i „Dogs vs Cats Kaggle Asirra”⁷⁸.
„Komentarz” – 2000 komentarzy pobranych z zestawu szkoleniowego „CivilComments”⁷⁹. Wybraliśmy 2000 unikalnych próbek, sprawdzając dużą losową próbkę z każdego z wyżej wymienionych zbiorów danych i wybierając obiekty, w których mogła być obecna co najmniej jedna cecha faktyczna (patrz rys. 2A), o którą osoba etykietująca miała być pytana. Wybór i selekcja próbek danych zostały przeprowadzone partiami, równolegle z badaniami etykietowania danych w MT dla wszystkich czterech zbiorów danych. Próbki danych zostały wybrane w celu zmierzenia różnic między opisowymi i normatywnymi procedurami etykietowania, wszystkie przy założeniu, że trzy faktyczne cechy, będące przedmiotem pytania, można racjonalnie wywnioskować. W rezultacie nasze zbiory danych nie są prawdziwie losowymi, czy też w pełni reprezentatywnymi podzbiorami dużych zbiorów danych, z których zostały wybrane (zobacz tekst uzupełniający, aby zapoznać się ze szczegółami wyboru próbek dla poszczególnych zbiorów danych).

Konstrukcja kodu postępowania (zbioru reguł) specyficznego dla danego zbioru danych

Stworzyliśmy hipotetyczne kodeksy postępowania (zbiory reguł) lub polityki mające służyć ocenie obiektów w poszczególnych zbiorach danych. Każdy z tych kodeksów miał podobną strukturę, zawierającą trzy faktyczne cechy podlegające ocenie. Obiekt narusza reguły kodeksu, jeśli zawiera którąkolwiek z tych cech faktycznych. Kodeksy te zostały opisane poniżej:

„Zasady ubioru („Odzież”, dress code): Wykorzystaliśmy zdjęcia osób noszących różne stroje i stworzyliśmy zasady ubioru, w którym ktoś narusza kodeks ubioru, jeśli uważa się, że nosi ubrania, które (i) odsłaniają znaczną część skóry; (ii) zawierają tekst, grafikę lub jakiekolwiek obrazy; oraz (iii) zawierają krótkie spodenki lub krótką spódniczkę.
Ograniczenia dotyczące posiłków szkolnych („Posiłek”): Wykorzystaliśmy obrazy różnych produktów spożywczych lub posiłków i stworzyliśmy zasady dotyczące posiłków szkolnych, zgodnie z którymi posiłek jest uznawany za nienadający się do podania w szkole, jeśli zostanie uznany za (i) mający wysoką zawartość cukru, (ii) zawierający znaczną ilość smażonych potraw oraz (iii) zawierający mniej niż pełną porcję owoców i warzyw.
Zasady trzymania zwierząt domowych w budynkach mieszkalnych („Zwierzę domowe”): Wykorzystaliśmy wizerunki psów i stworzyliśmy kodeks zwierząt domowych dla budynku mieszkalnego, w którym pies jest uważany za nieodpowiedniego do zamieszkania w nim, jeśli (i) jest dużych rozmiarów, (ii) nie jest zadbany i (iii) wydaje się agresywny.
Wytyczne dotyczące komentarzy na forum dyskusyjnym („Komentarz”): Wykorzystaliśmy komentarze z forów internetowych i stworzyliśmy wytyczne forum dyskusyjnego, w których komentarz nie może pozostać na forum, jeśli zostanie uznany za (i) zawierający negatywne komentarze na temat rasy, orientacji seksualnej, płci, religii lub innych wrażliwych cech osobistych; (ii) zagrażający osobie, grupie lub organizacji; oraz (iii) używający sprośnego języka.

We wszystkich przypadkach cechy faktyczne zostały wybrane na podstawie wyników badania rzeczywistych zasad ubioru, zasad dotyczących posiłków szkolnych, zasad dotyczących trzymania zwierząt domowych w budynkach mieszkalnych i wytycznych dotyczących forów dyskusyjnych online.

Konstrukcja badania

Nasza konstrukcja badania jest międzyprzedmiotowa z przypisaniem do jednego z trzech kryteriów ocen (opisowe, opisowe z komentarzem i normatywne) dla każdego zbioru danych. W związku z tym, gdy uczestnicy ukończyli zadanie etykietowania dla danego kryterium i zbioru danych (np. etykietowanie normatywnego kodu ubioru), przydzielano im taki status za pośrednictwem MT, aby zablokować im możliwość ukończenia HIT-ów dla innych kryteriów ocen dla tego samego zbioru danych. W szczególności przeprowadzono to poprzez sekwencyjne pobieranie próbek uczestników z populacji MT i udostępnianie partii zadań dla każdego kryterium jedna po drugiej oraz przez przypisanie odpowiedniego statusu. Poprzez ten sposób rekrutacji, wspólnego dla większości zadań etykietowania ML na platformach crowdsourcingowych, liczba uczestników zrekrutowanych dla każdego warunku dla każdego zadania została określona jak w tabeli nr 1.

Na przykład, w przypadku zbioru danych „Posiłek”, udostępniliśmy większość HIT-ów w partiach po 200 obrazów dla trzech warunków w ciągu 1 do 2 dni od siebie. Czas nie ma znaczenia, ponieważ zmienne będące przedmiotem zainteresowania (cechy faktyczne i ocena) nie zależą od momentu etykietowania. Zwracamy uwagę, że gromadzenie danych dla kontekstu w zestawie danych „Odzież” nie zostało przeprowadzone w ten sposób.

Osoba przesyłająca pytania/zadania była pozbawiona szczegółowych danych pracowników MT (anonimowe dane identyfikacyjne i brak selekcji opartej na danych demograficznych); w związku z tym nie istniało ryzyko stronniczości selekcji. Zebraliśmy również informacje demograficzne związane z wiekiem (od 18 do 29 lat, od 30 do 49 lat, powyżej 50 lat) i zgłaszaną przez siebie płcią społeczną (mężczyzna, kobieta, inne określenie) uczestników (statystyki opisowe dotyczące zgłaszanej przez siebie płci znajdują się w tabeli 1). Są one jednak dostępne tylko dla podzbioru uczestników, ponieważ dane demograficzne zostały zebrane w ramach ankiety uzupełniającej skierowanej do osób dokonujących etykietowania albo ankiety wstępnej przed HIT-ami (również za pośrednictwem MT). W tekście uzupełniającym pokazujemy, że różnica między etykietami opisowymi a normatywnymi nie wynika z różnic demograficznych, a przypisanie do grupy – opisowej lub normatywnej – znacząco wpływa na etykiety, nawet przy kontrolowaniu różnic demograficznych.

Upewniliśmy się poprzez kontrole odporności opisane w tekście uzupełniającym, że jakiekolwiek nakładanie się warunków między zbiorami danych, które wystąpiło, nie spowodują różnic w głównych wynikach. Zastosowaliśmy również dobre praktyki w zakresie wysokiej jakości danych (np. https://cloudresearch.com/resources/blog/best-practices-online-research-mturk/) (zob. tekst uzupełniający), przeglądając dane za pomocą interfejsu recenzji Amazon MT.

Trening modeli uczenia maszynowego

Wytrenowaliśmy wielozadaniowe modele predykcyjne, w których zarówno naruszenia kodeksu/polityki, jak i wartości poszczególnych atrybutów (cech faktycznych) są przewidywane łącznie. W związku z tym dane treningowe składały się z krotek⁸⁰ o postaci (xi,yi), gdzie yii = [yi0, yi1, yi2, yi3], yi0 odnosi się do etykiety naruszenia kodeksu/polityki, a yij odnosi się do j-tej cechy faktycznej dla i-tego punktu próbki. Nie agregowaliśmy etykiet dla każdego obiektu (obrazu/tekstu) w zestawie szkoleniowym i walidacyjnym, aby zwiększyć rozmiar punktów danych szkoleniowych i uniknąć konieczności wstępnego wyboru progów przed szkoleniem modeli.

Trening modelu ML

Wytrenowaliśmy wielozadaniowe modele predykcyjne, w których zarówno naruszenia kodeksu/polityki, jak i wartości poszczególnych atrybutów (cech faktycznych) są przewidywane łącznie. W związku z tym dane treningowe składały się z krotek o postaci (xi,yi), gdzie yii = [yi0, yi1, yi2, yi3], yi0 odnosi się do etykiety naruszenia kodeksu/polityki, a yij odnosi się do j-tej cechy faktycznej dla i-tego punktu próbki. Nie agregowaliśmy etykiet dla każdego obiektu obrazu/tekstu w zestawie szkoleniowym i walidacyjnym, aby zwiększyć rozmiar punktów danych szkoleniowych i uniknąć konieczności wstępnego wyboru progów przed szkoleniem modeli.

W związku z powyższym, rozmiar zbioru danych dla każdego zadania wynosi 40.000 (2000 obiektów z 20 etykietami na obiekt). Każdy pojedynczy zbiór danych został losowo podzielony wg następujących zasad: ≈60% jego zawartości stanowiło podzbiór treningowy, 10% walidacyjny a 30% testowy, przy czym upewniliśmy się, że proporcja obiektów wysoko – kontrowersyjnych (które są prawdopodobnie trudniejsze do poprawnej klasyfikacji) w każdym podziale (w każdym podzbiorze z powyższych) jest w przybliżeniu taka sama jak w przypadku pełnego zbioru danych. Wszystkie modele były trenowane ze stratą entropii krzyżowej w celu wspólnego przewidywania etykiety naruszenia kodeksu/polityki i odpowiadających im cech faktycznych. Zoptymalizowana funkcja straty jest zatem sumą strat entropii krzyżowej dla czterech wyników predykcji w odniesieniu do trenowanych celów, z których każdy jest jednakowo ważony (tj. waga straty wynosi 0,25 lub 1 dla każdego terminu). W poniższych podrozdziałach opisujemy szczegóły implementacji modelu ML dla ustawień obrazu i tekstu. ⁸¹ ⁸² ⁸³ ⁸⁴ ⁸⁵

Jarosław Matuszczak

sędzia Sądu Rejonowego w Malborku delegowany do pełnienia obowiązków głównego specjalisty w Wydziale Rozwoju Usług Sądowych Departamentu Informatyzacji i Rejestrów Sądowych Ministerstwa Sprawiedliwości