Aparna Balagopalan, David Madras, David H. Yang, Dylan Hadfield-Menell, Gillian K. Hadfield i Marzyeh Ghassemi

Link do oryginalnego artykułu: (DOI: 10.1126/sciadv.abq070)

„Ocena faktów, ocena norm: Trenowanie modeli uczenia maszynowego na potrzeby osądzania ludzi wymaga zmodyfikowanego podejścia do oznaczania danych1.

Przetłumaczył z języka angielskiego: Jarosław Matuszczak – sędzia Sądu Rejonowego w Malborku delegowany do pełnienia obowiązków głównego specjalisty w Wydziale Rozwoju Usług Sądowych Departamentu Informatyzacji i Rejestrów Sądowych Ministerstwa Sprawiedliwości

Spis treści

Od tłumacza

Poniższy artykuł, opublikowany oryginalnie w  SCIENCE ADVANCES VOL. 9, NO. 19, w dniu 10 maja 2023 r. (DOI: 10.1126/sciadv.abq070), jest szczególnie istotnym sygnałem, wskazującym na nowy, dotąd słabo rozpoznany problem znaczenia etykietowania danych, związany z trenowaniem systemów sztucznej inteligencji opartych na uczeniu maszynowym (ML) nadzorowanym (tj. wykorzystującym dane wcześniej opatrzone przez ludzi etykietami klasyfikującymi), które mają zostać wykorzystane do oceny, czy doszło do naruszenia normy. Zgodnie z wynikami badania, które jest jego podstawą, do już istniejących problemów związanych ze stosowaniem ML, dołączył nowy, dotyczący polegający na tym, że nieodpowiednie wytyczne dla osób etykietujących dane, działających w dobrej wierze, mogą skutkować ni tym, że oceny naruszenia norm dokonane przez system AI będą istotnie odbiegały od ocen dokonanych przez ludzi. Źródłem rozbieżności jest fakt oczywisty, jeśli zostanie zauważony: system AI (ML), wytwarza odmienny wzorzec oceny, jeśli  bazuje na niewłaściwie (z punktu widzenia zastosowania systemu) zaetykietowanych (oznaczonych) danych. W konsekwencji jego decyzje (oceny zachowania) będą różniły się od ocen dokonywanych przez ludzi mających zastosować te same normy w identycznych sytuacjach. W istocie, nie będzie to jednak błąd maszyny jako takiej, lecz błąd stanowiący następstwo wadliwego ludzkiego założenia. W artykule tym, co stanowi o jego wyjątkowym znaczeniu z punktu widzenia procesu stosowania prawa, autorzy zidentyfikowali jako wadliwe założenie, polegające na przyjęciu za prawidłowy „rozbicia” procesu stosowania normy postępowania na dwa oddzielone od siebie etapy, tj.

  1. ustalenia wystąpienia określenia faktu/cechy faktycznej (bez podania celu jakiemu ma służyć to ustalenie, tj. oceny naruszenia normy), a następnie
  2. przyłożenia do jego wyniku (ustalonego faktu) normy postępowania, w celu stwierdzenia, czy doszło do jej naruszenia.

Założenie to zawiera w sobie inne, ukryte założenie wstępne, mianowicie iż takie postępowanie da takie same albo i lepsze rezultaty, jak stosowanie normy w jednym kroku, tj. od razu dokonania oceny, czy w danej sytuacji doszło do naruszenia normy postępowania. Tymczasem w toku badania okazało się, że przy uczeniu nadzorowanym modelu ML opartym o etykiety powstałe w pierwszym etapie (wyłącznie opis), skutkowało tym, że model ów znacznie częściej stwierdzał naruszenie normy, w porównaniu z modelem opartym na danych etykietowanych w warunkach ustalania faktu z zamiarem oceny, czy naruszono normę.

Autorzy wyraźnie zastrzegli, że ani badaniem ani artykułem nie aspirują do postawienia wniosków odnośnie ludzkich procesów kognitywnych, w tym do procesu oceny naruszenia norm prawa. Niemniej jednak wyniki badania stanowią istotny dowód pośredni na to, że fragmentacja procesu stosowania norm, także prawych, może skutkować częstszym stwierdzaniem wypełnienia hipotezy danej normy postępowania. W klasycznym modelu budowy normy prawnej, jej hipoteza określa warunki, często faktyczne, które muszą zajść, by można było zastosować jej dalszą część (dyspozycję, czasem także sankcję). W równie klasycznym modelu stosowania norm przez organy państwowe, w tym przez sądy, po to by stwierdzić, jaką normę zastosować należy najpierw ustalić stan faktyczny istotny z punktu widzenia przedmiotu sprawy. Innymi słowy, najpierw ustala się, czy zaistniały określone fakty (jak w ww. pkt 1), a następnie do tak ustalonego stanu faktycznego dokonuje się „podstawienia” odpowiedniej normy prawnej  (zrekonstruowanej z przepisów) w procesie subsumpcji.  Różnica, jaka istnieje w porównaniu z sytuacją analizowaną w artykule, polega na tym, że ludzie stosujący prawo wiedzą, jaki jest cel dokonywanych ustaleń fatycznych, tj. mniej lub bardziej świadomie od razu analizują ów stan faktyczny pod kątem zastosowania pewnej kategorii norm prawa (np. popełnienia określonych czynów zabronionych, wstąpienia podstaw odpowiedzialności odszkodowawczej, powstania uprawnień z tytułu ubezpieczenia społecznego itd.). Tymczasem jak wynika z badania i opartego na nim artykułu, zastosowanie tej samej metody przy trenowaniu systemów ML prowadzi do ich nadmiernej surowości w ocenianiu. Inaczej mówiąc, system uczony na danych, ocenianych przez osoby nie mające świadomości tego, że dane te posłużą do oceny naruszenia norm, i które stwierdzały binarnie (0 – 1) wystąpienie określonych faktów,  miał wyraźną tendencję do częstszego stwierdzania wypełnienia hipotezy normy prawnej. Porównanie następowało względem identycznych systemów ML wytrenowanych na danych, które były etykietowane przez osoby mające świadomość, że czynią to pod kątem stwierdzenia naruszenia określonej normy.   Podstawowym praktycznym wnioskiem płynącym, w mojej ocenie, z tego artykułu, jest to, że przy budowaniu i trenowaniu w sposób nadzorowany systemów ML, mających w pewnych sprawach zastąpić człowieka przy rozstrzyganiu spraw (ergo: stosowaniu norm), konieczne jest oparcie etykietowania danych o kryterium normatywne, a nie występowania danej cechy faktycznej. Jeżeli chcemy by system AI naśladował faktyczne ludzkie osądzanie zachowań, koniecznym jest, by tworząc zbiory danych, które mają następnie zostać zastosowane do trenowania, walidacji i testowania sądowych systemów AI,  zadbać o to, by poszczególne obiekty były etykietowane przez osoby mające świadomość tego, że analizują je od razu pod kątem wypełnienia hipotezy normy postępowania. Nakłada to na organizatorów procesu wdrożenia obowiązek starannego przygotowania pytań, będących podstawą nadawania etykiet oraz jasnego wyartykułowania celu nadawania etykiet. Oddzielnej dyskusji wymagać też będzie to, kto ma uczestniczyć w procesie etykietowania danych mających posłużyć do trenowania sądowych systemów AI. Osobom mniej zainteresowanym samym technicznym sposobem przeprowadzenia badania a bardziej na zarysowanych powyżej konsekwencjach, sugeruję skupienie się na przedostatniej części artykułu, pt.: „DYSKUSJA”, od sekcji zatytułowanej „Etykietowanie danych dla zadań normatywnych wymaga starannej uwagi w nadzorowanych potokach uczenia maszynowego”.

Jeśli chodzi o samo tłumaczenie artykułu, to zostało ono sporządzone z zamiarem zapewnienia jak największej klarowności i zrozumiałości dość trudnego oryginalnego tekstu, co niestety odbyło się kosztem precyzji pojęć z zakresu statystyki i Data Science (nauki dotyczącej metod analizy danych). Wyjaśnienia i przypisy tłumacza odnośnie ich znaczenia i tłumaczenia mają dwojaką postać. W prostszych przypadkach znajdują się w nawiasach wprost w tekście. Natomiast w przypadkach wymagających szerszego omówienia albo konieczności przytoczenia oryginalnego fragmentu wobec wysokiego prawdopodobieństwa wystąpienia rozbieżności w tłumaczeniu danego zwrotu, przybrały formę przypisów końcowych, podobnie jak przypisy merytoryczne oryginalnego tekstu. Szczególnie istotne zdaniem tłumacza fragmenty zostały wytłuszczone z odpowiednim wyjaśnieniem w nawiasie.

Kończąc niniejszy wstęp chciałbym poczynić jeszcze jedną istotną uwagę. Tłumaczenie nie zawiera dwóch ostatnich podsekcji oryginalnego artykułu (o nazwach „image” i „text”) w  sekcji zatytułowanej „ML model training” (Trening modelu ML) jak również nie obejmuje załączników  i dodatkowego tekstu. Wynika to z faktu, że niniejsze tłumaczenie jest przeznaczone głównie dla osób nie dysponujących fachową wiedzą z zakresu Data Science i budowy modeli uczenia maszynowego. Tymczasem części te zawierały liczne odniesienia do technicznych pojęć stosowanych w tych dziedzinach, jak np. „multitask head [added] to the pretrained model”, które jest jednym z prostszych, tam użytych. Oczywiście można je przetłumaczyć wprost jako „wielozadaniowa głowa dodana do pre – trenowanego (albo: wstępnie wytrenowanego) modelu” jednakże bez szerszego wyjaśnienia, co oznaczają tutaj „głowa” (i to wielozadaniowa) oraz pre-trenowany model, inaczej „backbone model”, będzie to niezrozumiałe dla osób nie zajmujących się tą dziedziną nauki. Z kolei podczas umieszczania stosownych wyjaśnień w przypisach, okazało się, że zajmują one kilka razy więcej miejsca niż tłumaczony fragment, co prowadziło do tego, że więcej wysiłku czytelnik musiałby wkładać w ich analizę, niż na główny tekst. Z kolei dla osób zajmujących się wdrażaniem rozwiązań ML czy Data Science tłumaczenie to i wyjaśnienia nie dość, że będą bez znaczenia, to wręcz mogą przeszkadzać w odbiorze meritum, gdyż w tych dziedzinach operuje się, co do zasady, nomenklaturą anglojęzyczną. Tym czytelnikom sugeruję zapoznanie się z treścią całej sekcji  „ML model training” oryginalnego artykułu, jak również z załącznikami do niego, a najlepiej z całym artykułem w oryginale.

Streszczenie

W miarę jak rządy i przemysł zmierzają ku zwiększonemu wykorzystaniu zautomatyzowanych systemów decyzyjnych, istotnym staje się uwzględnienie tego, jak dokładnie takie systemy mogą odtworzyć ludzki osąd. Wskazujemy na główną potencjalną przyczynę porażki takiego działania, wobec stwierdzenia, że osoby opisujące dane2 różnie oznaczają obiekty w zależności od tego, czy zadawane jest im pytanie o sam fakt, czy o normę zachowania z nim związaną3. Podważa to odruchowe założenie, przyjęte w wielu standardowych procedurach pozyskiwania danych do uczenia maszynowego (ML), że nie ma różnicy między przewidywaniem klasyfikacji obiektu ze względu na wystąpienie określonej cechy faktycznej, a przewidywaniem oceny, czy obiekt narusza regułę opartą na wystąpieniu tej samej cechy faktycznej. Stwierdzamy, że używanie etykiet opisujących fakty do trenowania modeli przeznaczonych do dokonywania osądów normatywnych, wprowadza znaczący błąd pomiaru. Pokazujemy, że modele wytrenowane przy użyciu etykiet faktycznych dostarczają znacząco różnych, ocen niż wytrenowane przy użyciu etykiet normatywnych i, że wpływ tego efektu na wydajność modelu może przekraczać wpływ innych czynników (np. rozmiaru zbioru danych), które rutynowo przyciągają uwagę badaczy i praktyków ML.

Wstęp

Budowanie systemów do dokonywania lub wspierania osądów normatywnych jest ważnym celem i przykładem zastosowania uczenia maszynowego (ML). Takie systemy, jeśli są dobrze zaprojektowane, aby dokładnie wdrażać ludzkie zasady i normy, obiecują zmniejszenie zaległości i kosztów podejmowania decyzji4, poprawę sprawiedliwości (poprzez wyeliminowanie błędów w ocenie, takich jak nieumiejętność ignorowania nieistotnych faktów5) oraz zwiększenie dostępu do neutralnego orzekania6. Istniejące przypadki użycia obejmują zautomatyzowane podejmowanie decyzji w kontekście zatrudnienia7, oceny ryzyka kredytowego8, wymiaru sprawiedliwości w sprawach karnych9 i usług administracji państwowej10. Rządy na całym świecie zaczynają regulować wykorzystanie zautomatyzowanego podejmowania decyzji zarówno w sektorze publicznym, jak i prywatnym11 12              

Ludzkie systemy zasad i norm, w tym systemy prawne, składają się z opisów stanów faktycznych13, do których stosuje się następnie normę, tj. dokonuje się ich normatywnego osądu. Jeśli ktoś uważa, że reguła postępowania wyrażona w prawie została naruszona, to twierdzi, że wystąpiły faktyczne przesłanki do zastosowania reguły prawnej (wypełnienie hipotezy normy), co uzasadnia wydanie orzeczenia stwierdzającego naruszenie (należy zauważyć, że rozróżnienie między osądem faktycznym (stwierdzeniem wystąpienia faktu), a osądem prawnym jest złożone w rozumowaniu prawnym; dyskusja na ten temat znajduje się w: L. Morawski, „Law, fact and legal language.”14). W dobrze funkcjonującym systemie prawnym decyzje podejmowane na podstawie osądu normatywnego są oparte na uzasadnieniu15: odwołaniu się do powodów uzasadniających decyzję poprzez wykazanie, że jest ona zgodna z zasadami, które są podstawą jej wydania. Na przykład, jeśli post wyświetlany na platformie mediów społecznościowych zostanie uznany za naruszający kodeks postępowania platformy, system powinien być w stanie uzasadnić ten wniosek, poprzez wskazanie na wystąpienie istotnej okoliczności faktycznej, np. post zawierał odczłowieczającą wypowiedź na temat członków określonej grupy religijnej lub etnicznej (zob. np. standardy społeczności dotyczące mowy nienawiści na platformach mediów społecznościowych pod adresem https://transparency.fb.com/policies/community-standards/hate-speech/) oraz wskazanie normy kodeksowej zabraniającej takich komentarzy. Ustalenia faktyczne mogą być subiektywne i wiązać się z nieporozumieniami: np. nie ma „bazowej prawdy” na temat tego, co stanowi mowę odczłowieczającą16. Systemy prawne wykorzystują jednak zasady proceduralne, takie jak wymóg jednomyślności ławy przysięgłych, do rozstrzygania takich sporów, zarówno po to by dokonać ustaleń faktycznych jak i po to, by wydać wyroki na podstawie tychże ustaleń.

Pozornie rozsądnym podejściem do wyskalowania tych procedur jest trenowanie klasyfikatorów w celu wykrywania obecności faktycznych predykatów (faktycznych cech danego punktu danych) reguły normatywnej. Na przykład, aby wykryć naruszenia kodeksu postępowania platformy mediów społecznościowych na dużą skalę, można zbudować model klasyfikujący (wykrywający) obecność faktycznych cech zabronionych przez kodeks, takich jak odczłowieczające wypowiedzi na temat grupy religijnej lub etnicznej, a następnie zastosować logikę „jeśli – to”, aby przekształcić klasyfikację faktów w oceny normatywne: jeśli mowa została opisana jako odczłowieczająca, to stwierdzamy naruszenie normy zabraniającej takich wypowiedzi (i stosujemy sankcję – przyp. tłumacz).

Poniżej wykazujemy wadę tego pozornie rozsądnego podejścia: Nie jest ono w stanie wiernie odtworzyć ludzkiej oceny naruszeń norm. Przeprowadziliśmy eksperymenty z udziałem ludzi, pokazując, że stwierdzają oni abstrakcyjną obecność poszukiwanych cech faktycznych zupełnie inaczej, niż gdy oceniają naruszenia norm, nawet jeśli naruszenia norm zależą całkowicie od obecności rzeczonych cech faktycznych. Co więcej, istnieje znaczna rozbieżność pomiędzy uczestnikami zarówno w ocenach faktycznych, jak i normatywnych. Jednakże rozbieżność jaka występuje pomiędzy nimi w ocenach faktycznych, nie odpowiada dokładnie rozbieżności pomiędzy uczestnikami dokonującymi ocen normatywnych. Przedstawiamy poniżej wyniki w czterech różnych kategoriach, które były poddane ocenie – zdjęć ubrań, zdjęć posiłków, zdjęć zwierząt domowych oraz fragmentów tekstu z forum dyskusyjnego i pokazujemy, że ludzie są zasadniczo mniej skłonni do stwierdzenia, że dana reguła została naruszona, niż do stwierdzenia, że dane cechy faktyczne (na których opiera się ta sama reguła) są obecne.

Stworzyliśmy dwa zbiory danych z tymi samymi obiektami, ale opatrzonych dwoma różnymi rodzajowo zbiorami  etykiet: opisowym zbiorze etykiet, w którym poprosiliśmy osoby etykietujące o zidentyfikowanie wyłącznie faktycznych cech obrazu lub tekstu, a następnie zastosowaliśmy regułę, aby pośrednio (bez udziału uczestników – przyp. tłumacz) określić, czy wystąpiło naruszenie, oraz normatywnym zbiorem etykiet, w którym poprosiliśmy osoby etykietujące od razu o bezpośrednią ocenę, czy obraz lub tekst narusza regułę opartą na tych faktycznych cechach. Wyszkoliliśmy modele uczenia nadzorowanego ML (ResNet-5017 i ALBERT18) na obu zbiorach danych. Okazało się, że różnice pomiędzy wspomnianymi zbiorami danych znalazły odzwierciedlenie na obu wytrenowanych modelach. Model wytrenowany na zbiorze etykiet opisowych wykazywał znacznie gorsze wyniki przewidywania ludzkich decyzji w ocenie naruszeń (tj. słabiej przewidywał normatywną ocenę sytuacji dokonaną przez człowieka) w porównaniu z modelem wytrenowanym na zbiorze etykiet normatywnych. W szczególności stwierdziliśmy, że modele wyszkolone przy użyciu etykiet opisowych częściej stwierdzają naruszenie reguł niż ludzcy „sędziowie” we wszystkich czterech kategoriach danych.

Wreszcie, udowodniliśmy, że ta luka, w skuteczności przewidywania zachowań (osądów), między tymi dwoma modelami jest porównywalna lub większa niż luka w skuteczności istniejąca między różnymi architekturami modeli (ML) czy wynikająca z wyboru zbiorów danych, na których to różnicach najczęściej koncentrują się wysiłki mające na celu poprawę skuteczności modelu (np. zakłócenia w etykietach lub rozmiar zbioru danych).

Ta luka w zakresie skuteczności przewidywania osądów, między modelami opartymi na danych etykietowanych opisowo a modelami opartymi na danych etykietowanych normatywnie, jest kluczowym spostrzeżeniem, szczególnie dlatego, że dane dla systemów uczenia maszynowego są często gromadzone w otoczeniu opisowym (przy zastosowaniu etykiet opisowych – przyp. tłumacz)19 20 21 22. Nasze odkrycia pokazują, że modele uczenia maszynowego mające na celu wspomaganie lub automatyzację ludzkich23 osądów normatywnych będą regularnie popełniać istotne błędy, jeśli będą trenowane na etykietach opisowych. W naszych konkretnych przypadkach oznacza to, że modele rutynowo nadmiernie często stwierdzają naruszenia reguł (wytłuszczenie – tłumacz). Nasze badanie zidentyfikowało istotne zjawisko dotyczące sposobu, w jaki ludzie dokonują osądów i rozumowania normatywnego24, które nie jest uwzględnione w systemach uczenia maszynowego. Nasza analiza ma głębokie implikacje dla sposobu, w jaki budujemy, zbieramy dane i oceniamy systemy ML, które mają działać w warunkach stosowania norm zachowania. Obecne praktyki szkoleniowe w zakresie uczenia maszynowego nie zwracają uwagi na etykietowanie danych jako aspektu złożoności ludzkiego zachowania25 26. Wiele dużych, powszechnie używanych zbiorów danych gromadzi tylko kilka etykiet na element (patrz rys. 1), nie dostrzegając możliwych różnic w postrzeganiu przez różnych ludzi tych samych obiektów, nawet jeśli postrzeganie to opiera się na kryteriach faktycznych (stwierdzaniu wystąpienia w obiekcie danej cechy faktycznej – przyp. tłumacz). Nasze badanie podkreśla znaczenie przypisywania wielu etykiet do każdego pojedynczego obiektu, w celu oceny zróżnicowania etykietowania przez uczestniczące osoby etykietujące. Jeśli chodzi o szkolenie zautomatyzowanych systemów decyzyjnych do wydawania osądów normatywnych, to istnieje niewiele dobrowolnych przypadków ujawnienia konkretnych procedur stosowanych do zbierania etykiet, które to zjawisko uznajemy za kluczowe. Podczas gdy niektóre systemy zostały przeszkolone przy użyciu historycznych decyzji normatywnych (nie zebranych specjalnie w celu opracowania modelu) jako obiektów docelowych dla modeli szkoleniowych27 28, brak informacji o zasadach etykietowania utrudnia udowodnienie tego, co mocno podejrzewamy, że jest prawdą, tj. że standardową praktyką jest szkolenie systemów do zastosowań normatywnych na podstawie wyłącznie etykiet faktycznych i rutynowo na etykietach uzyskanych w innym celu, które można niedrogo uzyskać z publicznie dostępnych źródeł. Konkretne przykłady, które możemy zidentyfikować, obejmują wykorzystywanie etykiet faktycznych do konstruowania normatywnych osądów dotyczących naruszenia zasad ubioru na placu budowy29, zasad zakazujących toksycznych treści w internecie (np. Perspective API; https://perspectiveapi.com) oraz zasad oceny testów online30. Rozwijamy te obserwacje w części artykułu pt.: „Dyskusja”. 

Rys. 1. Duże zbiory danych ML są coraz ważniejsze, ale rzadko dostępne są liczne etykiety danych przypadające na element. Rysunek pokazuje rozmiar (liczbę obiektów w zbiorze)  w stosunku do liczby etykiet na element, na przykładzie wybranych popularnych zbiorów danych (przypisy nr 20, 21,  40, 81, 83 – 87). Zbiorom danych wskazanym jako punkty od 1 do 9 na rysunku odpowiadają kolejno zbiory danych wskazane w przypisach nr 84, 20, 84, 21, 85, 86, 87, 40, 81.

Nasze wyniki sugerują, że w tych przypadkach pominięto kluczową kwestię: osąd normatywny jest kompleksowym procesem, którego nie można łatwo podzielić na ustalanie faktów i stosowanie reguł. Podejścia do automatyzacji oparte na takim podziale mogą stwarzać fałszywą obietnicę obiektywności. Pełne uwzględnienie tego aspektu wymagałoby bardziej starannych i kosztownych wysiłków w celu wyselekcjonowania danych specjalnie dla potrzeb kontekstu normatywnego, w którym mają zostać zastosowane. Rośnie literatura na temat słabości ludzkich umiejętności w zakresie właściwego wykorzystywania prognoz ML31 32, nawet w warunkach eksperckich33. Podkreśla się w niej także istotne znaczenie jakie ma zwracanie szczególnej uwagi na złożoność interakcji człowiek – maszyna, jeśli chodzi o dokonywanie ocen, a nasze wyniki nadają nowy wymiar temu istotnemu problemowi.

Wyniki

Pozyskiwanie danych w zestawieniach normatywnych i opisowych

Pozyskaliśmy etykiety normatywne i opisowe w czterech stypizowanych kategoriach (zbiorach danych), aby sprawdzić różnice w sposobie, w jaki ludzie oceniają fakty a w jaki normy. Trzy pierwsze z tych kategorii dotyczyły oceny obrazów, a czwarta oceny krótkich próbek tekstu. Stworzyliśmy fikcyjne zasady (lub kody) rządzące tymi czterema kategoriami, które:

  • w kategorii „Odzież” odzwierciedlają one zasady dotyczące ubioru (ang. dress code) noszonego w biurze lub szkole,
  • w kategorii „Posiłek” odzwierciedlają zasady dotyczące składu/wyglądu posiłków podawanych w szkołach,
  • w kategorii „Zwierzę domowe” odzwierciedlają zasady dotyczące tego jakie psy są akceptowane w budynkach mieszkalnych,
  • w kategorii „Komentarz” odzwierciedlają wytyczne dotyczące komentarzy publikowanych na forach internetowych (ryc. 2A).
 

Rys. 2A i 2B. Porównanie etykiet oceny naruszenia reguł zebranych w oparciu o kryterium normatywne z etykietami skonstruowanymi przy użyciu etykiet opartych na występowaniu cech faktycznych ( zebranych w oparciu o kryterium opisowe).

Tłumaczenie treści komórek tabeli w rys. 2A (poczynając od lewej strony, przecinkami oddzielono nazwy kolejnych komórek):

  • Wiersz pierwszy (tytuły kolumn tabeli): Zbiór danych/kategoria (Dataset), Przykład (Example), Etykiety z kryterium opisowym (Descriptive), Etykiety z kryterium normatywnym (Normative),
  • Wiersz drugi: „Odzież”/ „zasady ubioru (dress code)”, zdjęcie przykładowe osoby w ocenianym ubraniu, fiszka z oceną cechy faktycznej [pola wyboru do zaznaczenia: Skóra (czy odsłonięta jest duża powierzchnia), Grafika (ubranie ma napis, grafikę czy obraz), Długość ubrań (czy przedstawia krótkie spodnie albo krótką spódniczkę], fiszka z oceną normatywną [Naruszenie? (Pola wyboru do zaznaczenia: Tak/Nie), Jeśli tak, to dlaczego? (Pola wyboru do zaznaczenia: Skóra, Grafika, Długość ubrań)],
  • Wiersz trzeci: „Posiłek”, zdjęcie przykładowe posiłku, fiszka z oceną cechy faktycznej [pola wyboru do zaznaczenia: Cukier (Zawiera dużo cukru), Smażone (zawiera smażoną żywność), Brak warzyw (zawiera mniej niż 1 porcję warzyw lub owoców)], fiszka z oceną normatywną [Naruszenie? (Pola wyboru do zaznaczenia: Tak/Nie), Jeśli tak, to dlaczego? (Pola wyboru do zaznaczenia: Cukier, Smażone, Brak warzyw],
  • Wiersz czwarty: „Zwierzę domowe”, zdjęcie przykładowe, fiszka z oceną cechy faktycznej [pola wyboru do zaznaczenia: Rozmiar (Jest dużego rozmiaru), Zaniedbany (nie jest należycie zadbany), Agresywny (wygląda agresywnie)], fiszka z oceną normatywną [Naruszenie? (Pola wyboru do zaznaczenia: Tak/Nie), Jeśli tak, to dlaczego? (Pola wyboru do zaznaczenia: Rozmiar, Zaniedbany, Agresywny],
  • Wiersz piąty: „Komentarz”/ „Wytyczne forum internetowego”, Przykładowy komentarz: „Jeśli zobaczysz kogoś, kto tak robi, użyj proszę na tym gnojku swojego areozolu na niedźwiedzie”, fiszka z oceną cechy faktycznej [pola wyboru do zaznaczenia: Negatywny (zawiera negatywny komentarz), Grożący (zawiera groźbę), Obsceniczny (zawiera sprośne słownictwo)], fiszka z oceną normatywną [Naruszenie? (Pola wyboru do zaznaczenia: Tak/Nie), Jeśli tak, to dlaczego? (Pola wyboru do zaznaczenia: Negatywny, Grożący, Obsceniczny].

(A) Zbieramy etykiety opisowe (tj. obejmujące oceny występowania cech faktycznych) i normatywne etykiety oceny naruszenia reguł dla czterech kategorii: „Ubiór” (zasady dotyczące ubioru), „Posiłek” (zasady dotyczące składu posiłków w szkole), „Zwierzę domowe” (zasady dotyczące zwierząt domowych w budynku) i „Komentarz” (zasady dotyczące komentarzy na internetowym forum dyskusyjnym). (B) Kontrastujące zachęty do gromadzenia danych, proszące osoby etykietujące o dokonywanie opisowych ocen (A), zamiast bezpośredniej normatywnej oceny naruszeń zasad (B). Należy zauważyć, że przykładowe obrazy i obiekty tekstowe pokazane na rysunku pochodzą z otwartych, publicznie dostępnych zbiorów danych.

Nasz celem było zachowanie realizmu, ale jednocześnie prostoty przy tworzeniu naszych kodów postępowania, dlatego użyliśmy tylko trzech cech faktycznych w każdym zbiorze reguł (kodzie). Ponadto, upewniliśmy się, że ocena wystąpienia cechy faktycznej nie zależy od oceny stanu cudzego umysłu, takich jak intencja osoby, ani nie wymagają dodatkowej specjalistycznej wiedzy. Na przykład, w przypadku zbioru „Posiłek”, dodaliśmy „wysoką zawartość cukru”, zamiast pytać o potencjalne alergeny, a z kolei wykluczyliśmy cechy takie jak „seksualnie prowokujące” z naszych zasad ubioru (dress code’u). Zrobiliśmy to, aby naśladować sytuacje, w których uczony model ML może, prawdopodobnie, osiągnąć sukces w klasyfikowaniu cech faktycznych. Należy jednak zauważyć, że do zbiorów reguł (kodów postępowania) włączyliśmy cechy faktyczne zawierające pewne elementy subiektywności, które mogą być różnie oznaczane i oceniane (na przykład, jakiego rozmiaru musi być pies, aby był określany jako „duży”?).

Dla każdego zbioru danych (kategorii), zaprezentowaliśmy uczestnikom rekrutowanym za pośrednictwem platformy Amazon Mechanical Turk (MT) obiekt (obraz lub próbkę tekstu) i poprosiliśmy ich o odpowiedź na pytania (Rys. 2B). Uczestnicy przy każdym zbiorze danych zostali przydzieleni do jednej z dwóch grup oceniających według następujących kryteriów:

  1. Kryteria opisowe: Uczestnikom przedstawiano trzy cechy faktyczne, które mogły wystąpić w obiektach danego zbioru danych i proszono ich o wskazanie (tak/nie), czy  występują w konkretnym obiekcie. Uczestnicy w tej grupie nie otrzymywali konkretnej zasady normatywnej, którą mieliby stosować przy ocenie, ani nie byli zachęcani do rozważania naruszeń jakichkolwiek zasad. Następnie udzielone przez nich odpowiedzi zostały użyte do konstrukcji normatywnych ocen dla obiektu przy użyciu logiki „jeśli-to”: Jeśli uczestnik wskazał, że któraś z trzech przedstawionych mu cech, które mogły wystąpić w danym zbiorze danych, faktycznie występowała, to wówczas obiekt był klasyfikowany jako naruszający tę zasadę w ocenie tego uczestnika.
  2. Kryteria normatywne (ocenne): Uczestnicy otrzymywali odpowiednią zasadę normatywną dla oceny danego zbioru danych i byli pytani, czy zasada została naruszona przez obiekt (tak/nie), tj. czy zostały spełnione kryteria do jej zastosowania. W tej grupie były zatem zbierane oceny normatywne. Następnie uczestnicy zostali poproszeni o wskazanie wszystkich powodów uzasadniających ich ocenę, wybierając, które z cech faktycznych zawartych w odpowiedniej zasadzie (jej hipotezie – przyp. tłumacz) występowały.

Każdy zbiór danych (danych w każdej kategorii) zawierał 2000 obiektów, przy czym każdy z tych obiektów został oznaczony przez 20 uczestników w obu grupach kryteriów (opisowej i normatywnej – przyp. tłumacz), co daje w sumie 40.000 punktów danych w każdej z grup kryteriów. Wszystkie obiekty w każdym przypadku pochodziły z istniejących zbiorów danych (szczegóły w dodatkowym tekście).

Terminem „etykiety opisowe” określamy etykiety ocen powstałe poprzez zastosowanie logiki „jeśli – to” do etykietowania cech zebranych przy użyciu kryteriów opisowych, natomiast terminem „etykiety normatywne” określamy etykiety ocen powstałe przez zastosowanie kryteriów normatywnych.

Etykiety opisowe i normatywne znacząco się różnią.

Najpierw przetestowaliśmy hipotezę zakładającą, że dane, niezależnie czy opatrzone etykietami opisowymi czy normatywnymi nie różnią się mimo uzyskiwania ich za pomocą dwóch różnych grup kryteriów  (w oryginale: są pobierane/losowane z tej samej dystrybucji – przyp. tłumacz). Rozpoczęliśmy jej weryfikację od skonstruowania pojedynczej etykiety oceny dla każdego obiektu, poprzez uśrednienie etykiet ocen uzyskanych od 20 osób etykietujących, w każdej z dwóch grup kryteriów (opisowych i normatywnych). W ten sposób, każdy obiekt został określony za pomocą jednej etykiety normatywnej i jednej etykiety opisowej: odsetka uczestników, których odpowiedzi wygenerowały ocenę „naruszenie” zgodnie z danym warunkiem. Następnie określono procent uczestników, których odpowiedzi stwierdzały „naruszenie” wg danych kryteriów: Etykieta „1” oznacza pełną zgodność etykietujących, że obiekt narusza kod postępowania w danej kategorii, a etykieta „0” oznacza ich pełną zgodność, że naruszenie nie występuje. W ten sposób uzyskaliśmy silne dowody (Rys. 3A), które pozwalają odrzucić hipotezę, że etykiety ocen generowane w myśl tych dwóch grup kryteriów można uznać za równoważne (że pochodzą/są losowane z tej samej dystrybucji) we wszystkich czterech kategoriach (P <0.0001, test H. Kruskala-Wallisa; wyniki dokładnego testu w dodatkowym tekście). Różnica jest znaczna: średnia bezwzględna różnica (czyli średnia bezwzględna różnica procentowa pomiędzy liczbą etykietujących, w poszczególnych grupach kryteriów, którzy zidentyfikowali naruszenie) wynosi około 10% w przypadku danych z kategorii „Odzież” i „Komentarz”, a 20% w przypadku danych z kategorii „Posiłek” i „Zwierzę domowe”.