Jak wielkie modele językowe stosują prawo podatkowe: studium przypadku wskazuje na pojawienie się zdolności do wykładni przepisów prawa przez wybrane modele sztucznej inteligencji

John J. Nay z Uniwersytetu Stanforda wraz ze współpracownikami przeprowadzili badanie, w którym wykorzystali rodzaj wyszukiwań relewantnych dla zapytania informacji ze zbioru dokumentów (tzw. RAG – ang. Retrival Augmented Generation, choć autorzy nie przywołują tej nazwy) przez wielki model językowy (LLM). Dokumentami, w których wyszukiwano odpowiedzi na pytania z dziedziny prawa podatkowego, były przepisy skarbowe Kodeksu Regulacji Federalnych Stanów Zjednoczonych (Code of Federal Regulations – CFR) i Tytułu 26 Kodeksu Stanów Zjednoczonych (26 U.S.C.A. § 1 et seq. [1986]). W ten sposób przetestowali pojawiające się możliwości LLM w zrozumieniu prawa podatkowego. Wyniki przedstawiono w artykule Large language models as tax attorneys: a case study in legal capabilities emergence (opublikowana wersja dostępna pod adresem https://doi.org/10.1098/rsta.2023.0159).

Charakterystyka przedmiotu badania

Autorzy wybrali prawo podatkowe do stosowania przez LLM z czterech powodów. Po pierwsze, w przeciwieństwie do wielu innych dziedzin prawa, w których treść norm jest „destylowana” z precedensów orzeczniczych, normy prawa podatkowego wykładane są zasadniczo z przepisów skoncentrowanych w dwóch, wspomnianych w poprzednim akapicie, źródłach. Pozwoliło to na wykorzystanie stałego zbioru potencjalnie istotnych dokumentów (ustaw) do przeszukiwania przez LLM. Po drugie, wiele przepisów podatkowych pozwala na udzielanie jednoznacznych odpowiedzi na zapytania. Umożliwiło to skonfigurowanie spójnych i zautomatyzowanych potoków walidacji odpowiedzi. Po trzecie, odpowiadanie na pytania dotyczące prawa podatkowego dla danego scenariusza, zazwyczaj wymaga umiejętności logicznego rozumowania, a nawet umiejętności matematycznych wykraczających poza zwykłe odczytanie i zacytowanie wykładni dokonanej przez właściwy organ państwa. W rezultacie udało się przetestować możliwości LLM w sposób odpowiadający rzeczywistej praktyce doradztwa podatkowego. Po czwarte, prawo podatkowe ma duże znaczenie dla życia gospodarczego każdego obywatela i przedsiębiorstwa.

Zaskakująco dobre wyniki LLM w stosowaniu prawa

Dokładność odpowiedzi, generowanych przez LLM na tysiące zapytań dotyczących prawa podatkowego, oceniano w różnych konfiguracjach eksperymentalnych oraz na różnych modelach LLM, w tym na największym i najnowocześniejszym wówczas dostępnym GPT-4 OpenAI. Testowano modele „davinci” (rodzaj modelu GPT-3 o największych możliwościach), model „text-davinci-002” (wcześniejsza wersja GPT-3.5), GPT-3.5 Turbo i GPT-4. Szczególnie interesująco prezentowały się wyniki testu nazwanego przez autorów „mega_run”, w którym jednocześnie zastosowano najbardziej rozbudowaną kombinację technik poprawiających trafność odpowiedzi i najpotężniejszy (dostępny wówczas) model (GPT-4). W przypadku pytań dotyczących przepisów skarbowych Kodeksu Regulacji Federalnych Stanów Zjednoczonych (CFR) liczba odpowiedzi uznanych za prawidłowe przekroczyła 90%, a w przypadku Tytułu 26 Kodeksu Stanów Zjednoczonych 70% (zob. rysunek nr 3 w oryginalnym tekście).

Niekonsekwentne konkluzje

Wyniki badania doprowadziły badaczy m.in. do wniosku, że rosnąca wydajność LLM w tych zadaniach, może mieć głębokie implikacje dla praktyki prawniczej w obszarach podobnych do prawa podatkowego, a także dla zarządzania sztuczną inteligencją. Analizując odpowiedzi generowane przez kolejne coraz większe modele, uczeni uznali, że znaleźli dowody na pojawienie się możliwości rozumienia prawa przez LLM, które doskonaliły się z każdą nowszą wersją modelu GPT. Rosnąca wydajność LLM w tych zadaniach, może mieć głębokie implikacje dla praktyki prawniczej w obszarach podobnych do prawa podatkowego i zarządzania sztuczną inteligencją. Zdaniem badaczy sugeruje to, że ze względu na szybki rozwój techniki możemy być świadkami pojawienia się nadludzkich umiejętności prawnych sztucznej inteligencji (niestety nie wyjaśnili, w czym powinny się one przejawiać). Jednocześnie jednak zastrzegli, że nie chcą wyolbrzymiać tej możliwości, ponieważ nawet najlepsze obecne modele są nadal słabsze od profesjonalnych doradców podatkowych, od których oczekuje się, że odpowiedzą na te pytania z niemal idealną dokładnością. Twierdzenie to, nie dość, że nieudowodnione w zakresie wyników ludzkich doradców podatkowych, stoi w pewnej opozycji do wyżej przytoczonych wniosków bazujących wprost na liczbach. Dodatkowo, prawdopodobnie w celu osłabienia potencjalnych wniosków płynących z ich pracy, autorzy przywołali dość oczywisty fakt, że odpowiadanie na jednoznaczne pytania prawne, to tylko niewielka część pracy praktykującego prawnika. Mimo tych zastrzeżeń w artykule zaznaczono, że nawet jeśli LLM nie zastąpią zawodowych doradców podatkowych, to mogą im pomóc w szczególności poprzez dostarczenie pierwszego szkicu dokumentu. Może to znacznie zwiększyć wydajność prawników i obniżyć koszty usług prawnych, potencjalnie poprawiając dostęp do pomocy prawnej dla wielu osób, których obecnie na to nie stać. Oprócz powyższego autorzy wskazali, że zarządzanie sztuczną inteligencją jest kluczowym elementem jej dostosowania do ludzkich potrzeb. Zwrócili przy tym uwagę na rangę metod, które zapewnią, że modele AI działają zgodnie z prawem i regułami etyki.

Czas i miejsce badania, miejsce publikacji

Wyniki badań i pierwotna wersja artykułu zostały po raz pierwszy ujawnione w dniu 31 maja 2023 r. (https://arxiv.org/abs/2306.07075). Natomiast ostateczna wersja została opublikowana w dniu 26 lutego 2024 r. w czasopiśmie “Philosophical Transactions of the Royal Society A”.

Szerzej zob. John J. Nay, David Karamardian, Sarah B. Lawsky, Wenting Tao, Meghana Bhat, Raghav Jain, Aaron Travis Lee, Jonathan H. Choi and Jungo Kasai, Large language models as tax attorneys: a case study in legal capabilities emergence, “Philosophical Transactions of the Royal Society A”: Mathematical, Physical and Engineering Sciences, volume 382, issue 2270, Published: 26 February 2024.

https://doi.org/10.1098/rsta.2023.0159

Opracował SSR del. do DIRS Jarosław Matuszczak

Jarosław Matuszczak

sędzia Sądu Rejonowego w Malborku delegowany do pełnienia obowiązków głównego specjalisty w Wydziale Rozwoju Usług Sądowych Departamentu Informatyzacji i Rejestrów Sądowych Ministerstwa Sprawiedliwości