Lewa ręka nie pisze. Dlaczego AI dyskryminuje leworęcznych?

Lewa i prawa to dla AI po prostu zbiory cech – jeśli nie są wystarczająco często od siebie odróżniane, zaczynają być zamieniane miejscami.
.get_the_title().

Choć duże modele językowe i generatywne modele obrazowe, takie jak ChatGPT z funkcją obrazu czy DALL·E, osiągnęły niezwykły poziom realizmu i kreatywności, wciąż potrafią zawodzić w zaskakujących – a czasem wręcz zabawnych – aspektach. Jednym z takich przykładów jest ich nieumiejętność poprawnego generowania obrazów ludzi piszących lewą ręką. Nawet jeśli użytkownik wyraźnie poprosi o taką scenę, efekt końcowy często pokazuje postać piszącą prawą ręką albo z rękami nienaturalnie skręconymi lub splecionymi.

Dlaczego tak się dzieje? Odpowiedź prowadzi nas do sedna działania modeli generatywnych i ograniczeń ich architektury oraz danych treningowych.

Modele takie jak DALL·E, Google Imagen czy Midjourney nie „rozumieją” świata w ludzkim sensie. Nie mają świadomości, fizycznego doświadczenia ani pojęcia przestrzeni. Działają na bazie statystycznych wzorców wyciągniętych z miliardów par tekst–obraz. Uczą się, że określone słowa (np. „człowiek piszący”) występują z określonymi strukturami graficznymi (np. ręka trzymająca długopis, pochylona głowa, kartka papieru). Problem w tym, że znakomita większość zdjęć i ilustracji w internecie przedstawia osoby piszące prawą ręką – od zeszytów szkolnych po reklamy długopisów.

Leworęczność jest rzadkością (około 10% populacji), a więc i znacznie rzadziej występuje w materiałach treningowych.

To oznacza, że modele uczą się jednego „głównego” wzorca – i jest nim wzorzec praworęczny. Co więcej, modele generatywne nie operują logiką semantyczną („lewa ręka to ta po stronie serca”), tylko obrazową: „ręka po tej stronie ciała, przy kartce, często się pojawia w kontekście pisania”. Modele mają także poważny problem z tzw. lateralizacją, czyli odróżnianiem lewej od prawej strony. Wynika to z faktu, że podczas treningu obrazów nie uczy się ich w kategoriach przestrzennych, tylko jako zbiorów pikseli i statystycznych wzorców.

Lewa i prawa to dla AI po prostu zbiory cech – jeśli nie są wystarczająco często od siebie odróżniane, zaczynają być zamieniane miejscami.

To tłumaczy, dlaczego w obrazach AI ludzie mają niekiedy sześć palców, dłonie na złej ręce albo długopis trzymany dziwnym chwytem. Model nie posiada „wewnętrznej mapy ciała” człowieka – nie wie, że dłoń lewa powinna zginać się w konkretną stronę, że łokieć powinien być ustawiony pod kątem X, a głowa nachylona w sposób Y. Tym bardziej nie wie, jak wygląda prawidłowa pozycja osoby leworęcznej przy biurku – bo takich obrazów w sieci niemal nie ma.

Można zapytać: skoro użytkownik jasno pisze „kobieta pisząca lewą ręką”, to dlaczego model tego nie wykonuje? Bo model nie rozumie „lewej ręki” jako trwałego kontekstu przestrzennego.

Traktuje to jako słowo kluczowe, które nie zawsze potrafi przełożyć na konkretne ułożenie kończyn. Może wygenerować osobę z długopisem w „jakiejś ręce”, ale czy to jest lewa ręka – model nie ma pewności. Może zinterpretować prompt jako ogólną prośbę o „osobę piszącą”, czyli wrócić do najczęstszej formy – pisania prawą ręką. Niektóre modele próbują omijać ten problem technicznie, np. generując więcej wariantów i „losując” postać z długopisem w różnych rękach. Jednak nadal nie mają sprawnego mechanizmu rozpoznawania i kontrolowania symetrii ciała w obrazie.

Rozwiązania tego problemu są już częściowo testowane. Niektóre modele zaczynają być trenowane na zestawach danych z oznaczonymi cechami przestrzennymi – np. która ręka wykonuje akcję, gdzie znajduje się oś ciała itp. Istnieją także techniki fine-tuningu (dodatkowego dostrajania modelu), które pozwalają uczyć model konkretnego zachowania – np. poprawnego trzymania narzędzi przez leworęcznych. Ale to wszystko wymaga ogromnej ilości dobrze oznaczonych danych, których nadal brakuje. Dodatkowo pojawiają się narzędzia pozwalające na ręczną korektę wygenerowanych obrazów – np. edytory warstwowe czy prompt engineering z uzupełniającymi wskazówkami typu: „z długopisem wyraźnie w lewej dłoni, trzymanym nad zeszytem po lewej stronie”. Efekty bywają lepsze, ale nadal nie są niezawodne.

NAUKA