Stworzenie zwykłego, białego obrazka jest dla AI wielkim wyzwaniem

Przepiękny widok baśniowej doliny – nie ma problemu. Krajobraz obcej planety i futurystyczne roboty – stworzone w 10 sekund. Zwykłe białe tło jednak potrafi rzucić na kolana zarówno Midjourney, jak i DALL-E 3.

tech
Arkadiusz Strzała2 kwietnia 2024
Źrodło fot. Midjourney
i

Efekty działań generatywnej AI potrafią być zachwycające. Sztuczna inteligencja, gdy chwyci za pędzel, to aż oko zbieleje. No właśnie nie do końca, ponieważ ma ona zaskakująco duże problemy ze stworzeniem białego tła. Gdy poprosimy o zwykłą, białą przestrzeń, nagle okazuje się to zadaniem przekraczającym możliwości tworu, wytrenowanego na dziesiątkach tysięcy akceleratorów (np. H100 od Nvidii).

Białe tło to zbyt dużo dla AI

Serwis BleepingComputer opisuje ciekawy eksperyment analityka danych Cody’ego Nasha. Wykorzystując m.in. Midjourney i DALL-E 3, próbował on otrzymać zwykły kawałek białego tła. Najlepiej równomierny o wartościach 255 w notacji RGB (lub #FFFFFF w HTML). Niestety nie udało mu się znaleźć idealnie skutecznej formuły – cokolwiek wpisywał, zawsze rezultat był daleki od tego, czego oczekiwał.

DALL-E 3 ma problemy z białym tłem. Źródło: Cody Nash, BleepingComputer - Stworzenie zwykłego, białego obrazka jest dla AI wielkim wyzwaniem - wiadomość - 2024-04-02
DALL-E 3 ma problemy z białym tłem. Źródło: Cody Nash, BleepingComputer

Niektóre frazy potrafią nawet zakłopotać AI do tego stopnia, że ma problemy z działaniem. W moim przypadku „Smooth even all white background” zawiesiło Kreator obrazów Copilot (DALL-E 3). Do tej pory nie otrzymałem wyniku, choć wydaje mi się, że to chwilowa awaria. Trzeba przyznać, że to jest dziwne, ale jakby chwilę się zastanowić, przyjdzie nam do głowy odpowiedź, dlaczego tak się dzieje.

Sztuczne inteligencje są trenowane głównie na zawartości Internetu. Dotyczy to także tych artystycznych. W pewnym sensie powielają one to, lub pracują na tym, co zobaczyły na innych obrazach w sieci. Czy często można tam spotkać idealnie białe tło? Zapewne znajdziemy plik z idealnie białym tłem, ale raczej jest ich niezbyt wiele. Można powiedzieć, że to jakaś setna część procenta zasobów obrazowych sieci. Albo nawet jeszcze mniej. Podczas treningu sztuczna inteligencja mogła trafiać na takie „prace” niezmiernie rzadko.

AI zdecydowało, że nie chodzi mi o białe tło, lecz białe koszule. Źródło: Kreator obrazów Copilot - Stworzenie zwykłego, białego obrazka jest dla AI wielkim wyzwaniem - wiadomość - 2024-04-02
AI zdecydowało, że nie chodzi mi o białe tło, lecz białe koszule. Źródło: Kreator obrazów Copilot

Prawdopodobnie twórcza AI ma też problemy z „tworzeniem niczego”. Została zaprojektowana do kreowania bogatych stylistycznie dzieł, a zwykłe białe tło wydaje się pustką. Kreatory obrazów mogą nie pomyśleć, że człowiekowi właśnie o to chodzi. No bo niby dlaczego prosi on AI o coś, co może sam zrobić dwoma kliknięciami w każdym programie graficznym?

Nie tylko z białym tłem są problemy

Sztuczna inteligencja ma problemy także z napisami. Potrafi tworzyć szczegółowe obrazy, ale jeśli chcemy zawrzeć w nich jakieś hasło, zwykle wynik jest niezadowalający (choć muszę przyznać, że Copilot ostatnio coraz lepiej sobie radzi na tym polu). Na szczęście wiodące artystyczne AI raczej nie tworzą już wielopalczastych potworków. Co ciekawe, także modele językowe mają swoje słabości.

„N” we Wrocławiu według Copilota. - Stworzenie zwykłego, białego obrazka jest dla AI wielkim wyzwaniem - wiadomość - 2024-04-02
„N” we Wrocławiu według Copilota.

To co widzicie powyżej, to interesujący przykład rzeczy, na której LLM potrafi się wyłożyć. Trudno powiedzieć, czy to nasz język jest tak trudny, ale ewidentnie pewne jego gramatyczne zawiłości przekraczają zdolności obliczeniowe Copilota (GPT-3). Cóż, mieszkańcy Wrocławia teraz mają zagadkę – co to za „N” jest w nazwie ich miasta. Może trzeba rozpisać referendum?

Arkadiusz Strzała

Arkadiusz Strzała

Swoją przygodę z pisaniem zaczynał od własnego bloga i jednego z wczesnych forum (stworzonego jeszcze w technologii WAP). Z wykształcenia jest elektrotechnikiem, posiada zamiłowanie do technologii, konstruowania różnych rzeczy i rzecz jasna – grania w gry komputerowe. Obecnie na GOL-u jest newsmanem i autorem publicystyki, a współpracę z serwisem rozpoczął w kwietniu 2020 roku. Specjalizuje się w tekstach o energetyce i kosmosie. Nie stroni jednak od tematów luźniejszych lub z innych dziedzin. Uwielbia oglądać filmy science fiction i motoryzacyjne vlogi na YouTube. Gry uruchamia głównie na komputerze PC, aczkolwiek posiada krótki staż konsolowy. Preferuje strategie czasu rzeczywistego, FPS-y i wszelkie symulatory.

Co znaczy invalid handle na Bluesky? Odpowiadamy

Co znaczy invalid handle na Bluesky? Odpowiadamy

Wyciekła specyfikacja RTX 5070 Ti; karta pobierze więcej prądu niż 4070 Ti

Wyciekła specyfikacja RTX 5070 Ti; karta pobierze więcej prądu niż 4070 Ti

Chcą zmiażdżyć konkurencję ceną; nowe laptopy z procesorami Snapdragon będą tanie i ze wsparciem dla AI

Chcą zmiażdżyć konkurencję ceną; nowe laptopy z procesorami Snapdragon będą tanie i ze wsparciem dla AI

Ustawienia Stalker 2: Zdecydowanie powinieneś zmienić te 9 ustawień grafiki, sterowania, HDR i inne

Ustawienia Stalker 2: Zdecydowanie powinieneś zmienić te 9 ustawień grafiki, sterowania, HDR i inne

Do dziś korzystam z konsoli, która sprzedawała się tak dobrze, że niemal pobiła wynik PlayStation 2. Nintendo DS właśnie kończy 20 lat

Do dziś korzystam z konsoli, która sprzedawała się tak dobrze, że niemal pobiła wynik PlayStation 2. Nintendo DS właśnie kończy 20 lat