Nauczycielka poprawia pracę maturalną napisaną za pomocą ChatGPT: jej ocena jest jasna, ale narzędzia AI dochodzą do zupełnie innych wniosków

Praca maturalna z filozofii napisana przez ChatGPT otrzymała skrajnie różne oceny, w zależności od tego, kto był jurorem. Podczas gdy ludzki korektor przyznał jej zaledwie 8 na 20 punktów, wskazując na fundamentalne błędy, inne algorytmy sztucznej inteligencji oceniły ją niemal na maksymalną notę.

tech

Krystian Łukasik23 czerwca 2025

Źrodło fot. Emiliano Vittoriosi | Unsplash

Spis treści:

Precyzyjnie sformułowane zadanie dla sztucznej inteligencji
Błąd na starcie i surowa ocena nauczyciela
Gdy sztuczna inteligencja ocenia samą siebie
Kto ma rację w sporze człowieka z maszyną?

Wraz z rozwojem sztucznej inteligencji coraz częściej pojawia się pytanie o jej realne możliwości w zadaniach wymagających nie tylko przetwarzania danych, ale i ludzkiego rozumowania na stosunkowo zaawansowanym poziomie. Francuska telewizja publiczna France 3 postanowiła przeprowadzić ciekawy eksperyment. Zleciła ChatGPT napisanie pracy maturalnej z filozofii na temat, z którym 16 czerwca 2025 roku mierzyli się licealiści z Francji. Wyniki tego eksperymentu okazały się bardzo ciekawym studium przypadku, ukazującym przepaść między oceną człowieka a samooceną maszyn (via GameStar).

Precyzyjnie sformułowane zadanie dla sztucznej inteligencji

Aby test był jak najbardziej miarodajny, francuska redakcja nie poprosiła po prostu o esej. Zamiast tego, wcieliła się w rolę ucznia ostatniej klasy, który prosi AI o pomoc w napisaniu pracy na najwyższą możliwą ocenę. W poleceniu (prompcie) zawarto szczegółowe instrukcje:

tekst miał zachować styl wypowiedzi licealisty zgodny z zasadami wypracowania szkolnego,
składać się z wprowadzenia, rozwinięcia i zakończenia,
zawierać trafne odniesienia filozoficzne i konkretne przykłady.

Gdy model AI potwierdził zrozumienie zadania, przedstawiono mu temat egzaminacyjny: „Czy prawda jest zawsze przekonująca?”. Odpowiedź została wygenerowana w zaledwie kilka sekund.

Błąd na starcie i surowa ocena nauczyciela

Na pierwszy rzut oka praca wyglądała imponująco – miała klarowną strukturę, była napisana poprawnym językiem i zawierała przykłady. Jednak kiedy tekst trafił do korekty zawodowego nauczyciela filozofii, czar prysł. Pedagog, mimo że wiedział o pochodzeniu eseju, ocenił go tak, jak każdą inną pracę maturalną.

Już na samym początku nauczyciel wskazał fundamentalny błąd. ChatGPT, zamiast trzymać się oryginalnego pytania, przeformułował je we wstępie:

To nasuwa pytanie: Czy prawda wystarczy, aby przekonać?

Korektor określił tę zmianę jako „poważny błąd, który zastępuje temat zupełnie innym”. W filozofii taka modyfikacja całkowicie zmienia pole rozważań. Dalsza analiza tekstu obnażyła kolejne słabości, w tym:

schematyczną argumentację,
nielogiczne przejścia między akapitami
oraz ogólną powierzchowność.

Nauczyciel podsumował, że praca nie jest w stanie zgłębić prawdziwego problemu, co zawarł w swojej recenzji:

Wniosek ma tę zaletę, że wyraźnie wraca do tematu, ale nadal pokazuje niezdolność do refleksji nad problemem: co sprawia, że prawda, choćby sama w sobie była przekonująca, sama w sobie nie jest w stanie przekonać?

Ostateczny werdykt? 8 na 20 możliwych punktów. To ocena ledwo zaliczająca. Nauczyciel stwierdził jednoznacznie, że uczeń zdolny do stworzenia tak uporządkowanej pracy, pomyślałby również o brakujących elementach i stworzyłby coś znacznie lepszego.

Gdy sztuczna inteligencja ocenia samą siebie

Kontrast między oceną człowieka a tym, jak pracę postrzegają inne modele AI, jest uderzający. Kiedy redakcja France 3 poprosiła ChatGPT o samoocenę, ten bez cienia krytycyzmu przyznał sobie notę 19,5/20. Inne narzędzia, takie jak Gemini, Perplexity czy DeepSeek, również oceniły tekst bardzo wysoko, przyznając mu od 15 do 17 punktów.

Co istotne, żaden z testowanych modeli AI nie zidentyfikował błędu w przeformułowaniu tematu, który dla ludzkiego eksperta był kluczową wadą. Wręcz przeciwnie, chwaliły esej za spójność i logikę. Jak stwierdził model DeepSeek:

Tekst jest dobrze skonstruowany i podąża za jasną linią argumentacji [...]. Wstęp precyzyjnie przedstawia problematykę, a zakończenie suwerennie podsumowuje argumenty.

Kto ma rację w sporze człowieka z maszyną?

Oczywiście, ten pojedynczy test ma swoje ograniczenia. Inny nauczyciel mógłby ocenić pracę nieco inaczej, a bardziej zaawansowany prompt mógłby przynieść lepsze rezultaty. Jednak eksperyment wyraźnie pokazuje, że obecne modele językowe, choć potrafią generować złożone i poprawne gramatycznie teksty, wciąż mają problem z uchwyceniem niuansów i dogłębnym zrozumieniem problemu, co jest kluczowe w dziedzinach humanistycznych.

Dyskusja, która rozgorzała w komentarzach pod artykułem z portalu GameStar, również jest interesująca. Jeden z internautów, o pseudonimie Yeager argumentował, że przeformułowanie tematu przez AI było logiczne, a błąd leżał raczej po stronie nieprecyzyjnej oceny nauczycielki. Z kolei inny dodał:

To pokazuje, jak zła i bezużyteczna jest sztuczna inteligencja. [...] To, że wciąż są ludzie, którzy wierzą, że te modele AI potrafią coś takiego, jest bardzo smutne i świadczy niestety o całkowitym braku zrozumienia, jak one działają i co jest możliwe

– komentuje thatsmyplace.

Wszystko wskazuje na to, że chociaż technologia rozwija się w zawrotnym tempie – a firmy takie jak OpenAI stale pracują nad ulepszeniami rozwiązań opartych na sztucznej inteligencji – to ludzka zdolność do krytycznego myślenia i rozumienia kontekstu pozostaje na razie niezastąpiona. Praca maturalna napisana przez AI może zdać egzamin, ale do uzyskania tytułu prymusa jeszcze długa droga.

Czytaj więcej:Prezes OpenAI przerywa milczenie. Znamy datę premiery GPT-5

POWIĄZANE TEMATY: tech AI / sztuczna inteligencja OpenAI chatboty / ChatGPT

Krystian Łukasik

Zawodowo skupia się na pisaniu wiadomości ze świata elektroniki oraz tłumaczeń opisów i instrukcji produktów specjalistycznych. Pasja do nowoczesnych technologii komputerowych oraz gamingu pozwala mu być ciągle na bieżąco z ewoluującymi trendami w tych dziedzinach. Jego zamiłowanie do języka angielskiego stało się fundamentem decyzji o podjęciu i ukończeniu studiów z filologii angielskiej.

Chciał tylko wymienić wentylator w PC. Skończyło się rozbitym panelem przez jeden drobny błąd

Fan PlayStation chce tylko naprawić port HDMI swojej konsoli PS5 u sprzedawcy - konsola wraca jeszcze bardziej zepsuta i brudna

Składać czy rozkładać? 5 powodów, dla których mamy wyraźnego faworyta w pojedynku między Samsungiem Galaxy Flip 7 a Fold 7

gamescom 2025 - co powinieneś wiedzieć

Gracz PlayStation ma już dość swojej porysowanej PS2 i po prostu używa pasty do polerowania samochodów - wynik zaskoczył nawet jego samego