Nauczycielka poprawia pracę maturalną napisaną za pomocą ChatGPT: jej ocena jest jasna, ale narzędzia AI dochodzą do zupełnie innych wniosków

Praca maturalna z filozofii napisana przez ChatGPT otrzymała skrajnie różne oceny, w zależności od tego, kto był jurorem. Podczas gdy ludzki korektor przyznał jej zaledwie 8 na 20 punktów, wskazując na fundamentalne błędy, inne algorytmy sztucznej inteligencji oceniły ją niemal na maksymalną notę.

tech
Krystian Łukasik23 czerwca 2025
1
Źrodło fot. Emiliano Vittoriosi | Unsplash
i

Wraz z rozwojem sztucznej inteligencji coraz częściej pojawia się pytanie o jej realne możliwości w zadaniach wymagających nie tylko przetwarzania danych, ale i ludzkiego rozumowania na stosunkowo zaawansowanym poziomie. Francuska telewizja publiczna France 3 postanowiła przeprowadzić ciekawy eksperyment. Zleciła ChatGPT napisanie pracy maturalnej z filozofii na temat, z którym 16 czerwca 2025 roku mierzyli się licealiści z Francji. Wyniki tego eksperymentu okazały się bardzo ciekawym studium przypadku, ukazującym przepaść między oceną człowieka a samooceną maszyn (via GameStar).

Precyzyjnie sformułowane zadanie dla sztucznej inteligencji

Aby test był jak najbardziej miarodajny, francuska redakcja nie poprosiła po prostu o esej. Zamiast tego, wcieliła się w rolę ucznia ostatniej klasy, który prosi AI o pomoc w napisaniu pracy na najwyższą możliwą ocenę. W poleceniu (prompcie) zawarto szczegółowe instrukcje:

  1. tekst miał zachować styl wypowiedzi licealisty zgodny z zasadami wypracowania szkolnego,
  2. składać się z wprowadzenia, rozwinięcia i zakończenia,
  3. zawierać trafne odniesienia filozoficzne i konkretne przykłady.

Gdy model AI potwierdził zrozumienie zadania, przedstawiono mu temat egzaminacyjny: „Czy prawda jest zawsze przekonująca?”. Odpowiedź została wygenerowana w zaledwie kilka sekund.

Błąd na starcie i surowa ocena nauczyciela

Na pierwszy rzut oka praca wyglądała imponująco – miała klarowną strukturę, była napisana poprawnym językiem i zawierała przykłady. Jednak kiedy tekst trafił do korekty zawodowego nauczyciela filozofii, czar prysł. Pedagog, mimo że wiedział o pochodzeniu eseju, ocenił go tak, jak każdą inną pracę maturalną.

Już na samym początku nauczyciel wskazał fundamentalny błąd. ChatGPT, zamiast trzymać się oryginalnego pytania, przeformułował je we wstępie:

To nasuwa pytanie: Czy prawda wystarczy, aby przekonać?

Korektor określił tę zmianę jako „poważny błąd, który zastępuje temat zupełnie innym”. W filozofii taka modyfikacja całkowicie zmienia pole rozważań. Dalsza analiza tekstu obnażyła kolejne słabości, w tym:

  1. schematyczną argumentację,
  2. nielogiczne przejścia między akapitami
  3. oraz ogólną powierzchowność.

Nauczyciel podsumował, że praca nie jest w stanie zgłębić prawdziwego problemu, co zawarł w swojej recenzji:

Wniosek ma tę zaletę, że wyraźnie wraca do tematu, ale nadal pokazuje niezdolność do refleksji nad problemem: co sprawia, że prawda, choćby sama w sobie była przekonująca, sama w sobie nie jest w stanie przekonać?

Ostateczny werdykt? 8 na 20 możliwych punktów. To ocena ledwo zaliczająca. Nauczyciel stwierdził jednoznacznie, że uczeń zdolny do stworzenia tak uporządkowanej pracy, pomyślałby również o brakujących elementach i stworzyłby coś znacznie lepszego.

Gdy sztuczna inteligencja ocenia samą siebie

Kontrast między oceną człowieka a tym, jak pracę postrzegają inne modele AI, jest uderzający. Kiedy redakcja France 3 poprosiła ChatGPT o samoocenę, ten bez cienia krytycyzmu przyznał sobie notę 19,5/20. Inne narzędzia, takie jak Gemini, Perplexity czy DeepSeek, również oceniły tekst bardzo wysoko, przyznając mu od 15 do 17 punktów.

Co istotne, żaden z testowanych modeli AI nie zidentyfikował błędu w przeformułowaniu tematu, który dla ludzkiego eksperta był kluczową wadą. Wręcz przeciwnie, chwaliły esej za spójność i logikę. Jak stwierdził model DeepSeek:

Tekst jest dobrze skonstruowany i podąża za jasną linią argumentacji [...]. Wstęp precyzyjnie przedstawia problematykę, a zakończenie suwerennie podsumowuje argumenty.

Kto ma rację w sporze człowieka z maszyną?

Oczywiście, ten pojedynczy test ma swoje ograniczenia. Inny nauczyciel mógłby ocenić pracę nieco inaczej, a bardziej zaawansowany prompt mógłby przynieść lepsze rezultaty. Jednak eksperyment wyraźnie pokazuje, że obecne modele językowe, choć potrafią generować złożone i poprawne gramatycznie teksty, wciąż mają problem z uchwyceniem niuansów i dogłębnym zrozumieniem problemu, co jest kluczowe w dziedzinach humanistycznych.

Dyskusja, która rozgorzała w komentarzach pod artykułem z portalu GameStar, również jest interesująca. Jeden z internautów, o pseudonimie Yeager argumentował, że przeformułowanie tematu przez AI było logiczne, a błąd leżał raczej po stronie nieprecyzyjnej oceny nauczycielki. Z kolei inny dodał:

To pokazuje, jak zła i bezużyteczna jest sztuczna inteligencja. [...] To, że wciąż są ludzie, którzy wierzą, że te modele AI potrafią coś takiego, jest bardzo smutne i świadczy niestety o całkowitym braku zrozumienia, jak one działają i co jest możliwe

– komentuje thatsmyplace.

Wszystko wskazuje na to, że chociaż technologia rozwija się w zawrotnym tempie – a firmy takie jak OpenAI stale pracują nad ulepszeniami rozwiązań opartych na sztucznej inteligencji – to ludzka zdolność do krytycznego myślenia i rozumienia kontekstu pozostaje na razie niezastąpiona. Praca maturalna napisana przez AI może zdać egzamin, ale do uzyskania tytułu prymusa jeszcze długa droga.

Krystian Łukasik

Krystian Łukasik

Zawodowo skupia się na pisaniu wiadomości ze świata elektroniki oraz tłumaczeń opisów i instrukcji produktów specjalistycznych. Pasja do nowoczesnych technologii komputerowych oraz gamingu pozwala mu być ciągle na bieżąco z ewoluującymi trendami w tych dziedzinach. Jego zamiłowanie do języka angielskiego stało się fundamentem decyzji o podjęciu i ukończeniu studiów z filologii angielskiej.

20 lat temu Samsung miał telefon komórkowy z tak specjalnym przyciskiem, że w sklepach musieli wyjmować z niego baterię

20 lat temu Samsung miał telefon komórkowy z tak specjalnym przyciskiem, że w sklepach musieli wyjmować z niego baterię

Gracz Switch 2 chce zaoszczędzić 13 złotych i kupuje klucze od strony trzeciej - teraz jego konto i konsola zostały zablokowane przez Nintendo

Gracz Switch 2 chce zaoszczędzić 13 złotych i kupuje klucze od strony trzeciej - teraz jego konto i konsola zostały zablokowane przez Nintendo

Niemiec kupił sportowy samochód za 13 mln złotych, a teraz pozywa Aston Martina: przez drobną awarię mógł zderzyć się z ambulansem

Niemiec kupił sportowy samochód za 13 mln złotych, a teraz pozywa Aston Martina: przez drobną awarię mógł zderzyć się z ambulansem

PS6 i nowy Xbox z dwukrotnie potężniejszym ray tracingiem? Przeciek o nowej architekturze AMD zapowiada przełom

PS6 i nowy Xbox z dwukrotnie potężniejszym ray tracingiem? Przeciek o nowej architekturze AMD zapowiada przełom

Gra, która wygląda jakby zrobiono ją na PlayStation 6. Recenzja techniczna Death Stranding 2

Gra, która wygląda jakby zrobiono ją na PlayStation 6. Recenzja techniczna Death Stranding 2