ChatGPT teraz cię widzi i słyszy; nowe funkcje ułatwiają interakcję z czatbotem OpenAI

OpenAI poinformowało o najnowszej aktualizacji ChatGPT, która znacznie zwiększa możliwości popularnego narzędzia. Czatbot może nie tylko słyszeć użytkownika, ale także zobaczyć, co ten chce mu pokazać.

tech
Marek Pluta26 września 2023
Źrodło fot. Unsplash | Jonathan Kemper
i

Inżynierowie firmy OpenAI wciąż pracują nad rozszerzaniem możliwości ChatGPT i właśnie poinformowali na swoim blogu o kolejnej znaczącej aktualizacji, która wzbogaca go o nowe funkcje. Tym razem popularny czatbot otrzymał rozpoznawanie głosu oraz obrazów, a więc zyskał wzrok i słuch.

ChatGPT potrafi widzieć i słyszeć

Wspomniana aktualizacja dostarcza zupełnie nowe możliwości interakcji z popularnym narzędziem, gdyż możemy nie tylko prowadzić z nim rozmowę głosową, ale również pokazywać o czyn mówimy. Jeżeli nie mamy żadnego pomysłu na obiad dla naszej rodziny, możemy zrobić zdjęcie lodówki lub spiżarni, a następnie pokazać je czatbotowi i poprosić o przepis, w którym można wykorzystać posiadane produkty. Jeśli natomiast nasze dziecko ma kłopot z odrobieniem pracy domowej z matematyki, możemy poprosić o pomoc w rozwiązaniu zadania, robiąc zdjęcie i zaznaczając na nim obszar, o który nam chodzi.

ChatGPT teraz cię widzi i słyszy; nowe funkcje ułatwiają interakcję z czatbotem OpenAI - ilustracja #1

OpenAI

Nowa funkcja dostępna jest w ustawieniach aplikacji mobilnej, gdzie należy włączyć rozmowy głosowe. Następnie trzeba dotknąć przycisku słuchawek znajdującego się w prawym górnym rogu ekranu i wybrać preferowany głos, spośród pięciu dostępnych tam propozycji.

ChatGPT teraz cię widzi i słyszy; nowe funkcje ułatwiają interakcję z czatbotem OpenAI - ilustracja #2

OpenAI

Funkcja działa w oparciu o nowy model zamiany tekstu na mowę, który umożliwia generowanie dźwięku zbliżonego do ludzkiego, wykorzystując jedynie sam tekst oraz kilka sekund próbek mowy. Firma zapewnia, że aby głosy brzmiały jak najbardziej naturalnie, do współpracy przy ich tworzeniu zaproszono aktorów głosowych. Dodatkowo wykorzystano system rozpoznawania mowy Whisper, który odpowiada za zamianę wypowiadanych na tekst.

Funkcja rozpoznawania obrazu bazuje na modelach GPT-3.5 oraz GPT-4. Wykorzystują one umiejętności rozumowania językowego, obsługując szeroką gamę obrazów, takich jak fotografie, zrzuty ekranu i dokumenty zawierające zarówno tekst, jak i zdjęcia.

Nowa funkcja ChatGPT, w ciągu najbliższych dwóch tygodni zostanie udostępniona wszystkim użytkownikom Plus i Enterprise, korzystającym z mobilnych platform Android oraz iOS. Firma zapewnia, że niebawem będą mogli z nich korzystać również pozostałe grupy użytkowników, w tym także programiści.

Marek Pluta

Marek Pluta

Od lat związany z serwisami internetowymi zajmującymi się tematyką gier oraz nowoczesnych technologii. Przez wiele lat współpracował m.in. z portalami Onet i Wirtualna Polska, a także innymi serwisami oraz czasopismami, gdzie zajmował się m.in. pisaniem newsów i recenzowaniem popularnych gier, jak również testowaniem najnowszych akcesoriów komputerowych. Wolne chwile lubi spędzać na rowerze, zaś podczas złej pogody rozrywkę zapewnia mu dobra książka z gatunku sci-fi. Do jego ulubionych gatunków należą strzelanki oraz produkcje MMO.

AMD Radeon RX 9070 pojawił się na stronie hiszpańskiego sklepu w zaporowej cenie

AMD Radeon RX 9070 pojawił się na stronie hiszpańskiego sklepu w zaporowej cenie

Intel prezentuje własną wizję na modułowe komputery

Intel prezentuje własną wizję na modułowe komputery

Nintendo Switch 2 pokazany na CES 2025 powstał na bazie przecieków

Nintendo Switch 2 pokazany na CES 2025 powstał na bazie przecieków

Popularny odtwarzacz multimedialny ma wykorzystać AI do generowania napisów

Popularny odtwarzacz multimedialny ma wykorzystać AI do generowania napisów

Odstęp między wierszami w Wordzie. Pokazujemy, jak zmienić

Odstęp między wierszami w Wordzie. Pokazujemy, jak zmienić