Pracownicy Google prezentują, jak robot wyposażony w Gemini radzi sobie z nawigacją

Czy roboty wkrótce staną się naszymi osobistymi asystentami? Google DeepMind Robotics pracuje nad technologią, która może to umożliwić. Ich roboty, wyposażone w rozwiązania bazujące na modelu Gemini 1.5 Pro, potrafią już teraz z dużą skutecznością wykonywać złożone polecenia i poruszać się po różnych środowiskach.

nauka
Krystian Łukasik11 lipca 2024
Źrodło fot. Google DeepMind
i

W eksperymentalnym projekcie, zespół Google DeepMind Robotics pokazał, jak najnowsza generacja sztucznej inteligencji, Gemini, potrafi znacząco usprawnić nawigację robotów. Wykorzystując do tego celu maszyny Every Day Robots, które zostały odzyskane po zamknięciu oryginalnego projektu, badacze zademonstrowali imponujące możliwości modelu językowego Gemini w zakresie rozumienia poleceń i orientacji w przestrzeni, zarówno w środowisku biurowym o powierzchni 836 m2, jak i domowym.

Gemini 1.5 Pro – mózg operacji

Sercem tego przedsięwzięcia jest Gemini 1.5 Pro, zaawansowany model sztucznej inteligencji od Google. Jego ogromna pojemność pamięci, pozwalająca na przetwarzanie nawet miliona tokenów (fragmentów tekstu lub kodu), umożliwia robotom analizę złożonych danych, takich jak filmy instruktażowe czy mapy, a następnie podejmowanie decyzji w oparciu o te informacje. Lecz, co najbardziej istotne w tym przypadku, Gemini 1.5 Pro dobrze radzi sobie z analizą filmów o wysokiej liczbie klatek na sekundę, co przekłada się na lepsze zrozumienie otoczenia przez robota.

Źródło: Google DeepMind
Źródło: Google DeepMind

W opublikowanym artykule badawczym możemy dowiedzieć się, że pierwszym krokiem w uczeniu robotów nawigacji była metoda „Multimodal Instruction Navigation with demonstration Tours (MINT)”. Polegała ona na oprowadzaniu robota po biurze i wskazywaniu mu różnych punktów orientacyjnych, jednocześnie opisując je słownie. To połączenie bodźców wzrokowych i słuchowych, przetwarzane przez model sztucznej inteligencji Gemini 1.5 Pro, pozwoliło robotowi stworzyć wewnętrzną mapę przestrzeni i skojarzyć słowa z konkretnymi miejscami.

Kolejnym etapem było zastosowanie hierarchicznego modelu Vision-Language-Action (VLA), łączącego rozumienie otoczenia z rozumowaniem logicznym. Dzięki temu robot nauczył się reagować na polecenia w formie tekstowej, rysunkowej, a nawet gestów. To otworzyło drzwi do intuicyjnej interakcji ludzi z robotami, gdzie wystarczy wskazać cel, aby maszyna sama wyznaczyła trasę i dotarła do niego.

Testy w praktyce – wysoka skuteczność

Efekty tych prac są imponujące. W serii filmów opublikowanych przez Google, pracownicy wydają robotowi polecenia takie jak „zabierz mnie gdzieś, gdzie mogę rysować” czy „podążaj za instrukcjami na tablicy”. Robot, po krótkiej chwili zastanowienia i analizy danych, bezbłędnie wykonuje zadania, prowadząc pracowników do tablicy czy do wyznaczonej strefy testowej. Według Google, robot osiągnął skuteczność na poziomie 90% w ponad 50 interakcjach z pracownikami. Co ciekawe, Mobility VLA z powodzeniem radzi sobie również w środowisku domowym, wykorzystując jako dane wejściowe film nagrany smartfonem.

Początek nowej ery robotów?

Jak widać, sztuczna inteligencja może zmienić sposób, w jaki roboty poruszają się i wchodzą w interakcje z ludźmi. Zamiast skomplikowanego programowania, wystarczy naturalny język, aby wydawać robotom polecenia. To otwiera drogę do wykorzystania tych mechanicznych towarzyszy w bardziej złożonych zadaniach, od pomocy w domu po pracę w magazynach czy fabrykach.

Mimo że przed nami jeszcze długa droga do powszechnego zastosowania takich rozwiązań, wyniki badań DeepMind Robotics są niezwykle obiecujące. Być może już niedługo roboty staną się naszymi nieodłącznymi towarzyszami, pomagając nam w codziennych obowiązkach i ułatwiając życie.

Krystian Łukasik

Krystian Łukasik

Zawodowo skupia się na pisaniu wiadomości ze świata elektroniki oraz tłumaczeń opisów i instrukcji produktów specjalistycznych. Pasja do nowoczesnych technologii komputerowych oraz gamingu pozwala mu być ciągle na bieżąco z ewoluującymi trendami w tych dziedzinach. Jego zamiłowanie do języka angielskiego stało się fundamentem decyzji o podjęciu i ukończeniu studiów z filologii angielskiej.

Wyciekła specyfikacja RTX 5070 Ti; karta pobierze więcej prądu niż 4070 Ti

Wyciekła specyfikacja RTX 5070 Ti; karta pobierze więcej prądu niż 4070 Ti

Chcą zmiażdżyć konkurencję ceną; nowe laptopy z procesorami Snapdragon będą tanie i ze wsparciem dla AI

Chcą zmiażdżyć konkurencję ceną; nowe laptopy z procesorami Snapdragon będą tanie i ze wsparciem dla AI

Ustawienia Stalker 2: Zdecydowanie powinieneś zmienić te 9 ustawień grafiki, sterowania, HDR i inne

Ustawienia Stalker 2: Zdecydowanie powinieneś zmienić te 9 ustawień grafiki, sterowania, HDR i inne

Do dziś korzystam z konsoli, która sprzedawała się tak dobrze, że niemal pobiła wynik PlayStation 2. Nintendo DS właśnie kończy 20 lat

Do dziś korzystam z konsoli, która sprzedawała się tak dobrze, że niemal pobiła wynik PlayStation 2. Nintendo DS właśnie kończy 20 lat

RTX 5090 będzie tańszy niż sądziliśmy; Nvidia ma zaskoczyć graczy

RTX 5090 będzie tańszy niż sądziliśmy; Nvidia ma zaskoczyć graczy