Pracownicy Google prezentują, jak robot wyposażony w Gemini radzi sobie z nawigacją

Czy roboty wkrótce staną się naszymi osobistymi asystentami? Google DeepMind Robotics pracuje nad technologią, która może to umożliwić. Ich roboty, wyposażone w rozwiązania bazujące na modelu Gemini 1.5 Pro, potrafią już teraz z dużą skutecznością wykonywać złożone polecenia i poruszać się po różnych środowiskach.

nauka
Krystian Łukasik11 lipca 2024
Źrodło fot. Google DeepMind
i

W eksperymentalnym projekcie, zespół Google DeepMind Robotics pokazał, jak najnowsza generacja sztucznej inteligencji, Gemini, potrafi znacząco usprawnić nawigację robotów. Wykorzystując do tego celu maszyny Every Day Robots, które zostały odzyskane po zamknięciu oryginalnego projektu, badacze zademonstrowali imponujące możliwości modelu językowego Gemini w zakresie rozumienia poleceń i orientacji w przestrzeni, zarówno w środowisku biurowym o powierzchni 836 m2, jak i domowym.

Gemini 1.5 Pro – mózg operacji

Sercem tego przedsięwzięcia jest Gemini 1.5 Pro, zaawansowany model sztucznej inteligencji od Google. Jego ogromna pojemność pamięci, pozwalająca na przetwarzanie nawet miliona tokenów (fragmentów tekstu lub kodu), umożliwia robotom analizę złożonych danych, takich jak filmy instruktażowe czy mapy, a następnie podejmowanie decyzji w oparciu o te informacje. Lecz, co najbardziej istotne w tym przypadku, Gemini 1.5 Pro dobrze radzi sobie z analizą filmów o wysokiej liczbie klatek na sekundę, co przekłada się na lepsze zrozumienie otoczenia przez robota.

Źródło: Google DeepMind
Źródło: Google DeepMind

W opublikowanym artykule badawczym możemy dowiedzieć się, że pierwszym krokiem w uczeniu robotów nawigacji była metoda „Multimodal Instruction Navigation with demonstration Tours (MINT)”. Polegała ona na oprowadzaniu robota po biurze i wskazywaniu mu różnych punktów orientacyjnych, jednocześnie opisując je słownie. To połączenie bodźców wzrokowych i słuchowych, przetwarzane przez model sztucznej inteligencji Gemini 1.5 Pro, pozwoliło robotowi stworzyć wewnętrzną mapę przestrzeni i skojarzyć słowa z konkretnymi miejscami.

Kolejnym etapem było zastosowanie hierarchicznego modelu Vision-Language-Action (VLA), łączącego rozumienie otoczenia z rozumowaniem logicznym. Dzięki temu robot nauczył się reagować na polecenia w formie tekstowej, rysunkowej, a nawet gestów. To otworzyło drzwi do intuicyjnej interakcji ludzi z robotami, gdzie wystarczy wskazać cel, aby maszyna sama wyznaczyła trasę i dotarła do niego.

Testy w praktyce – wysoka skuteczność

Efekty tych prac są imponujące. W serii filmów opublikowanych przez Google, pracownicy wydają robotowi polecenia takie jak „zabierz mnie gdzieś, gdzie mogę rysować” czy „podążaj za instrukcjami na tablicy”. Robot, po krótkiej chwili zastanowienia i analizy danych, bezbłędnie wykonuje zadania, prowadząc pracowników do tablicy czy do wyznaczonej strefy testowej. Według Google, robot osiągnął skuteczność na poziomie 90% w ponad 50 interakcjach z pracownikami. Co ciekawe, Mobility VLA z powodzeniem radzi sobie również w środowisku domowym, wykorzystując jako dane wejściowe film nagrany smartfonem.

Początek nowej ery robotów?

Jak widać, sztuczna inteligencja może zmienić sposób, w jaki roboty poruszają się i wchodzą w interakcje z ludźmi. Zamiast skomplikowanego programowania, wystarczy naturalny język, aby wydawać robotom polecenia. To otwiera drogę do wykorzystania tych mechanicznych towarzyszy w bardziej złożonych zadaniach, od pomocy w domu po pracę w magazynach czy fabrykach.

Mimo że przed nami jeszcze długa droga do powszechnego zastosowania takich rozwiązań, wyniki badań DeepMind Robotics są niezwykle obiecujące. Być może już niedługo roboty staną się naszymi nieodłącznymi towarzyszami, pomagając nam w codziennych obowiązkach i ułatwiając życie.

Krystian Łukasik

Krystian Łukasik

Zawodowo skupia się na pisaniu wiadomości ze świata elektroniki oraz tłumaczeń opisów i instrukcji produktów specjalistycznych. Pasja do nowoczesnych technologii komputerowych oraz gamingu pozwala mu być ciągle na bieżąco z ewoluującymi trendami w tych dziedzinach. Jego zamiłowanie do języka angielskiego stało się fundamentem decyzji o podjęciu i ukończeniu studiów z filologii angielskiej.

Jeśli też nie przepadacie za kartami graficznymi z serii Nvidia 4000, to ten laptop z RTX 3080 może okazać się dla Was idealnym wyborem. Acer Nitro 5 to moja najlepsza rekomendacja

Jeśli też nie przepadacie za kartami graficznymi z serii Nvidia 4000, to ten laptop z RTX 3080 może okazać się dla Was idealnym wyborem. Acer Nitro 5 to moja najlepsza rekomendacja

Czy potrzebujesz antywirusa na komputerze w 2024 roku? Odpowiedź społeczności nie pozostawia złudzeń

Czy potrzebujesz antywirusa na komputerze w 2024 roku? Odpowiedź społeczności nie pozostawia złudzeń

Dragon Age: Veilguard nie spali nam PC. Znamy wymagania sprzętowe

Dragon Age: Veilguard nie spali nam PC. Znamy wymagania sprzętowe

Prawie jak stimpak w Falloucie: nowy biomateriał zamienia fikcję w rzeczywistość i pozwala na regenerację kolana

Prawie jak stimpak w Falloucie: nowy biomateriał zamienia fikcję w rzeczywistość i pozwala na regenerację kolana

Google Pixel 9 Pro ma gorszy zoom niż Galaxy S24 Ultra, ale dzięki AI wcale z nim nie przegrywa

Google Pixel 9 Pro ma gorszy zoom niż Galaxy S24 Ultra, ale dzięki AI wcale z nim nie przegrywa