Pracownicy Google prezentują, jak robot wyposażony w Gemini radzi sobie z nawigacją

Czy roboty wkrótce staną się naszymi osobistymi asystentami? Google DeepMind Robotics pracuje nad technologią, która może to umożliwić. Ich roboty, wyposażone w rozwiązania bazujące na modelu Gemini 1.5 Pro, potrafią już teraz z dużą skutecznością wykonywać złożone polecenia i poruszać się po różnych środowiskach.

news

Krystian Łukasik11 lipca 2024

Źrodło fot. Google DeepMind

Spis treści:

Gemini 1.5 Pro – mózg operacji
Testy w praktyce – wysoka skuteczność
Początek nowej ery robotów?

W eksperymentalnym projekcie, zespół Google DeepMind Robotics pokazał, jak najnowsza generacja sztucznej inteligencji, Gemini, potrafi znacząco usprawnić nawigację robotów. Wykorzystując do tego celu maszyny Every Day Robots, które zostały odzyskane po zamknięciu oryginalnego projektu, badacze zademonstrowali imponujące możliwości modelu językowego Gemini w zakresie rozumienia poleceń i orientacji w przestrzeni, zarówno w środowisku biurowym o powierzchni 836 m2, jak i domowym.

Gemini 1.5 Pro – mózg operacji

Sercem tego przedsięwzięcia jest Gemini 1.5 Pro, zaawansowany model sztucznej inteligencji od Google. Jego ogromna pojemność pamięci, pozwalająca na przetwarzanie nawet miliona tokenów (fragmentów tekstu lub kodu), umożliwia robotom analizę złożonych danych, takich jak filmy instruktażowe czy mapy, a następnie podejmowanie decyzji w oparciu o te informacje. Lecz, co najbardziej istotne w tym przypadku, Gemini 1.5 Pro dobrze radzi sobie z analizą filmów o wysokiej liczbie klatek na sekundę, co przekłada się na lepsze zrozumienie otoczenia przez robota.

Źródło: Google DeepMind

W opublikowanym artykule badawczym możemy dowiedzieć się, że pierwszym krokiem w uczeniu robotów nawigacji była metoda „Multimodal Instruction Navigation with demonstration Tours (MINT)”. Polegała ona na oprowadzaniu robota po biurze i wskazywaniu mu różnych punktów orientacyjnych, jednocześnie opisując je słownie. To połączenie bodźców wzrokowych i słuchowych, przetwarzane przez model sztucznej inteligencji Gemini 1.5 Pro, pozwoliło robotowi stworzyć wewnętrzną mapę przestrzeni i skojarzyć słowa z konkretnymi miejscami.

Kolejnym etapem było zastosowanie hierarchicznego modelu Vision-Language-Action (VLA), łączącego rozumienie otoczenia z rozumowaniem logicznym. Dzięki temu robot nauczył się reagować na polecenia w formie tekstowej, rysunkowej, a nawet gestów. To otworzyło drzwi do intuicyjnej interakcji ludzi z robotami, gdzie wystarczy wskazać cel, aby maszyna sama wyznaczyła trasę i dotarła do niego.

Testy w praktyce – wysoka skuteczność

Efekty tych prac są imponujące. W serii filmów opublikowanych przez Google, pracownicy wydają robotowi polecenia takie jak „zabierz mnie gdzieś, gdzie mogę rysować” czy „podążaj za instrukcjami na tablicy”. Robot, po krótkiej chwili zastanowienia i analizy danych, bezbłędnie wykonuje zadania, prowadząc pracowników do tablicy czy do wyznaczonej strefy testowej. Według Google, robot osiągnął skuteczność na poziomie 90% w ponad 50 interakcjach z pracownikami. Co ciekawe, Mobility VLA z powodzeniem radzi sobie również w środowisku domowym, wykorzystując jako dane wejściowe film nagrany smartfonem.

Początek nowej ery robotów?

Jak widać, sztuczna inteligencja może zmienić sposób, w jaki roboty poruszają się i wchodzą w interakcje z ludźmi. Zamiast skomplikowanego programowania, wystarczy naturalny język, aby wydawać robotom polecenia. To otwiera drogę do wykorzystania tych mechanicznych towarzyszy w bardziej złożonych zadaniach, od pomocy w domu po pracę w magazynach czy fabrykach.

Mimo że przed nami jeszcze długa droga do powszechnego zastosowania takich rozwiązań, wyniki badań DeepMind Robotics są niezwykle obiecujące. Być może już niedługo roboty staną się naszymi nieodłącznymi towarzyszami, pomagając nam w codziennych obowiązkach i ułatwiając życie.

Czytaj więcej:Starlinki, Perseidy i inne cuda. To zobaczymy na polskim niebie w 2025 roku

POWIĄZANE TEMATY: nauka roboty / drony AI / sztuczna inteligencja

Krystian Łukasik

Zawodowo skupia się na pisaniu wiadomości ze świata elektroniki oraz tłumaczeń opisów i instrukcji produktów specjalistycznych. Pasja do nowoczesnych technologii komputerowych oraz gamingu pozwala mu być ciągle na bieżąco z ewoluującymi trendami w tych dziedzinach. Jego zamiłowanie do języka angielskiego stało się fundamentem decyzji o podjęciu i ukończeniu studiów z filologii angielskiej.

„To powinien być nowy standard”: Asrock wprowadza płytę główną AM5 z 25 portami USB

SpaceX osiągnęło niesamowite sukcesy dzięki statkowi kosmicznemu Starship. Problem polega na tym, że pracownicy płacą za to wysoką cenę

120 FPS i żadnych problemów. Grałem już w Total War: Rome II na MacOS

Opuścił Windowsa w poszukiwaniu alternatywy. Wrócił dla niezawodności w codziennej pracy

Dawid i Goliat od Intela - wydajny Arc B580 TITAN NOX od Sparkle, oraz potężny Arc Pro B60 Dual z 48 GB VRAM