Декількома словами
Google активно розвиває напрямок людиноподібних роботів, використовуючи можливості штучного інтелекту Gemini. Мета – створення роботів, здатних до складних маніпуляцій, навчання та безпечної взаємодії з навколишнім світом, що відкриває нові перспективи у багатьох сферах.

«Наступним великим стрибком людства стануть роботи-гуманоїди»
«Наступним великим стрибком людства стануть роботи-гуманоїди», — стверджує Рев Лебаредян, віце-президент Omniverse та технологій моделювання в комп'ютерному гіганті Nvidia. Трамплін для цього стрибка, який передбачається як один із проривних досягнень найближчих років, вже тут, і Google щойно приєднався до гонки, оголосивши про Gemini Robotics, розробку своєї моделі штучного інтелекту (ШІ) для машин, як промислових, так і людиноподібних роботів, і яку він надав великим гравцям галузі, таким як Apptronik, Agile Robots, Agility Robots, Boston Dynamics та Enchanted Tools, для тестування.
Роботи досі були шарнірними механізмами «сліпими та дурними», як описує Лебаредян старі моделі, розробленими для виконання повторюваних завдань, але нездатними навчатися, розвиватися в невідомих сценаріях та діяти відповідно.
За словами Денніса Хонга, засновника RoMeLa, «майбутнє полягає в тому, що роботи зможуть виконувати все, що може людина». Але щоб діяти як людина, їм потрібен мозок, який дозволить їм розуміти, навчатися, сприймати та діяти. І цей розум — ШІ, заснований на великих мовних моделях (LLM), штучний інтелект, здатний розвивати машини до їх найвищого вираження: андроїдів, роботів із зовнішністю та поведінкою, подібними до людських, здатних функціонувати у світі, розробленому людьми та для людей.
Роботи зі штучним інтелектом Google ще не демонструють у лабораторних тестах таких складних навичок, як Figure 01, прототип, найближчий до гуманоїда, який передбачала наукова фантастика та підтримується Open AI, Nvidia та Джеффом Безосом, засновником Amazon.
Але ті, хто оснащені Gemini Robotics, значно наближаються до цього після зміни курсу, прийнятої в 2024 році. «Минулого року, — пояснює Кароліна Парада, директор з інженерії в Google DeepMind Robotics, — ми вирішили прийняти новий виклик і зосередитися на навчанні роботів виконувати складні завдання з точного маніпулювання, такі як ті, які ми робимо, зав'язуючи шнурки на взутті, на основі даних реального світу та моделювання для навчання».
З цього виклику виник Gemini Robotics, модель ШІ, призначена для розробки роботів загального призначення (гуманоїдів). «Для цього потрібно, щоб вони були дійсно корисними, щоб вони розуміли вас, щоб вони розуміли світ навколо вас, а потім могли діяти безпечно, інтерактивно та вміло», — уточнює Парада.
Robotic Transformer 2 (RT-2), модель, яка використовує ШІ Google для перенесення зору та мови в дію (VLA).
Лабораторні тести, де роботи за голосовими командами збирають і зберігають предмети в конкретних контейнерах, описаних лише за їх кольором, і які змінюють своє місцезнаходження, можуть здатися простими, але для робота це дуже складно. У цьому сенсі Каніша Рао, колега Паради в DeepMind, уточнює, що роботи «добре працюють у сценаріях, які вони вже пережили, але зазнають невдачі в невідомих».
Таким чином, як пояснює Рао, під час тестів машини поміщалися в ситуації, коли об'єкти, які вони повинні ідентифікувати та маніпулювати, змінюють колір, середовища змінюються, а ШІ реагує на команди дій, невідомі для машини, або на об'єкти, яких вона не знала, наприклад, закинути іграшковий баскетбольний м'яч у кошик, не знаючи раніше, що це за вид спорту.
Для досягнення цих навичок, як пояснює Парада, ШІ робота повинен розуміти природну мову, «розуміти фізичний світ дуже детально» і, як додає Вікас Сіндхвані, науковий дослідник у команді робототехніки Google DeepMind, діяти безпечно за допомогою «оцінок властивостей сцени та наслідків виконання певної дії».
Шлях безпеки ще відкритий. Сіндхвані стверджує, що їм вдалося досягти того, щоб роботи мали широке «розуміння» цієї концепції на основі як реальних, так і змодельованих даних, якими живиться їхній ШІ, але вони продовжують налаштовувати, щоб «дозволити все більш інтерактивні та спільні завдання» без ризиків і дотримуватися трьох правил Айзека Азімова: робот не повинен завдавати шкоди людині дією чи бездіяльністю; він повинен підкорятися людським наказам, якщо це не суперечить першому закону; і він повинен захищати власне існування, якщо це не суперечить першому або другому закону.
Більше інформації
«Наступним великим стрибком є розробка гуманоїдів, і ми дуже близькі до цього»
Глобальна концепція нового кроку Google до роботизації полягає в перенесенні того, що було досягнуто в цифровому світі, з розробкою агентів (асистентів), які стають все більш складними, у фізичне середовище. «У DeepMind ми досягли прогресу в тому, як наші моделі Gemini вирішують складні проблеми за допомогою мультимодальних міркувань на основі текстів, зображень, аудіо та відео. Однак досі ці навички значною мірою обмежувалися цифровою сферою. Щоб ШІ був корисним для людей у фізичній сфері, вони повинні демонструвати «втілене» мислення, людську здатність розуміти світ навколо нас і реагувати на нього», — пояснює Парада.
Дві моделі ШІ Google для роботизації — це VLA (зір-мова-дія), побудована на основі Gemini 2.0, до якої були включені фізичні дії, та ER (втілене мислення), з навичками міркування.
Ці інструменти є шляхом до реальної користі, яку Парада підсумовує: «Моделі ШІ для робототехніки потребують трьох основних якостей: вони повинні бути загальними, тобто здатними адаптуватися до різних ситуацій; вони повинні бути інтерактивними, тобто вони можуть розуміти та швидко реагувати на інструкції або зміни в їхньому середовищі; і вони повинні мати спритність, тобто вони можуть робити ті речі, які люди зазвичай можуть робити своїми руками та пальцями, наприклад, обережно маніпулювати предметами».