Google DeepMind представили две ИИ-модели Gemini Robotics, построенных на базе флагманских нейросетей компании. Они предназначены для помощи роботам в выполнении широкого спектра задач.
Первая – это Gemini Robotics, работающая на базе передовой усовершенствованной нейросети Gemini 2.0. Она функционирует по принципу «зрение-язык-действие» (VLA) с добавлением физических действий в качестве новой модальности вывода для управления роботами. Модель сильна в трех ключевых областях, которые необходимы для создания полезных роботов – это универсальность, интерактивность и ловкость.
Помимо способности обобщать новые сценарии, Gemini Robotics лучше взаимодействует с людьми и их окружением. Модель способна выполнять точные физические задачи, такие как складывание листа бумаги или открывание бутылки.
Источник: Google (здесь и на обложке)
Вторая модель Gemini Robotics-ER основана на Gemini с расширенным пространственным пониманием, при этом позволяет робототехникам запускать собственные программы, используя возможности воплощенного мышления (ER). Специалисты смогут подключаться к существующим контроллерам низкого уровня для управления движениями робота.
Разработчики уделили особое внимание безопасности. Исследователь Google DeepMind Викас Синдхвани рассказал, как лаборатория использует «многоуровневый подход», при котором Gemini Robotics-ER обучают оценивать безопасность выполнения потенциальных действий в заданном сценарии. Вдобавок, был создан ряд эталонных тестов и фреймворков для помощи с дальнейшими исследованиями безопасности в области ИИ.
В блоге Google DeepMind сообщается, что в настоящее время совместно с Apptronik ведется разработка следующего поколения человекоподобных роботов. Также лаборатория предоставила доступ к своей модели Gemini Robotics-ER ряду тестировщиков, в том числе Agile Robots, Agility Robotics, Boston Dynamics и Enchanted Tools.
Комментарии