Оснащенный Gemini 1.5 Pro робот хорошо ориентируется в офисе Google и может сопровождать посетителей. Его даже можно попросить отвести вас туда, куда вам нужно.
Команда робототехников и специалистов по искусственному интеллекту из DeepMind компании Google продемонстрировала робота, способного проводить экскурсии по ее офисам, сообщает TechXplore. Ученые интегрировали робота RT-2 с Gemini 1.5 Pro. Это позволило ему выполнять сложные действия.
Этот робот может слушать человека, которого он сопровождает, анализировать его запросы и преобразовывать их в действия. Например, один исследователь попросил робота отвести его в место в офисе, где можно писать или рисовать. Робот обдумал просьбу примерно 30 секунд, а затем сопроводил человека к белой доске, прикрепленной к стене.
Робот выполняет подобные задачи благодаря Gemini 1.5 Pro. Модель была обучена понимать планировку офисного пространства площадью 850 кв.м. Благодаря наличию длинного окна контекста приложение анализировало видеозаписи офиса, собирая данные и строя карту помещений. Таким образом, робот может интерпретировать запросы пользователей и направлять их в нужные места.
Исследователи описывают такой опыт обучения как «многомодальную навигацию с инструкциями и демонстрационными турами». Во время просмотра видео робот мог одновременно обрабатывать разные элементы обстановки офиса, устанавливая связи между ними.