ГлавнаяЛента

Статьи

Переводчик для роботов: возможности LLM в робототехнике

7 февраля, 17:18|
9647

Одним из наиболее заметных и значимых направлений, в котором развивался искусственный интеллект в 2023 году, стал генеративный ИИ, в частности большие языковые модели (LLM). Об этом ICT.Moscow писал, подводя итоги прошлого года. Тренд подтверждался как ранее — в осеннем обзоре «Сбера» о рынке робототехники говорилось о значимости интеграции LLM в устройства, так и уже в начале 2024 года. В январе подразделение DeepMind компании Google презентовало новые продукты для ускорения, эффективности и безопасности роботов. Ключевым из них стала система сбора данных AutoRT с интеграцией визуальной модели языка (VLM) и LLM, а также «Конституцией роботов» (Robot Constitution), основанной на трех законах робототехники Айзека Азимова.

Регулярно ко Дню робототехники, который отмечается 7 февраля, ICT.Moscow готовит обзоры рынка и обсуждает актуальные векторы развития индустрии. В этом году участники направления и отраслевые эксперты рассказали о тренде интеграции LLM в роботов и о том, какие возможности устройств могут появиться благодаря большим языковым моделям.

От слов к действию

Использование больших языковых моделей открывает широкие перспективы для развития как сервисной робототехники, которая используется для решения рутинных задач, не связанных с производственным цехом, так и для промышленной робототехники.

Появляется возможность управлять действиями не только сервисных, но и промышленных роботов с использованием естественного языка там, где еще недавно требовалось бы написать программу на языках программирования со сложным синтаксисом или задать алгоритм действий робота с помощью специализированного программного обеспечения. Несомненно, такая возможность выведет коллаборативную робототехнику на новый уровень, придаст ей ускорение в развитии и позволит расширить сферы применения.

Ольга Андриянова

операционный директор кластера информационных технологий «Сколково»

Один из подобных примеров использования LLM — применение ChatGPT от OpenAI специалистами из Делфтского технического университета в Нидерландах с целью разработки промышленных роботов для сбора томатов.

В компании «Лаборатория прикладного искусственного интеллекта» объясняют, что на нынешнем уровне развития больших языковых моделей уже возможна разработка ПО для домашних и индустриальных помощников, «способных к качественному выполнению задач, связанных с физическим трудом».

Уже сейчас GPT хорошо справляется с задачами первичной психологической помощи, созданием инструкций и суммаризацией знаний, что дает толчок для разработки умных помощников нового уровня. Эта же способность — создавать инструкции — позволяет роботам самостоятельно формулировать и выполнять задачи, ориентироваться в пространстве и анализировать входящую информацию.

Сергей Киселев

генеральный директор «Лаборатории прикладного искусственного интеллекта»

О том, что планирование роботами задач является одной из ключевых областей, где LLM могут оказать сильное влияние, говорят и в отечественной компании — разработчике автономных сервисных роботов «Фора Роботикс».

Благодаря своим возможностям в области продвинутого рассуждения и понимания естественного языка LLM могут помочь сформулировать точные и эффективные планы действий на основе инструкций, заданных на естественном языке.

Александр Кузнецов

генеральный директор «Фора Роботикс»

Примером реализации этой функции можно назвать кейс по интеграции большой языковой модели в систему управления роботом-манипулятором. С его помощью специалисты НИТУ МИСиС и «Сбера» летом 2023 года продемонстрировали возможность языковой модели составлять план решения различных задач, связанных с манипуляциями объектами.

LLM раскрывают способности

По оценкам аналитиков, дальнейшее совершенствование различных технологий, методов обработки данных и новых датчиков приведет к ускорению когнитивной (интеллектуальной) робототехники (раздел робототехники, занимающийся обучением роботов, основываясь при этом на знаниях психологии). Реализацию такого сценария ожидают в CCS Insight к 2028 году. В первую очередь аналитики говорят о развитии таких роботов в сферах розничной торговли, медицины, ухода за пожилыми людьми. Бросается в глаза то, что специалисты компании не называют в этом перечне сферу промышленности.

Тот факт, что роботам находится применение не только на производстве, объясняется появлением новых функций именно благодаря большим языковым моделям.

С появлением LLM диалог с роботом становится более осмысленным, могут добавляться новые функции, связанные с запоминанием контекста, лучшей структурированностью информации и возможностью обучаться.

Ольга Андриянова

операционный директор кластера информационных технологий «Сколково»

Помимо перечисленных сценариев, Артур Шимановский, заместитель директора центра робототехники Университета Иннополис, добавляет еще несколько направлений применения LLM в робототехнике:

  • персонализированная помощь, когда роботы могут выполнять задачи, соответствующие индивидуальным потребностям;
  • интеллектуальное решение проблем, когда устройства могут получить доступ к обширным базам знаний для решения сложных вопросов с учеными;
  • многоязычные возможности, которые проявляются в том, что роботы могут точно переводить с одного языка на другой, помогать в изучении языков и устранять пробелы в общении;
  • принятие этических решений, когда, анализируя этические рамки и моральные принципы, роботы могут оценить потенциальные последствия своих действий и сделать более осознанный выбор;
  • творческое выражение найдет свое воплощение тогда, когда роботы смогут создавать оригинальный творческий контент, учитывающий разные культурные нюансы.

В качестве примеров реализации некоторых этих функций можно привести интеграцию ChatGPT и других нейросетевых моделей компанией Boston Dynamics в робота-собаку Spot для использования ее как гида.

Схожую работу в середине ноября 2023 года провели в России исследователи из Центра системного проектирования «Сколтеха» и «Наносемантики», применив большую языковую модель для распознавания роботом объектов и генерации ответов на вопросы пользователя.

Однако предметом более фокусного внимания венчурных инвесторов сегодня становятся человекоподобные (антропоморфные) роботы, отмечают в «Сбере». Это частично объясняется тем, «что [они] могут раскрыть новые возможности больших языковых моделей».

Источник: отчет «Сбера» «Робототехника: технологический обзор, возможности для России»


Тренд на человекоподобных роботов

Созданием своих антропоморфных роботов интересуются многие технологические гиганты. Вслед за презентацией в 2022 году компанией Tesla робота Optimus в середине 2023 года стало известно, что китайская ByteDance также разрабатывает гуманоидного робота с большой языковой моделью. А канадская компания Sanctuary AI уже представила человекоподобного робота Phoenix. Не в первый раз инвестирует в робототехнические стартапы OpenAI и ее главный акционер — Microsoft. Одним из последних получателей средств стал стартап Figure.ai. Как пишут авторы канала Innovation & Research, интерес OpenAI и Microsoft «продиктован стремлением собрать более или менее полный стек технологий для «овеществленного» ИИ (Embodied AI), то есть совместить человекоподобного робота и продвинутую ИИ-модель, способную воспринимать естественные данные из окружающего мира и дообучаться на них».

В «Сколково», говоря о мировом рынке антропоморфных роботов, фиксируют его рост и выделяют разработки китайской компании Fourier Intelligence, которая специализируется на оборудовании для медицинской реабилитации, в частности человекоподобного робота GR-1.

Российский рынок антропоморфных роботов в инновационном центре также оценивают позитивно, однако конкретных цифр не называют и отмечают отсутствие схожих с мировым рынком темпов. К заметным игрокам этого направления эксперты относят компании «Промобот» и «Андроидная техника».

Заметными игроками являются такие компании, как «Промобот», резидент «Сколково» и лидер отечественного рынка сервисной робототехники, с его антропоморфной моделью Robo-C, а также «Андроидная техника» и робот «Фёдор».

Ольга Андриянова

операционный директор кластера информационных технологий «Сколково»

Амбициозные планы на рынке человекоподобных роботов в России, как сообщали СМИ в конце прошлого года, имеет «Сбер», который тоже объявил о начале разработки таких устройств.

Свои и чужие языковые модели

Для интеграции производители роботов выбирают как собственные ИИ-модели, так и решения, находящиеся в открытом доступе. Примером использования внутренних разработок может послужить компания «Промобот», которая для совершенствования своих роботов использует платформу разговорного ИИ — Promobot Nested Chat.

Другая отечественная компания по созданию автономных сервисных роботов — «Фора Роботикс», в портфеле которой такие антропоморфные устройства, как For-1, использует Open Source — языковую ИИ-модель LLaMa 2. Ее представила летом 2023 года Meta (запрещена в РФ) в партнерстве с Microsoft. В «Фора Роботикс» свой выбор объясняют тем, что модель «локальная, бесплатная. Мало занимает места. Не требует больших вычислительных мощностей для ответов. Может дообучаться».

Используем модель LLaMa 2, она нацелена на задачи генерации текста и диалогов. Эта конкретная модель отличается очень большим размером и предельно низким уровнем потери качества. С внедрением LLaMa 2 в наших роботов свобода общения с ними значительно расширилась: теперь роботы могут поддерживать большее количество различных тем, отвечать более развернуто, что создает впечатление общения с высокоинтеллектуальным устройством. Еще сейчас приглядываемся к Mistral OpenOrca.

Александр Кузнецов

генеральный директор «Фора Роботикс»


*В иллюстрации использовано фото НИТУ МИСиС

Расскажите знакомым:

Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0