Одной из главных технологических тем в ИИ в 2023 году безусловно стали генеративные нейросети. Прорыв в развитии был заметен у всех, кто в мире так или иначе занимается этим направлением: OpenAI представил нейросеть DALL-E 3 и модель GPT-4 Turbo, Google анонсировал чат-бота Bard и выпустил мультимодальную нейросеть Gemini, вышла новая версия Midjourney V5, Яндекс внедрил YandexGPT в «Алису» и другие продукты и нейросеть YandexArt в «Шедеврум» и рекламную сеть Яндекса, «Сбер» создал нейросеть GigaChat и презентовал Kandinsky 3.0.
О том, почему именно в этом году случился такой заметный прорыв в развитии генеративных нейросетей, а также о других трендах в ИИ этого года и последующем его развитии, мультимодальности и не только ICT.Moscow поговорил с Александром Крайновым, директором по развитию искусственного интеллекта в Яндексе.
— Заметные новости о GPT и генеративных нейросетях сейчас появляются практически каждую неделю. Согласны ли вы, как эксперт, с тем, что генеративные нейросети — главный тренд 2023 года?
— Да, согласен, причем они уже не в первый раз становятся популярными. В этом году нейросети стали быстро генерировать хорошие, реалистичные изображения по пользовательскому тексту. Такого раньше не было, и это оказалось очень популярно и востребовано. Но даже это меркнет по сравнению с генерацией текста.
В целом генерация текста по запросу или продолжение написанного текста — тоже не новая история. Собственно, голосовые ассистенты или классические задачи машинного перевода — это тоже генерация текста. Но что изменилось — довольно сильно увеличился контекст, который понимает нейронная сеть. Заметно улучшилось качество генерации. Нейросеть стала демонстрировать огромные успехи в продолжении конкретного текста.
— Почему произошел такой скачок в развитии?
— Сошлось несколько факторов. Разработчики научились обучать очень крупные по размеру нейросети на достаточно большом объеме данных. Но также в этом году произошло радикальное изменение: оказалось, что если нейросеть дообучать на очень хороших текстах, написанных людьми по принципу вопросов-ответов, то происходит потрясающий прогресс в ее качестве.
Нужно понимать, что в процессе дообучения нейросеть новых знаний почти не получает, поскольку объем данных для дообучения ничтожно мал по сравнению с тем, который был на этапе предобучения. Условно, есть два этапа. Первый — когда нейросеть просто впитывает знания, «читает» тексты из интернета. А второй — когда ее учат отвечать полезно на заданные вопросы.
Второму этапу было уделено огромное внимание, и оказалось, что это действительно дает очень большой результат. Компания OpenAI в конце прошлого года это продемонстрировала, и все поняли, что нужно серьезно вкладываться в это направление. Конечно, другие компании тоже занимались подобным дообучением, но двигались в этом направлении они медленнее.
— Вы сказали, что развивается несколько направлений: в частности, генерация изображений, текста. Но сейчас довольно большое значение приобретают мультимодальные нейросети. Можно ли их также назвать трендом 2023 года или пока еще рано?
— Правильнее будет называть их трендом 2024 года. Сейчас ими активно занимаются, но сказать, что это действительно хорошо работает, я пока не могу. Бум мультимодальности — впереди. Может быть, в 2024 году, а может быть, и позже, потому что иногда возникают неожиданные препятствия.
Например, есть спорное среди ученых понятие — «модель мира»: есть она или нет, нужна ли она. Сейчас нейросеть, которая генерирует текст, может обучаться только на тексте — соответственно, она получает ограниченное и неполное представление о мире, ведь значительная часть информации передается, например, только через изображения (вообще, через видео, но, по сути, это последовательность изображений). Поэтому самый большой вызов — одновременное обучение нейросети и на текстах, и на статических изображениях, а дальше — еще и на видео, чтобы можно было общаться с нейросетью с помощью различных средств (например, показать картинку и спросить, что на ней происходит). Это уже существует, но недостаточно развито, чтобы считаться полезным и массовым продуктом.
Также если для людей разница между изображением и видео не очень большая, то в Computer Science видео намного сложнее из-за больших объемов данных, появления новой связи — последовательности изображений и их изменений. Это так называемое проклятие размерности: когда добавляется больше измерений данных, становится тяжелее обучать алгоритмы, потому что сложнее найти закономерности. Мы, люди, легко распознаем видео, а для компьютера эта задача очень сложная с вычислительной точки зрения.
— То есть основной тормозящий фактор развития генеративных нейросетей — нехватка вычислительных мощностей?
— Один из. Когда мы в Яндексе обучаем наши нейросети, мы экспериментируем с архитектурой сетей (видом формулы) или с данными (например, с последовательностью, в которой они отдаются нейросети). Эксперименты с данными сложно проводить, обучая маленькую модель: не получится сначала провести эксперимент на небольшой модели, а потом воспроизвести точно такой же успех на большой. Вообще, каждый эксперимент является очень дорогим из-за размера нейронной сети. А если проводить много экспериментов, то это отнимает много времени или денег, а зачастую и того, и другого.
Еще очень важно, что в этой области очень многое решается эмпирически. У нас нет никакого опыта, нет четкой, доказанной научной теории, что обучать нужно вот на таких данных, а потом на таких — и нейросеть будет умнее. Обучение нейросетей часто сравнивают с обучением людей, но это не совсем правильно. Алгоритмы, как бы мы ни говорили, что они сделаны наподобие нейронной сети человека, — это все-таки совершенно другая вещь, математическая формула иного вида и с иным «аппаратным обеспечением». Поэтому весь наш опыт, связанный с обучением людей, нерелевантен по отношению к нейросетям.
Весь наш опыт, связанный с обучением людей, нерелевантен по отношению к нейросетям
— На сегодняшний день нейросети достигли определенного уровня, когда они могут эффективно решать некоторые бизнес-задачи. В каком объеме мы можем говорить о реальной бизнес-эффективности ИИ в целом, не только генеративного?
— Чтобы использовать любые алгоритмы машинного обучения, бизнес-задача должна иметь определенную степень зрелости. Если все происходящее оцифровано и измеряется, если улучшение какого-то показателя на процент или доли процента для бизнеса значимо — а это обычно характерно для зрелых бизнесов, — то тут применение ИИ важно, оправданно и возможно. Искусственный интеллект — это способ сделать процесс лучше и оптимальнее, но редко он является способом построить совершенно новый процесс, которого не было.
Конечно, есть бизнесы, где внедрение ИИ не даст ничего. Есть такие, где внедрение нейросетей позволит на несколько процентов что-то улучшить: повысить выручку, маржинальность, снизить расходы. А есть сервисы, где искусственный интеллект — и есть сама основа. Нет простой формулы: «Внедрите у себя ИИ — и вы получите сразу +10% к выручке».
— А в каких случаях применение ИИ ничего не даст?
— В сферах, где мало данных и невозможно построить прогноз, нет информации для обучения. Также ИИ неприменим там, где деятельность не оцифрована и невозможно измерить, что становится лучше. Если в бизнесе давно и качественно измеряется что-то, есть понятные результаты и можно с большой точностью предсказать, что получилось, тогда применение искусственного интеллекта возможно. Если нет — то нет.
— Какое место у генеративного искусственного интеллекта во всей этой «вселенной»: оно сейчас малозначимо, очень значимо или уже доминирует?
— Я думаю, очень значимо, доминирует. Генеративный искусственный интеллект серьезно все поменяет, по трем причинам.
Первая — очень широкая область применения. Огромное количество профессий и занятий связано с тем, что на выходе порождается текст. Это не только писатели, но и юристы, врачи, ученые, учителя, программисты. В этих и многих других сферах, которые сложно спрогнозировать, постепенно будет популяризироваться применение генеративного ИИ. Это не значит, что человека убрали — машину поставили. Это значит, что люди в своей работе начнут использовать нейросети все чаще. И мест, где это окажется полезным, — огромное количество, все не посчитаешь даже.
Вторая важная вещь — искусственный интеллект чуть ли не в первый раз становится инструментом индивидуального пользования. Например, внутри поиска Яндекса работает искусственный интеллект, но люди этого не чувствуют. Это не их ИИ, они пользуются не им, а поисковой строчкой. То есть для человека его задачи решает поиск, а то, что ИИ улучшает качество поиска, — это уже полностью на стороне разработчика. А генеративный ИИ уже перестает быть какой-то теорией, чем-то из газет, он становится инструментом самого человека, с которым он имеет дело каждый день, чем пользуется. Соответственно, отношение к искусственному интеллекту начинает резко меняться. Это приведет к тому, что у людей будет рождаться больше идей, как его использовать, применять, будет больше спрос, возможно, будет больше инвестиций в эту область. Хотя, казалось бы, куда уже больше.
И последний важный аспект перекликается с предыдущим пунктом. Я думаю, что настал переломный момент с точки зрения ухода страхов, связанных с искусственным интеллектом. Люди начинают им активно пользоваться, и искусственный интеллект теперь будет просто вещью, которая может генерировать текст, со всеми ее преимуществами и недостатками. И мысли о том, условно, захватит он мир или нет, уйдут. Так же, как это произошло с компьютерами: когда они начали появляться, их тоже боялись — как сейчас происходит и с ИИ. Но все страхи ушли, когда компьютеры стали массовыми.
— Есть и другие страхи, связанные с ИИ-системами: надежность, релевантность контента, который они дают. Как разработчики управляют этими рисками?
— Есть такая шутливая фраза, построенная на основе диалога в фильме «Я, робот»: говорят, что искусственный интеллект никогда не сможет создать великое произведение искусства, — а человек, конечно, сможет. ИИ нельзя что-то доверить — а кому можно? Не надо ничего доверять или не доверять искусственному интеллекту только потому, что это искусственный интеллект.
Это же программа или сервис, у него есть свои измеримые показатели надежности и качества работы. Если показатели надежности достаточные — следует им пользоваться, нет — давайте не пользоваться.
— Вернемся к вашей мысли о том, что ИИ становится инструментом индивидуального использования. Значит ли это, что в скором будущем будут появляться персональные помощники под запросы людей или, например, под различные бизнес-задачи по аналогии с мобильными приложениями сегодня?
— Беседа с нейрофизиологом Вячеславом Дубыниным навела меня на мысль, что у человека внутри, условно говоря, тоже не одна нейросеть, а несколько. Биологически она единая, но, когда человек решает квадратное уравнение или занимается музыкой, работают разные нейроны. Возможно, примерно так же будет устроен персональный ассистент: появится какой-то один общий помощник, у которого под капотом много маленьких и не связанных друг с другом, либо отдельные специализированные помощники, либо, скорее всего, — гибриды.
В бизнесе многие захотят (уже многие захотели, а кто-то и делает) создать такие же текстовые генеративные модели, но обученные строго на своих бизнес-задачах. Они могут быть относительно небольшими по размеру, но это модель, которая знает всю внутреннюю документацию компании. И она в этом плане будет максимально полезным сотрудником.
— Бизнесу понадобится свой штат специалистов, чтобы поддерживать, развивать, контролировать такие нейросети? Или это может быть какое-то коробочное решение?
— Я больше верю в коробочное решение, потому что для найма своих специалистов бизнес должен быть крупным или сильно завязанным на нейросетях.
Специалисты, которые обучают нейросети, редкие, дорогие, и они идут туда, где есть такие же специалисты, потому что им это интересно, они вместе будут решать какие-то сложные задачи. Должна быть команда, и в ней должен быть лидер с точки зрения технологий, знаний, который способен понимать все последние научные достижения и передавать информацию остальным. Не то чтобы это было невозможно в рамках отдельно взятой компании — возможно. Но мне все-таки кажется, что будущее — за коробочными решениями.
Еще есть такое правило: любая технология, какой бы сложной она ни была на старте, со временем становится Commodity (предметом потребления — прим. ред.). Возможно, пройдет 10 лет — и обучать такие генеративные модели для собственных внутренних нужд будет очень легко, этим сможет воспользоваться каждый. С другой стороны, наоборот, все может усложниться и даже не будет возникать идей попробовать сделать что-нибудь самостоятельно. Как с процессорами: никому не приходит в голову производить их самостоятельно, если нужны компьютеры. Это слишком сложная история. Может быть, так произойдет и с ИИ: использовать коробочное решение будет гораздо проще.
— Базы данных, на которых обучаются генеративные нейросети, ограничена определенной временной отсечкой. Обновляется ли информация в таких моделях и может ли это происходить в реальном времени?
— Есть долгий процесс сбора данных, процесс обучения тоже идет не быстро, могут возникать какие-то проблемы. Еще очень важный момент: даже если мы обучили нейросеть на существующем, прямо сегодняшнем материале, как научить ее понимать, что тексты, написанные год назад, уже не совсем корректные? Нейросеть должна понимать, что есть немного текстов с более актуальными датами и теперь нужно отвечать с их помощью. А это тоже не всегда возможно, потому что не у каждого текста и источника обозначена дата.
С этим, конечно, можно что-то сделать. Получается так: есть ресурсы, где информация меняется быстро, и можно при ответе ссылаться на них. Например, с помощью алгоритма можно прочитать содержимое каких-то сайтов, сделать короткую выжимку из каждого в отдельности, еще раз ее отранжировать и показать пользователю в качестве ответа на вопрос со словами «там написано вот так».
— Как нейросети защищают от грязных, нерелевантных данных в процессе обучения? Этим занимаются ИИ-тренеры или процесс автоматизирован с учетом того, что объемы данных колоссальные?
— Нейросеть не нужно защищать от грязных данных, она должна их видеть тоже. Задача ИИ-тренера — не дать нейросети правильные знания, а научить ее находить их самостоятельно.
Например, у ИИ-тренера есть какой-то вопрос на входе, и он не понимает, какой ответ — правильный. Начинает его искать: идет в интернет, видит первый попавшийся источник, но сомневается и не доверяет ему. Начинает искать первоисточник, по каким-то признакам его идентифицирует. И вот таким образом, проводя небольшое расследование, находит, насколько это возможно, достоверную информацию и избегает недостоверной. Что должна делать нейросеть? Повторять примерно тот же самый путь. То есть тренеры дают не знания, они дают путь, как найти. Или, скажем так, дают нейронной сети основания сомневаться даже в самом популярном ответе и перепроверять.
Нейронная сеть должна повидать всякого
На первом этапе обучения очень важно, чтобы у нейросети оказались все полезные знания, которые существуют. Нужно чистить данные только от явного дублирования и от «шума» (то есть от информации с ошибками или бесполезной информации — прим. ред.). Вспомните кого-нибудь из своих знакомых, кто, с вашей точки зрения, самый мудрый, этичный, к кому можно прийти за сложным советом. Скорее всего, выяснится, что этот человек в жизни повидал всякого. Это значит, что нейронная сеть тоже должна в определенном смысле повидать всякого. Для того, чтобы ответить аккуратно, этично и не сказать какой-нибудь ерунды, нужно знать, что бывает и обратное. То есть вначале нейронная сеть обучается всему, она видит всю информацию, а потом обучается, как говорить: на что отвечать, на что не отвечать, как перепроверять информацию, как сомневаться, как сформулировать ответ таким образом, чтобы не ввести в заблуждение.
— Какие аспекты замедляли развитие ИИ в 2023 году?
— Мне кажется, что все хорошо идет. Мы много пережили всяких хайпов. Появляется какой-нибудь термин, например Big Data, и все ожидают неизвестно чего. Проходит какое-то время — и вроде больше ничего не произошло. Что касается искусственного интеллекта, это неожиданная и интересная история: каждый год мы что-то выдумываем, фантазируем, но проходит год — и все оправдывается, и даже происходит что-то сверх ожиданий. Развитию ничего не мешает, ИИ реально быстро развивается.
— Сохраняется ли международное сотрудничество в контексте ИИ?
— Страновых барьеров нет. От страны может зависеть применение, везде своя регуляторика и свои сложившиеся представления общества. А в развитии технологии конкуренция идет между университетами и компаниями. Computer Science — потрясающая область человеческого знания с точки зрения открытости. Такой, по-моему, нет нигде: очень много публикуется в открытом доступе, в рамках Open Source, выкладывается много датасетов.
Computer Science — потрясающая область человеческого знания с точки зрения открытости
— Недавно был представлен AI Pin, где генеративная нейросеть — ключевой инструмент управления. Как вы в целом оцениваете перспективность таких устройств, их применимость?
AI Pin от стартапа Humane — устройство нового типа, в основе которого лежат ИИ-алгоритмы: GPT, распознавание голоса, жестов и изображений. Источник: Humane
— Там не только генеративный искусственный интеллект, там также есть камера, с помощью которой все происходящее может распознаваться. Я думаю, что наверняка такие устройства найдут промышленное применение, профессиональное. Почему-то из-за дороговизны, сложности не получили своего распространения экзоскелеты — костюмы, которые улучшают возможности человека. Но, может быть, эти устройства будут какой-то частью таких «экзоскелетов для мозга» — вещами, которые будут улучшать наши когнитивные способности и способности делать выводы, станут некими ассистентами, которые всегда смотрят и помогают.
— Помимо мультимодальности, что еще значимое может случиться в следующем году в сфере ИИ?
— Основные изменения будут касаться улучшения умности генеративных сетей. Будет плавно происходить улучшение генерации текста, мы не увидим какой-то такой ступеньки. В каких-то узких областях возможны заметные скачки в качестве, а в целом, я думаю, нас ожидает период монотонного роста, но от этого не становится менее интересно. Потому что в процессе этого будет происходить пробивание необходимого уровня качества для различных коммерческих внедрений и применений.
В других областях, не связанных с генеративным ИИ (беспилотные автомобили, автономные доставщики и т.д.), все также будет развиваться планомерно. Прорыв уже произошел, новый скачок вряд ли будет. Сейчас стремительно растет и совершенствуется именно генеративный искусственный интеллект. С ним будет появляться очень много различных внедрений в самых неожиданных случаях, о которых мы еще даже не подозреваем.
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.