GPT-4 учится на картинках

Что известно о новых возможностях нейросети

Разработчики ChatGPT представили новую версию искусственного интеллекта, которая теперь может работать и с картинками. Создатели называют GPT-4 самой эффективной языковой моделью. Ее главное отличие от предшественника — способность анализировать изображения. Например, ИИ может объяснить, что на картинке смешного. Кроме того, утверждается, что модель стала лучше справляться со сложными задачами, хотя в привычном диалоге это может быть незаметно.

Фото: Peter Morgan, File / AP

Фото: Peter Morgan, File / AP

Систему обучали на суперкомпьютерах Microsoft, корпорация стала одним из крупнейших инвесторов проекта. В компании заявили, что ее поисковик Bing уже поддерживает новую технологию. “Ъ FM” ее протестировал.

GPT-4 может понимать, что изображено на картинке, и использовать эти данные при решении задач, заявляют в компании OpenAI. Например, система способна считать информацию с диаграммы и объяснить ее. Разработчики обещают, что новая модель будет давать меньше неверных ответов, реже «сходить с ума» и говорить на запрещенные темы. Утверждается, что GPT-4 точнее предыдущей версии и даже сдала тесты по юриспруденции и математике лучше, чем 90% людей. Кроме того, она лучше справляется со сложными инструкциями. В качестве примера разработчики приводят задачу: перескажи сюжет Золушки, используя слова в алфавитном порядке, без повторов.

Несмотря на заявления Microsoft, в поисковой системе Bing модель работает неуверенно, убедился “Ъ FM”. Чат-бот заявил, что ему можно прислать ссылку на картинку, а он расскажет, что на ней изображено. Но вместо описания кадра из сериала «Твин Пикс» бот начал пересказывать пост с «Пикабу» (хотя и картинку мы взяли с этого ресурса).

Затем Bing получил ссылку на обзор иностранной прессы на “Ъ FM”, в котором рассказывалось о так называемом гаванском синдроме. Бот заверил, что способен расшифровать аудио, но сначала принял двухминутную запись за сорокаминутный подкаст, а, когда ему указали на ошибку, решил, что это репортаж про конфликт на Украине.

Разработчики заявляют, что обновленную технологию используют банк Morgan Stanley, приложение для изучения языков Duolingo, а также специальный сервис для незрячих Be My Eyes, который преобразует снимки в текстовое описание. Директор по науке и технологиям «Агентства искусственного интеллекта» Роман Душкин считает, что бизнес сможет найти и другие применения языковой модели: «GPT-4 теперь может воспринимать и изображения, и текст, то есть это двухмодальная система.

И я уверен, что в OpenAI на этом не остановятся и будут добавлять новые модальности, поскольку у них есть модели для генерации звуков и озвучки.

ChatGPT уже можно использовать в бизнесе. Самый простой способ интеграции — это замена рутинных операций по созданию каких-нибудь писем, справок, отчетов и так далее. ИИ это делает быстрее и зачастую качественнее, чем люди, которые сидят и выдумывают, что бы написать. Поскольку система стала двухмодальной, можно использовать генерацию каких-нибудь специфических изображений типа схем, графиков. То, что представили на презентации от Microsoft и OpenAI, конечно, воображение немного захватывает».

Однако OpenAI предупреждает, что новое программное обеспечение еще не совершенно и что во многих сценариях уступает человеку. По словам компании, у модели все еще есть серьезные проблемы с «галлюцинациями» (выдумыванием фактов), так что она не является надежной с точки зрения представления фактов. GPT-4 по-прежнему склонна настаивать на своей правоте, когда ошибается.

Так что в обозримом будущем технологию едва ли можно считать перспективной, отметил руководитель направления Data Science компании «1С-Битрикс» Александр Сербул: «Серьезные вещи ChatGPT нельзя доверять. Во-первых, система непредсказуема, потому что обучается на мусоре. Никто эту информацию детально не отсматривает. Речь идет об огромном массиве данных, интернете, какие-то книжках. Кроме того, там сотни миллионов параметров. Да, она учится, да, говорит связно. Но как выглядят психически больные люди? Они часто так же гладко разговаривают. Думаю, что бизнес попытается это применить в каком развлекательном аспекте или там, где требуется грязная работа».

Более продвинутый вариант новой языковой модели доступен подписчикам платного сервиса GPT4+. Воспользоваться им можно за $20 в месяц, правда, в России ресурс не работает.


Новости в вашем ритме — Telegram-канал "Ъ FM".

Илья Сизов

Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...