В блоге Сбера рассказали о том, что фирменная нейросеть GigaChat научилась работать с изображениями как источником информации. Благодаря этому иллюстрации можно использовать для формирования контекста, при этом позволяя чат-боту за один запрос обрабатывать в четыре раза больше данных.
Нейросетевая модель, к примеру, может определять количество людей на фото, их одежду, после чего предоставить совет по стилю и так далее. Кроме понимания деталей, ИИ может также распознавать печатный или рукописный текст, формулы, графики, таблицы. Полученные данные нейросеть способна проанализировать.
Пример работы GigaChat с изображениями
В четыре раза был увеличен размер контекста как GigaChat Pro, так и версии GigaChat Lite – с 8 тыс. до 32 тыс. токенов. Разработчики заметили, что если раньше в один запрос можно было загрузить объем текста примерно на 15 страниц формата A4 (шрифт 14 pt), то теперь максимальный объем запроса вырос до 60 страниц. У моделей также повысился уровень математических знаний, а GigaChat Pro научился лучше форматировать текст, включая расстановку параграфов, заголовков, использование выделений и списков.
Функционал для бизнес-клиентов тоже расширили – теперь они могут использовать искусственный интеллект в еще большем числе сценариев, включая модерацию и классификацию отзывов, систематизацию контента, автоматизацию линии поддержки. Ретейлеры могут загружать изображение товара и просить сервис придумать к нему продающее описание.
Получить бесплатный доступ к модели GigaChat Pro пользователи могут через веб-версию, ботов Telegram и ВКонтакте. Для использования через веб-сайт понадобится авторизация с помощью Сбер ID. Разработчикам и бизнесу модели доступны посредством интеграции через GigaChat API.
Комментарии