GigaChat научился распознавать изображения
Нейросетевая модель GigaChat Pro представила новые возможности. Теперь пользователи могут отправлять изображения в запросах для более глубокого анализа. Система определит, сколько людей изображено на фото, какая у них одежда и даже даст советы по стилю.
Кроме того, модель обучилась распознавать печатный и рукописный текст, а также графики и таблицы, анализируя содержащиеся в них данные. Например, студенты смогут загрузить изображение учебного материала или конспекта, чтобы получить короткое содержание текста, ключевую тему и наметить план дальнейшей работы с ним.
Функциональность доступна и для бизнес-клиентов через API.
Также в четыре раза увеличен размер контекста как для версии GigaChat Pro, так и GigaChat Lite — с 8 тысяч до 32 тысяч токенов. Если ранее в одном запросе можно было загрузить объем текста, состоящий из 15 страниц формата A4 (шрифт 14 pt), то теперь максимальный объем запроса вырос до 60 страниц. Кроме того, у модели повысился уровень математических знаний, а GigaChat Pro научился лучше форматировать текст: расставлять параграфы, заголовки, используя выделения и списки.
«Мультимодальность расширяет возможности и сферы применения больших языковых моделей, это ключевой тренд развития генеративного искусственного интеллекта. Теперь GigaChat умеет распознавать изображения — это еще один важный шаг в развитии нашего сервиса, который открывает широкий спектр новых возможностей для наших пользователей. В том числе появляется много сценариев использования GigaChat API для бизнеса. Кроме того, увеличение размера контекста системы в четыре раза позволит поддерживать более длительные диалоги с пользователями и проще реализовывать кейсы с механикой RAG», — отметил старший вице-президент, руководитель блока «Технологическое развитие».