В Татарстане проект реализован совместно с Академией наук Республики. В результате проделанной работы сформирован масштабный корпус данных, включающий произведения литературы, публикации прессы, учебные пособия.
Обновлённый ИИ-помощник ГигаЧат улучшил качество понимания и создания текста более чем на 30 языках народов России и стран СНГ. В их числе татарский, башкирский, чувашский, удмуртский, якутский, бурятский, осетинский, чеченский, карачаево-балкарский и другие. Поддержка каждого языка потребовала отдельной точечной доработки модели – качество ответов обеспечивалось за счёт тщательно отобранных обучающих данных. Всего с учётом других международных языков ГигаЧат может выполнять задачи более чем на 40 языках.
Партнёрами по сбору данных для обучения ИИ-помощника выступила ФГБУ «Дом народов России» и интернет-энциклопедия «Рувики», а также региональные академии наук, научные и образовательные организации и некоммерческие фонды, работающие в сфере сохранения локальных языков и культурного наследия народов России.
Поддержка национальных языков реализована в текстовом формате. Достаточно попросить ГигаЧат отвечать на нужном языке – и он будет его использовать, когда пользователь обращается на нём к ИИ-помощнику. Пользователи ИИ-помощника могут получать ответы, консультации и помощь в цифровых сервисах на родном языке: от поиска информации и помощи в учёбе до подготовки текстов, обращений и взаимодействия с государственными органами. Возможность общаться с ИИ на родном языке важна как для старшего поколения, получающего доступ к сервисам на родном языке, так и для подрастающего, осваивающего цифровую среду через ИИ-помощников. Такой подход помогает укреплять связь между поколениями, сохранять культурную и историческую память и создает основу для будущего развития сервисов и продуктов на национальных языках в образовании, культуре, туризме, медиа и других секторах экономики.
Как обучали языковую модель
Многие национальные языки исторически мало представлены в цифровой среде, поэтому Сбер выстраивает работу с широким кругом федеральных и региональных партнёров — университетами, библиотеками, медиа и культурными институтами, региональными ассоциациями, фондами и академиями наук, заинтересованными в оцифровке языкового наследия и развитии ИИ-сервисов на родных языках. Именно они помогают собирать и верифицировать языковые данные, необходимые для обучения модели. Носители языка также участвуют в разметке и оценке качества: контролируют корректность ответов модели, проверяют грамматику, стилистику и соответствие живой речи.
Обучающий набор по каждому языку включал от нескольких сотен тысяч до нескольких миллионов документов. Это архивные и современные тексты из фондов образовательных учреждений и библиотек, новостные и публицистические материалы медиапартнёров, а также учебные и научные тексты. Разнообразие источников обеспечивает высокое качество ответов и охват как литературного, так и разговорного языка. Команда также оптимизировала алгоритмы обработки национальных языков, что заметно повысило эффективность обучения. Такой подход позволил добиться значимого улучшения качества ответов при относительно компактных датасетах.
Антон Фролов, старший вице-президент, руководитель блока «Развитие генеративного ИИ» Сбера:
«Мы хотим сделать ГигаЧат по-настоящему массовым продуктом – таким, которым сможет воспользоваться каждый житель страны. В России используют более 270 языков и диалектов, и мы ставим перед собой задачу, чтобы как можно больше жителей могли общаться с нашим ИИ-помощником на родном языке. Когда человек может объяснить задачу своими словами, на языке, на котором он думает и чувствует, ИИ-помощник становится по-настоящему полезным инструментом в обычной жизни – будь то помощь ребёнку с учёбой, разбор юридического договора или инструкция по настройке новой техники».