Центр компетенций WINWIN AI при Министерстве цифровой трансформации Украины совместно с телеком-оператором «Киевстар» планирует запустить бета-версию национальной большой языковой модели (Large Language Model, LLM) весной текущего года. Об этом говорится в пресс-релизе «Киевстар».
Проект стартовал в 2025 году, когда «Киевстар» стал стратегическим партнером государства и операционным исполнителем разработки. За это время команды прошли путь от формирования концепции до реализации конкретных технических решений и сейчас завершают подготовительную фазу создания модели. На текущем этапе специалисты сосредоточились на масштабной подготовке данных и формировании критериев качества будущей модели.
Технологической основой для украинской LLM выбрана открытая AI-модель Gemma от Google. Эта модель нового поколения адаптируется к особенностям украинского языка, культурному и историческому контексту Украины. Таким образом, модель будет работать с украинским языком значительно лучше по сравнению с универсальными решениями.
Сейчас продолжается критически важный этап подготовки и верификации учебных данных. Качественная украинская LLM требует обработки не только открытых интернет-ресурсов, но и исторических архивов и документальных материалов. Данные собираются в партнерстве с государственными учреждениями, медиаорганизациями, университетами и научными институтами. В то же время значительная часть ценных материалов до сих пор существует исключительно в бумажном формате, что подчеркивает актуальность цифровизации культурного и научного наследия страны. Обучение модели будет проходить на специально отобранных корпусах текстов, из которых предварительно будут удалены персональные данные.
Подписывайтесь на Mediasat в Telegram: здесь самые интересные новости из мира технологий
Для контроля качества разработки создан экспертный комитет, который работает по четырем направлениям: научно-техническому, правовому, культурно-историческому и языковому. Ключевая задача комитета заключается в разработке профессиональных бенчмарков. Эти тесты позволят объективно оценить качество, корректность и безопасность работы модели.
В январе 2026 года команда планирует получить три ключевых результата. Во-первых, первую верифицированную базу текстовых данных для обучения украинской LLM. Во-вторых, улучшенный токенизатор, адаптированный к особенностям украинского языка, что повысит скорость и производительность обработки текстов. В-третьих, собственную систему бенчмарков для оценки качества, эффективности и безопасности языковой модели.
Одновременно формируется юридическая рамка проекта. Она должна обеспечить прозрачную и безопасную работу с данными, а также соблюдение требований законодательства в сфере интеллектуальной собственности.
Первую версию украинской LLM планируют запустить в формате бета-тестирования весной 2026 года. Отдельно в январе 2026 года в приложении «Дія» состоится публичное голосование за название украинской языковой модели.
