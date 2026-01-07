UARU

Бета-версия украинской LLM будет представлена весной 2026 года

Українська LLM
Фото: Андрій Калістратенко / Економічна Правда

Центр компетенций WINWIN AI при Министерстве цифровой трансформации Украины совместно с телеком-оператором «Киевстар» планирует запустить бета-версию национальной большой языковой модели (Large Language Model, LLM) весной текущего года. Об этом говорится в пресс-релизе «Киевстар».

Проект стартовал в 2025 году, когда «Киевстар» стал стратегическим партнером государства и операционным исполнителем разработки. За это время команды прошли путь от формирования концепции до реализации конкретных технических решений и сейчас завершают подготовительную фазу создания модели. На текущем этапе специалисты сосредоточились на масштабной подготовке данных и формировании критериев качества будущей модели.

Технологической основой для украинской LLM выбрана открытая AI-модель Gemma от Google. Эта модель нового поколения адаптируется к особенностям украинского языка, культурному и историческому контексту Украины. Таким образом, модель будет работать с украинским языком значительно лучше по сравнению с универсальными решениями.

Сейчас продолжается критически важный этап подготовки и верификации учебных данных. Качественная украинская LLM требует обработки не только открытых интернет-ресурсов, но и исторических архивов и документальных материалов. Данные собираются в партнерстве с государственными учреждениями, медиаорганизациями, университетами и научными институтами. В то же время значительная часть ценных материалов до сих пор существует исключительно в бумажном формате, что подчеркивает актуальность цифровизации культурного и научного наследия страны. Обучение модели будет проходить на специально отобранных корпусах текстов, из которых предварительно будут удалены персональные данные.

Для контроля качества разработки создан экспертный комитет, который работает по четырем направлениям: научно-техническому, правовому, культурно-историческому и языковому. Ключевая задача комитета заключается в разработке профессиональных бенчмарков. Эти тесты позволят объективно оценить качество, корректность и безопасность работы модели.

В январе 2026 года команда планирует получить три ключевых результата. Во-первых, первую верифицированную базу текстовых данных для обучения украинской LLM. Во-вторых, улучшенный токенизатор, адаптированный к особенностям украинского языка, что повысит скорость и производительность обработки текстов. В-третьих, собственную систему бенчмарков для оценки качества, эффективности и безопасности языковой модели.

Одновременно формируется юридическая рамка проекта. Она должна обеспечить прозрачную и безопасную работу с данными, а также соблюдение требований законодательства в сфере интеллектуальной собственности.

Первую версию украинской LLM планируют запустить в формате бета-тестирования весной 2026 года. Отдельно в январе 2026 года в приложении «Дія» состоится публичное голосование за название украинской языковой модели.

