Центр компетенцій WINWIN AI при Міністерстві цифрової трансформації України разом із телекомоператором «Київстар» планує запустити бета-версію національної великої мовної моделі (Large Language Model, LLM) навесні поточного року. Про це йдеться в пресрелізі «Київстар».
Проєкт стартував 2025 року, коли «Київстар» став стратегічним партнером держави й операційним виконавцем розробки. За цей час команди пройшли шлях від формування концепції до реалізації конкретних технічних рішень і наразі завершують підготовчу фазу створення моделі. На поточному етапі фахівці зосередилися на масштабній підготовці даних та формуванні критеріїв якості майбутньої моделі.
Технологічною основою для української LLM обрано відкриту AI-модель Gemma від Google. Цю модель нового покоління адаптують до особливостей української мови, культурного й історичного контексту України. Відтак модель працюватиме з українською мовою значно краще порівняно з універсальними рішеннями.
Зараз триває критично важливий етап підготовки й верифікації навчальних даних. Якісна українська LLM потребує опрацювання не лише відкритих інтернет-ресурсів, а й історичних архівів та документальних матеріалів. Дані збирають у партнерстві з державними установами, медіаорганізаціями, університетами та науковими інституціями. Водночас значна частина цінних матеріалів досі існує виключно в паперовому форматі, що підкреслює актуальність цифровізації культурної й наукової спадщини країни. Навчання моделі відбуватиметься на спеціально відібраних корпусах текстів, з яких попередньо вилучать персональні дані.
Підписуйтесь на Mediasat у Telegram: тут найцікавіші новини ТБ та телекому
Для контролю за якістю розробки створено експертний комітет, який працює за чотирма напрямами: науково-технічним, правовим, культурно-історичним та мовним. Ключове завдання комітету полягає в розробці професійних бенчмарків. Ці тести дадуть змогу об’єктивно оцінити якість, коректність і безпеку роботи моделі.
У січні 2026 року команда планує отримати три ключові результати. По-перше, першу верифіковану базу текстових даних для тренування української LLM. По-друге, покращений токенізатор, адаптований до особливостей української мови, що підвищить швидкість і продуктивність обробки текстів. По-третє, власну систему бенчмарків для оцінки якості, ефективності й безпеки мовної моделі.
Одночасно формується юридична рамка проєкту. Вона має забезпечити прозору та безпечну роботу з даними, а також дотримання вимог законодавства у сфері інтелектуальної власності.
Першу версію української LLM планують запустити в форматі бета-тестування навесні 2026 року. Окремо в січні 2026 року у застосунку «Дія» відбудеться публічне голосування за назву української мовної моделі.
