Розповідаємо про нову модель ШІ від OpenAI, яка розуміє людську мову, реагує на емоції та миттєво перекладає текст різними мовами.
OpenAI представила нову мультимодальну модель GPT-4o під час заходу Spring Update. Це найпотужніша версія ШІ розробника, яка безплатно доступна всім охочим. Крім того, компанія анонсувала настільний додаток GPT-4 з оновленим призначеним для користувача інтерфейсом.
GPT-4o: жива мова та спілкування по відео
GPT-4o («o» походить від omni, з лат. «все») – це мультимодальна модель, що здатна приймати за вхідні дані будь-яку комбінацію тексту, звуку та зображення і генерувати відповіді в різних форматах. Наприклад, людина зможе сфотографувати меню іноземною мовою і попросити GPT-4o перекласти його, розповісти про історію походження страви, а також отримати рекомендації.
Можливості:
Підписуйтесь на Mediasat в Telegram: тут найцікавіші новини зі світу технологій
- працює одночасно з різними видами контенту (текст, фото, аудіо та відео);
- розуміє понад 50 мов і миттєво перекладає з них;
- здатна працювати в режимі «мова-в-мову» або живої мови (Voice Mode). Тепер модель слухає аудіо, а не розшифровує його;
- імітує людський голос, розпізнає емоції мовця і здатна жартувати.
Так, GPT-4o в режимі Voice Mode реагує на мову всього за 232 мілісекунди, що аналогічно часу реакції людини в розмові. У випадку з ChatGPT на базі моделі GPT-3.5 затримка становила 2,8 секунди, а на базі GPT-4 – 5,4 секунди. Під час демонстрації цієї функції співробітник OpenAI імітував важке дихання, а модель давала йому поради щодо поліпшення техніки. В іншій демонстрації ChatGPT попросили відтворити різні інтонації голосу. Також ШІ тепер можна перебивати під час бесіди й просити виконати пісню.
Усі вхідні дані у вигляді тексту, зображення і звуку обробляє одна нейромережа. Завдяки цьому з моделлю можна спілкуватися за допомогою відео – наприклад, показати їй через камеру смартфона ролик із теоремою з геометрії та попросити пояснити її.
Крім того, модель тепер здатна ідентифікувати емоції користувача, який спілкується з нею через камеру. Під час демонстрації співробітники OpenAI посміхнулися, а модель запитала: «У когось із вас день народження?», а потім заспівала пісню й озвучила побажання імениннику.
GPT-4o демонструє ту саму продуктивність, що й GPT-4 Turbo для текстів англійською мовою та коду, однак показує значні поліпшення для інших мов, зображень і звуків. Вона на 50% дешевша і працює вдвічі швидше, ніж попередник.
GPT-4o почнуть впроваджувати для користувачів ChatGPT тарифів Plus і Team найближчими тижнями, а скоро модель стане доступною для корпоративних користувачів. Вона запрацює і для безплатних користувачів, але з обмеженнями. Так, платні передплатники отримають уп’ятеро більше токенів для генерації запитів, а у передплатників Team і Enterprise цей ліміт буде ще вищим. Завдяки новій технології кількість токенів скоротилася, що спрощує і прискорює обробку тексту.
Розробники додатків можуть отримати доступ до GPT-4o за API (апаратно-програмним інтерфейсом). Найближчими тижнями в неї впровадять підтримку нових аудіо- та відеоможливостей, але спочатку вони будуть доступні тільки довіреним партнерам.
В OpenAI обіцяють, що в майбутньому модель зможе спілкуватися за допомогою відео в реальному часі. Наприклад, ChatGPT можна буде показати спортивну гру в прямому ефірі та попросити її пояснити правила. Це дасть змогу користувачам не платити за токени для генерації запитів. Технічний директор OpenAI Міра Мураті зазначила: «Важлива частина нашої місії – зробити передові інструменти штучного інтелекту доступними для всіх безплатно».
ChatGPT: більше безплатних опцій і настільний додаток
Для безплатних користувачів ChatGPT відкрили доступ до цілої низки опцій:
- інтелектуальних функцій рівня GPT-4;
- актуальних відповідей із посиланнями на джерела в інтернеті;
- аналізу даних і зображень;
- складання діаграм;
- магазину кастомізованих чат-ботів GPT Store.
Дизайн мобільного застосунку і сайту оновлять, а також у ChatGPT з’явиться застосунок для macOS. Він дасть змогу інтегрувати чат-бота в будь-які дії на ПК. За допомогою поєднання клавіш (Option + Пробіл) користувач зможе миттєво поставити запитання ChatGPT під час роботи в сторонньому сервісі.
У додатку також можна буде робити й обговорювати знімок з екрана та вести діалоги голосом. Для цього достатньо клацнути по значку навушників. Загалом інтерфейс додатка ChatGPT спростили з упором на голосові діалоги.
Додаток macOS уже доступний для користувачів тарифу Plus, а для інших він вийде найближчими тижнями. Версію для Windows планується випустити пізніше цього року.