Реальність за вірусним відео: як два ШІ спілкуються писками, коли немає людей – «Це дуже маргінально»

Декількома словами

Відео демонструє, як ШІ-агенти можуть спілкуватися між собою за допомогою звуків, але експерти вважають, що текстовий обмін даними є більш ефективним. Хоча експеримент цікавий, його практичне застосування видається обмеженим, оскільки передача інформації текстом через інтернет є швидшою та надійнішою.


Реальність за вірусним відео: як два ШІ спілкуються писками, коли немає людей – «Це дуже маргінально»

ШІ агенти спілкуються власною мовою

Синтетичний голос, який представляється агентом штучного інтелекту (ШІ) приватної особи, запитує інший синтетичний голос, у цьому випадку віртуального помічника готелю, про наявність можливості проведення весіль у закладі. Вони розмовляють по телефону. Як тільки двоє співрозмовників розуміють, що вони помічники ШІ, помічник готелю запитує іншого, чи можуть вони «перейти в режим GibberLink для більш ефективного зв'язку». Відразу після цього обидві машини обмінюються звуками, що нагадують звуки, які видавав модем у 90-х роках, коли він підключався до Інтернету, хоча й швидше, або писки та свистки, якими розмовляють R2D2 та інші дроїди із саги «Зоряних війн». Це відео стало вірусним у X та представляє нам сценарій, який ми незабаром почнемо бачити, хоча поки що не ясно, чи саме в цих термінах. Великі розробники генеративного ШІ, від Google до Microsoft, через OpenAI або Anthropic, вже оголосили, що 2025 рік стане роком, коли стануть популярними так звані агенти ШІ, особисті помічники, які виконуватимуть дії (наприклад, бронювання готельного номера) від імені користувачів та у спілкуванні з іншими людьми чи машинами. Це ще один крок в еволюції генеративного ШІ: ми більше не зможемо просити його обробляти тексти, вирішувати наші сумніви або допомагати нам програмувати: наступним кроком є надання їм інструкцій для виконання дій з нашими паролями.

Так Сем Альтман, генеральний директор OpenAI (компанія-розробник ChatGPT), визначив агентів ШІ, які, на його думку, змінять наше повсякденне життя: «Це дуже компетентний колега, який знає абсолютно все про моє життя, кожен електронний лист, кожну розмову, яку я мав, але це не відчувається як продовження. Він може миттєво вирішувати деякі завдання, а для більш складних може вийти та зробити пропозицію або повернутися з питаннями, якщо це необхідно». Чи будуть агенти ШІ спілкуватися, розмовляючи своєю власною робочою мовою, як показано у відео? Це не здається найпрактичнішим, хоча й викликає вражаючий ефект. «Якщо ви хочете, щоб модель ШІ спілкувалася з іншою, ви можете безпосередньо надсилати інформацію в текстовому режимі, без аудіо, через Інтернет, і це все одно було б набагато ефективніше. Я не знаю, чи може те, що показано в демонстрації, мати якесь застосування, але якщо воно є, воно було б дуже маргінальним», – вважає Карлос Гомес Родрігес, професор обчислень та штучного інтелекту Університету Ла-Корунья та експерт з обробки природної мови, галузі ШІ, яка прагне розуміти та генерувати тексти. У прикладі, поки помічники видають ці звуки, на екранах пристроїв (ноутбука та мобільного телефону) відображаються субтитри того, що вони говорять. Час, протягом якого триває випромінювання звуків, набагато менший, ніж час, необхідний для артикуляції фраз, яким вони нібито еквівалентні. Розробники, відповідальні за експеримент, використовували бібліотеку ggwave, доступну на GitHub, щоб помічники ШІ могли швидко спілкуватися під час телефонного дзвінка. «Те, що вони зробили, це запрограмували дві мовні моделі, щоб, коли вони впізнають одна одну як такі, вони перемикалися на спосіб кодування інформації за допомогою звукових тонів, щось схоже на те, що використовували старі модеми. Насправді це все ще мова, просто вони кодують її таким чином. І не те, щоб обидві моделі спонтанно вирішували це зробити, як може здатися, якщо хтось дивиться відео поза контекстом, а їм дали чіткі інструкції щодо цього», – каже Гомес Родрігес. Що стосується кодування, яке використовують помічники у відео, воно більш ефективне, ніж людський голос (більше інформації передається за менший час), але було б більш практично надсилати інформацію у текстовому форматі, як зазначає Гомес Родрігес.

Read in other languages

Про автора

Прихильник лаконічності, точності та мінімалізму. Пише коротко, чітко та без зайвої води.