Декількома словами
Розробка малих мовних моделей (SLM) є перспективним напрямком у сфері штучного інтелекту, що дозволяє зменшити енергоспоживання та підвищити конфіденційність обробки даних. Гібридний підхід, коли частина обчислень виконується на пристрої, а частина – у хмарі, може стати оптимальним рішенням для майбутнього розвитку ШІ.

Малі моделі ШІ як альтернатива енерговитратності великих мовних моделей
У стрімких перегонах за розвиток штучного інтелекту (ШІ) постійно з'являються новинки. Серед нових розробок все частіше виникають так звані малі моделі, small language models або SLM. Вони відрізняються від LLM, великих мовних моделей, які є рушійною силою ChatGPT або Google Gemini. Ці системи, простіші та орієнтовані на більшу ефективність ресурсів, іноді можна запускати на комп'ютері або навіть на мобільному телефоні.
Це протилежність роботі великих систем ШІ, які використовують хмарні обчислення. Це означає обробку інформації на великому обладнанні центрів обробки даних. І наслідки для навколишнього середовища будуть відчутні. Інвестиційний банк Goldman Sachs підрахував, що ШІ збільшить потреби в енергії центрів обробки даних на 165% до 2030 року. Прогноз зроблено на тлі ажіотажу навколо будівництва цього типу інфраструктури.
Американська компанія OpenAI планує інвестувати, разом із кількома партнерами, до 500 мільярдів доларів у будівництво центрів обробки даних. Лише у 2025 році Amazon, Microsoft, Google і Meta планують витратити понад 320 мільярдів доларів на цей тип інфраструктури. Водночас Європейська комісія оголосила програму виділення 200 мільярдів євро зі змішаним фінансуванням на будівництво центрів обробки даних, призначених для ШІ.
У цій битві за накопичення обчислювальних ресурсів малі моделі ШІ можуть стати більш стійкою альтернативою. Mistral Small 3.1, опція від однойменного французького стартапу, працює на Mac з 32 гігабайтами оперативної пам'яті, тоді як проєкт з відкритим кодом TinyLlama 1.1B можна розгорнути на комп'ютерах з більш ніж 8 гігабайтами оперативної пам'яті, і є навіть ті, хто тестував його на смартфонах. Як частину свого каталогу новинок ШІ, Google нещодавно запустив Gemma 3 1B, модель, розроблену для мобільних пристроїв. Ідея полягає в тому, щоб розробники інтегрували її у свої застосунки для виконання завдань без підключення до Інтернету.
«Малі моделі оптимізовані таким чином, що мають меншу кількість параметрів, тому в кінцевому підсумку мережа менша. Чим менша модель, тим вона ефективніша у споживанні енергії, оскільки їй потрібно менше операцій і менше місця для зберігання», — пояснює Вероніка Болон-Канедо, дослідниця ШІ в Центрі досліджень інформаційних і комунікаційних технологій Університету Ла-Корунья. Вона є однією з авторів дослідження, яке вивчає формули для сприяння більш екологічному ШІ.
«Якщо вам також вдасться запустити модель на пристрої, ви заощадите на необхідності надсилати кожен новий запит до центру обробки даних. Це, очевидно, має вартість передачі даних, а також великі центри обробки даних споживають більше енергії. Ви заощаджуєте все це, якщо робите це на власному пристрої», — коментує Болон-Канедо.
Звісно, малі моделі, які працюють на комп'ютері чи мобільному телефоні, менш точні та не підходять для будь-яких завдань. Все, що пов'язано з генерацією зображень, ускладнюється, наприклад. Хоча прогрес досягається швидко.
«Розробка малих мовних моделей, мультимодальних моделей і моделей міркувань високої якості швидко прогресує. Компанії активно готують ці моделі для комерційного застосування та для висновування (операції, які моделі виконують для відповіді на запит) на самому пристрої», — каже Джордж Цірціс, технічний директор Qualcomm в Європі. Його компанія, яка продає чіпи великій кількості брендів телефонів, два роки тому використала модель Stable Diffusion на мобільному телефоні для створення зображення і виявила, що це займає 15 секунд. Тепер це завдання займає менше секунди завдяки розробці процесорів, призначених для ШІ.
Важко підрахувати, але варто подумати, що економія енергії була б значною при запуску моделей на пристрої. «Великі центри обробки даних мають набагато потужніші машини, які споживають більше енергії. І у них багато проблем з охолодженням. На своєму комп'ютері чи пристрої ви заощаджуєте все це», — зазначає Канедо-Болон, яка додає інші переваги запуску систем локально. «Немає стільки проблем з конфіденційністю. Ваші дані не покидають ваш пристрій, вони не потрапляють у хмару. Крім того, швидкість збільшується, оскільки немає затримки, пов'язаної з надсиланням інформації, її обробкою та отриманням відповіді».
Згідно зі звітом Міжнародного енергетичного агентства, центри обробки даних, які зараз споживають 1,5% загальної енергії, становитимуть 3% у 2030 році. Вони досягнуть 945 терават-годин на рік, що перевищує потреби в енергії Японії. Робочі навантаження, пов'язані зі штучним інтелектом, споживатимуть на 30% електроенергії більше щороку.
«Обробка ШІ на пристрої зазвичай набагато ефективніша з точки зору енергії, ніж запит до моделей ШІ, розміщених у центрах обробки даних, особливо в застосунках, які потребують відповіді в режимі реального часу або майже в реальному часі», — зазначає Цірціс. Але локальне виконання має свої труднощі. ШІ споживає велику кількість енергії, і якщо він працює лише всередині пристрою, це впливає на його акумулятор. Ось чому виробники, такі як Qualcomm, розробили NPU (нейронні процесорні блоки), призначені для ефективної обробки висновування.
Компанія також застосувала цей тип процесорів до першого покоління AI PC, етикетки, винайденої для оголошення про прихід ШІ на комп'ютери. «Наша платформа Snapdragon X містить NPU з високою продуктивністю та енергоефективністю, розроблені для висновування генеративного ШІ. Конструкція цього обладнання дозволяє чіпам обробляти складні завдання ШІ на ноутбуці, одночасно піклуючись про акумулятор», — пояснює Цірціс.
Але ще належить побачити, для яких завдань буде корисним ШІ, що працює локально. У будь-якому разі, малі моделі не є заміною великим. «Будуть завдання, для яких нам може підійти продуктивність, яку надає нам менша модель, яка працює локально, ймовірно, для генерації тексту», — розмірковує дослідниця ШІ. «Але потім є завдання, які є більш обчислювально витратними, такі як глибше розуміння, міркування або мультимодальний ШІ (який інтегрує інформацію та знання в різних форматах, таких як текст, зображення або аудіо). Для цих завдань вам, ймовірно, знадобиться велика модель».
Деякі з завдань, які можна виконувати на власному пристрої, можуть бути написання простих текстів, створення резюме, читання рукописного тексту на зображеннях, переклад текстів або розшифровка аудіо. Цірціс згоден з тим, що майбутнє полягає у прийнятті гібридного підходу. Він прогнозує, що саме застосунки ШІ викликатимуть хмару, коли це буде потрібно, і вирішуватимуть інші завдання на самому пристрої. Це спосіб просування до балансу між продуктивністю та енергоефективністю.