Декількома словами
Іспанія та Країна Басків виділяють 10,5 млн євро на створення цифрового лінгвістичного корпусу для еускери, щоб забезпечити виживання мови в епоху ШІ та дозволити цифрову взаємодію баскською мовою.
Уряди Іспанії та Країни Басків уклали угоду про інвестування 10,5 мільйонів євро до 2028 року в створення лінгвістичного корпусу для баскської мови (еускера). Ця ініціатива спрямована на забезпечення майбутнього мови в цифрову епоху та у світі штучного інтелекту (ШІ), оскільки еускера вважається "мовою, що знаходиться під загрозою цифрового вимирання".
Проект покликаний збільшити присутність еускери в цифровому просторі, зокрема в смартфонах, планшетах та програмах ШІ. Головна мета – дозволити користувачам взаємодіяти з цифровими інструментами та помічниками баскською мовою, таким чином гарантуючи її виживання в онлайн-середовищі.
Для досягнення цієї мети буде зібрано тисячі годин аудіозаписів та мільйони текстових сегментів. Ці дані будуть анотовані та використані для навчання алгоритмів машинного навчання. Очікується, що це значно прискорить розробку систем розпізнавання мовлення баскською, програм автоматичного перекладу та розмовних помічників.
Ініціатива під назвою Euskorpus була представлена в лютому цього року. Президент Країни Басків Іманол Прадалес наголосив на її важливості: "Ми маємо бути головними дійовими особами в новому цифровому світі, інакше ми будемо приречені на другорядну роль, яка нам не відповідає". За проектом Euskorpus стоїть некомерційна асоціація, до якої входять приватні партнери, такі як Vicomtech, Euskaltel, Kutxabank, Petronor, Iberdrola, CAF та група Mondragón, а також Баскська академія мови Euskaltzaindia.
Фінансування від баскського уряду складе п'ять мільйонів євро протягом двох років, а також 550 000 євро від департаментів культури, науки та університетів. Незважаючи на це, проект викликав критику з боку опозиції. Парламентський речник Bildu Пельо Отксандиано розкритикував "ігнорування ключових учасників, які були фундаментальними у розвитку мовних технологій останніми роками", згадуючи дослідницький центр Hitz Університету EHU, кластер Langune та Elhuyar.
Цей проект також є частиною ширшої національної стратегії Іспанії, яка включає розробку моделі штучного інтелекту "Alia", навченої, серед іншого, каталонською, галісійською, валенсійською та баскською мовами. Мета Alia – усунути недоліки, притаманні англоцентричним моделям ШІ, таким як ChatGPT, які можуть не враховувати специфіку та контекст іспанських мов.
Згідно зі Стратегією штучного інтелекту на 2024 рік, на проект Alia виділено 10 мільйонів євро, а його лінгвістичний корпус планується розширити до чотирьох трильйонів слів. Проте виникли питання щодо використання матеріалів, захищених авторським правом, під час навчання моделі Alia, що спричинило дискусії про правове регулювання в цій сфері.