Языковые барьеры в ИИ: Как не оставить никого позади
6 October 2023
Новые разработки в сфере искусственного интеллекта (ИИ) появляются каждый день. ИИ предлагает нам огромное количество возможностей для оптимизации труда, совершенствования систем образования, диагностики заболеваний, улучшения городской инфраструктуры, составления экономических прогнозов. Список этих возможностей бесконечен. А вот список тех, кто может ими пользоваться, весьма ограничен.
Эта статья, которая, кстати, написана человеком (дисклеймер, который нужен сейчас каждому тексту), будет опубликована на трех языках: английском, русском и казахском. Последний относят к категории «малоресурсных» языков. Это значит, что он недостаточно представлен или исследован в области ИИ и машинного обучения из-за ограниченного количества лингвистических ресурсов в сети.
Поэтому абсолютное большинство инструментов ИИ, которые доступны людям, владеющим английским, русским или другими популярными в мировой сети языками, не доступны людям, говорящим только на казахском языке.
Согласно данным Statista, рейтинг наиболее часто используемых для веб-контента языков по состоянию на январь 2023 года (по доле веб-сайтов) выглядит так: 1. Английский (58,8%); 2. Русский (5,3%) 3. Испанский (4,3%); 4. Французский (3,7%); 5. Немецкий (3,7%); 6. Японский (3%); 7. Турецкий 2,8%; 8. Персидский (2,3%); 9. Китайский (1,7%); 10. Итальянский (1,6%). Казахский язык не входит даже в первую двадцатку.
Согласно итогам последней переписи населения в Казахстане (2021), больше 13.768.000 жителей страны (больше 80%) сообщили о том, что они владеют государственным языком. О количестве владеющих казахским языком за пределами Казахстана точных данных нет.
Я – переводчик по образованию и специалист в коммуникациях по профессии. Язык – мой рабочий инструмент, а ИИ – сфера моих интересов и научных изысканий. Из всех инструментов ИИ: языковых моделей, генераторов картинок, виртуальных ассистентов, систем автоматического распознавания речи и текста, механизмов машинного перевода, аналитических инструментов для изучения данных, и инструментов для создания контента, которые я изучала и которыми пользовалась, лишь несколько работали на казахском языке. При этом качество их выдачи всегда оставляло желать лучшего.
Казахский язык в эпоху ИИ: борьба за репрезентацию
Современные инструменты ИИ, по сути, построены на прогнозе наиболее вероятного ответа, который основан на огромном количестве «обучающих данных» — цифровых баз контента, которые инженеры ИИ используют для построения моделей. Когда данных не хватает, как это происходит с «малоресурсными» языками, инструменты ИИ не работают или работают плохо.
“Большинство казахстанцев знают казахский язык и используют его в повседневной жизни. Однако, к сожалению, положение казахского языка в цифровом пространстве не соответствует его статусу в реальном мире. Это создает определенные барьеры и ограничивает возможности для его применения в цифровой сфере", -делится своими наблюдениями Данияр Муканов, программист и специалист по генеративному ИИ из Казахстана.
Уже 7 лет Данияр ведет блог об IT на казахском языке. Изначальной целью было дать площадку для диалога о технологиях, сейчас к этой миссии добавилась еще одна – создание контента на казахском языке для поддержания разнообразия тем, необходимых для обучения ИИ. Данияр призывает всех, кто может, создавать качественный цифровой контент на казахском языке в разных сферах и способствовать тем самым обучению ИИ.
Глобальный языковой дисбаланс: кто лишен доступа к ИИ?
Миллиарды людей по всему миру, так же как Данияр, не могут полноценно пользоваться возможностями ИИ из-за их языка.
По данным крупнейшего мирового справочника по языкам Ethnologue, в мире насчитывается 7.168 языков. Лишь около 20 из них имеют достаточно обучающих данных в сети, чтобы создавать системы обработки естественного языка (NLP).
Причем представленность языка в виртуальном мире не всегда связана с количеством говорящих на нем в реальности. Глобализация и социально-экономические изменения приводят к доминированию определенных языков в цифровом пространстве, часто в ущерб другим, даже более многочисленным по количеству говорящих, языкам.
Например, хинди, на котором говорят более 500 миллионов человек, тоже является «низкоресурсным» языком, в то время как западноевропейские языки, например, голландский, на котором говорят почти в 20 раз меньше, технически является языком с более высоким ресурсом. И таких «высокоресурсных» языков в мире от общего количества меньше 1%. Носители оставшихся 99%, не владея другими языками, по сути, оторваны от мирового технологического прогресса.
Невозможность получить доступ к передовым технологиям напрямую влияет на уровень социально-экономического развития общества, препятствуя доступу к информации, образованию и возможностям для развития. Это может усугубить цифровой разрыв между развитыми и развивающимися странами и усилить социальное неравенство на глобальном уровне.
Коллективный подход к преодолению языковых барьеров в ИИ
Эта статья - не готовая инструкция, это лишь призыв к действию. Растущий на наших глазах технологический разрыв на основе языка — это вызов, который требует коллективных скоординированных усилий от исследователей, правительств, образовательных учреждений и частных компаний.
Подход к решению проблемы обязательно должен быть общим. Точечными мерами здесь не обойтись. Ручная обработка данных для больших моделей – это не только трудозатратный, но и очень долгий путь. И у нас на это уже, возможно, нет времени. ИИ развивается с немыслимой скоростью. За последние 7 лет ИИ прошел путь от победы над человеком в настольной игре го в 2016 году до умения распознавать изображения и речь лучше человека, а также сдавать самые сложные экзамены в 2023 году.
Общий подход в преодолении языкового разрыва в сфере ИИ должен предусматривать совместную разработку технологий и образовательных программ, осуществление пилотных проектов и их тестирование, а также привлечение внимания к результатам через публикации и просветительскую деятельность.
Правительствам важно поощрять исследователей и разработчиков в этой сфере и обеспечить процессу прозрачность и достаточное финансирование.
Создание условий для развития технологий ИИ для «малоресурсных» языков принесет пользу не только отдельным нациям и странам, но и всему миру. Потому что сохранение мирового многообразия языков в сети так же важно, как в реальности. Оно дает нам возможность сохранить многообразие культур, а значит и способов понимать наш удивительный мир.
Статья была опубликована на сайте innovation.eurasia.undp.org.