Завдяки алгоритму машинного навчання і великим даним перевіряють звіти і збирають відомості про пошкоджену війною інфраструктуру в Україні
5 July 2022
Війна в Україні завдає чималої шкоди і людям, і інфраструктурі. Організація Об’єднаних Націй повідомляє, що загинуло понад 15 000 людей, і ще більше отримали поранення. За даними Київської школи економіки (KSE) — і ці цифри підтверджує уряд України — бомби й інші вибухові засоби щотижня руйнують комерційну та житлову інфраструктуру на суму 4,5 мільярда доларів.
Під час гуманітарної кризи динаміка подій може змінюватися дуже швидко, а для своєчасного ухвалення рішень потрібна ключова інформація. Коли інформації замало, вона не дає користі. Коли ж її забагато, вона може потребувати чималих ресурсів та оперативної обробки для розуміння реальної ситуації і планування відповідних кроків.
Надзвичайно важливо виявляти пошкоджені в Україні об’єкти інфраструктури, щоб визначати, де саме і кому саме потрібна допомога, і на основі цієї інформації розподіляти ресурси, необхідних для відновлення. Зазвичай такий аналіз включає обробку запитів щодо дати, часу, розташування об’єкта, а також причини й типу пошкодження. Але часом буває складно отримати точну — і своєчасну — інформацію.
Щоб вирішити цю проблему, Представництво ПРООН в Україні розробляє модель, яка використовує технології машинного навчання й обробки природної мови для аналізу тисяч звітів і своєчасного отримання найпотрібнішої інформації для ухвалення стратегічних рішень.
Класифікація ключової інфраструктури
Інтелектуальний аналіз текстів — поширена технологія обробки даних. Додаткова перевага цієї моделі — в її гнучкій здатності аналізувати текст, що містить викладені у звіті факти, а відтак класифікувати їх за ключовими видами інфраструктури.
Цей процес ґрунтується на ACLED — базі даних із відкритим кодом, де оперативно збираються глобальні дані. Для пілотного тестування моделі оцінювання інфраструктури було проаналізовано близько 8 727 звітів про збройну агресію та подальші події у проміжку між 24 лютого та 24 червня 2022 року (перші чотири місяці війни).
Проте у базі даних бракувало таксономії, яка б класифікувала широке коло згадок щодо інфраструктури. Така класифікація зекономить час на обробку інформації, а також допоможе звузити рамки аналізу, якщо визначити конкретні сфери інтересів і пріоритети.
Використовуючи отриманий в інших країнах сукупний практичний досвід, було розроблено унікальну модель для класифікації всього обсягу пошкодженої інфраструктури за дев’ятьма категоріями: промисловість, логістика, енергетика/електропостачання, телекомунікації, сільське господарство, охорона здоров’я, освіта, житло і підприємства.
Якщо, наприклад, у звіті вказувалося, що в Києві внаслідок бойових дій було зруйновано житловий будинок, модель відносила цей зареєстрований випадок до найдоречнішої категорії — в цьому разі до категорії «житло».
Принцип дії моделі
Для кожного з дев’яти видів інфраструктури було обрано набір відповідних ключових слів. Відтак ключові слова порівнювалися з текстами звітів. І ключові слова (які використовуються для позначення певного виду інфраструктури), і звіти були перетворені на цифрові вектори, при цьому по одному вектору мали кожен вид інфраструктури і кожен звіт.
Основна мета полягала в тому, щоб виміряти подібність між двома числами, так звану косинусну подібність: що менша відстань між звітом і видом інфраструктури, то сильніший семантичний зв’язок між ними.
Цей підхід ілюструє наведений нижче приклад.
Текст: «19 травня 2022 року біля села Мажугівка в Чернігівській області фермер на тракторі підірвався на міні, отримавши травму ноги».
Модель виявила достовірну 32-відсоткову відповідність категорії «сільське господарство».
Приклад відповідає мінімальному порогу в 18 %, який було встановлено для визначення достовірності семантичного зв’язку між видом інфраструктури та звітом.
Окрім поєднання звіту з відповідним видом інфраструктури, модель за замовчуванням також допомогла визначити причетних до події, час, конкретне місце та причину кожного пошкодження інфраструктури. Ці характеристики вже включені до ACLED, але завдяки прямому зв’язку між звітом і видом інфраструктури ця ключова інформація дає більш чітке розуміння ситуації для планування подальших кроків.
Наведене нижче зображення — візуалізація даних моделі, яка вже використовується і показує територіальний розподіл пошкоджень інфраструктури за видом, який можна далі картографувати, щоб зрозуміти, які були причини і хто був причетний. Ці висновки також відіграють вирішальну роль у розробці стратегій реагування, особливо з огляду на захист і безпеку команди з оцінювання ситуації на місцях.
Відтворення моделі в різних умовах
Користь цієї моделі машинного навчання виходить за рамки класифікації видів інфраструктури. Її можна використовувати у ширшому контексті планування гуманітарної діяльності та заходів на підтримку розвитку. Саме тому Представництво ПРООН в Україні вже продублювало цю модель, використовуючи більше різноманітних і оперативних даних, отриманих із Twitter, щоб проаналізувати настрої та краще зрозуміти потреби та проблеми тих, хто постраждав.
Традиційний спосіб обробки інформації вручну не лише трудомісткий, але й може не забезпечувати своєчасні висновки, необхідні для ухвалення обґрунтованих рішень, особливо якщо враховувати обсяги доступної нині цифрової інформації. А як показує війна в Україні, можливість надати своєчасні висновки дає змогу врятувати людські життя.
Натомість ця модель забезпечує оперативність і ефективність, завдяки чому можна в певних ситуаціях скоротити оперативні витрати. Розробку цієї моделі підтримує підрозділ ПРООН із підтримки рішень, який координує оцінювання як власними силами, так і у співпраці з низкою партнерів. Семантичний детектор пошкоджень інфраструктури доступний для всіх за цим посиланням: http://tinyurl.com/semdam.
За додатковою інформацією звертайтеся до старшого консультанта з цифрової трансформації ПРООН в Україні Аладдіна Шамуґа: aladdin.shamoug@undp.org.