Агрегатная оценка работы коллективного разума и прочие высокие технологии

Анна Майорова

В сентябре на сайте hpcwire.com, посвященном высокопроизводительным вычислениям, появилась сенсационная информация. Группа исследователей из университета штата Иллинойс под руководством Калева Лиитару объявила, что анализ на суперкомпьютере Nautilus большого массива текстов, опубликованных в СМИ на протяжении 30 лет "почти во всех странах мира", позволил предсказать время и место социальных возмущений в арабских странах и что ретроспективный прогноз близок к действительности. Также, по утверждению Лиитару, анализ новостей позволил с точностью до 200 километров определить место, где скрывался уничтоженный "морскими котиками" Бен Ладен.

Материалом для анализа послужили архивы газеты The New York Times с 1945 по 2005 год, базы данных по открытым источникам Summary of World Broadcasts с 1979 по 2010 год и базу англоязычных новостей Google News с 2006 по 2011 год — всего около 100 миллионов новостных публикаций.

Тон публикаций "Нью-Йорк Таймс" в 1945 году с "привязкой" к карте мира

Фото: www.uic.edu

Лиитару учитывал при анализе текстов время и место их публикации, а также тональность. Последний параметр регистрировался автоматически: суперкомпьютер, используя заранее подготовленные справочники, подсчитывал в текстах количество и соотношение "положительных" и "отрицательных" слов.

Смысл такого подсчета Лиитару демонстрирует на условном материале двух новостей об одном и том же событии - футбольном матче. Тон газетных отчетов в городах выигравшей и проигравшей команд будет отличаться, и это можно установить формальным анализом текстов. Такой же анализ применим для оценки реакции населения целых стран на политические события.

Интересны данные о "среднемесячной тональности" новостей "Нью-Йорк Таймс": с 1945 по 2005 годы она меняется от явственно положительного до столь же явственно отрицательного.

Еще более пессимистичен график, отражающий тональность публикаций в мировой СМИ в 1979-2010 годах.

Методика прогнозирования на основе анализа текстов обкатывалась на публикациях СМИ накануне и во время вооруженного конфликта на Балканах, а затем - на разных стадиях внутренних конфликтов в Египте, Ливии и Тунисе.

Тон публикаций "Нью-Йорк Таймс" в терминах "положительный" (выше нуля по оси ординат) и "отрицательный" (ниже нуля) с 1945 по 2005 годы
Тон публикаций "Нью-Йорк Таймс" в терминах "положительный" (выше нуля по оси ординат) и "отрицательный" (ниже нуля) с 1945 по 2005 годы

Тон публикаций "Нью-Йорк Таймс" в терминах "положительный" (выше нуля по оси ординат) и "отрицательный" (ниже нуля) с 1945 по 2005 годы

Тон публикаций "Нью-Йорк Таймс" в терминах "положительный" (выше нуля по оси ординат) и "отрицательный" (ниже нуля) с 1945 по 2005 годы

Динамика тона публикаций по данным BBC Summary of World Broadcasts в 1979 - 2010 годах
Динамика тона публикаций по данным BBC Summary of World Broadcasts в 1979 - 2010 годах

Динамика тона публикаций по данным BBC Summary of World Broadcasts в 1979 - 2010 годах

Динамика тона публикаций по данным BBC Summary of World Broadcasts в 1979 - 2010 годах

Для предсказания места, где такой конфликт возможен, использовано так называемое геокодирование. Географические названия, встречающиеся в текстах, преобразуются в географические координаты и таким образом "привязываются" к карте мира. Задача не так проста, как может показаться; например, слово "Каир" относится к более чем 30 различным географическим объектам. По данным исследования, упоминание географического объекта приходится на каждые 200-300 слов текста. Основой предсказания социальных конфликтов служит изменение тональности новостей.

Между тональностью новостей и их географической "привязкой" устанавливается связь. Концентрация "плохих" (т.е. выдержанных в отрицательном тоне) новостей позволяет прогнозировать место возникновения социальных катаклизмов, полагают авторы исследования.

Важным элементом исследования является визуализация его результатов. Если зеленым цветом отмечать "привязанные" к точкам на карте положительные новости, а красным — отрицательные, зоны напряженности можно в буквальном смысле увидеть.

Этот же метод географической привязки упоминаний объекта в СМИ исследователи из Иллинойса применили для "поиска" Бен Ладена. Оказалось, что 49% упоминаний имени террориста (ради упрощения анализировался единственный вариант написания) связаны с Исламабадом и Пешаваром. Место уничтожения Бен Ладена, город Абботабад, попал в газеты в одном контексте с разыскиваемым лишь один раз — в 2011 году. Но, пишет Лиитару, от Абботабада что до Исламабада, что до Пешавара — примерно 200 километров. Отсюда и делается вывод о предсказании местонахождения Бен Ладена с точностью до этого расстояния.

Исследователи полагают, что на базе построенных ими информационных моделей в будущем удастся предсказывать социальное поведение больших групп людей. Свою работу они рассматривают как шаг в развитии нового научного направления, называемого культуромикой.

Технологии прогнозирования событий на основе анализа информации в СМИ, а теперь и социальных сетях, естественно, интересуют не только исследователей, но и спецслужбы. Что творится в наших, — да и творится ли, — неизвестно, а вот американские ведут собственные изыскания.

Так, ЦРУ финансирует деятельность агентства The Intelligence Advanced Research Projects Activity (IARPA). Это не только по созвучию названия, но и по методам работы — аналог знаменитого агентства Пентагона DARPA (Defense Advanced Research Projects Agency). IARPA финансирует компании и ученых, которые представляются перспективными для решения стоящих перед агентством задач. Задачи формулируются по-разному, но направлены на достижение одной цели: технологическое и интеллектуальное превосходство США над, если употреблять советские штампы, потенциальным противником в новом, сетевом мире.

Названия поддержанных IARPA проектов красноречивы: "Агрегатная оценка работы коллективного разума", "Обнаружение будущих прорывных научных открытий", "Когнитивная нейробиологическая архитектура для понимания смысла".

DARPA, насколько можно судить по опубликованным названиям проектов, занимается примерно тем же: нейробиологическими технологиями, математическими методами исследований социальных сетей и т.п.

Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...