Темная сторона веба

Текст: Алексей Гостев

В Сети раз в 50 больше страниц, чем могут проиндексировать Google или "Яндекс". Чтобы сделать "темный веб" доступным для пользователей, разработчики решили прибегнуть к помощи генетики.


В фильме "Ночной дозор" у героев была возможность искать на страницах интернета невидимую обычным пользователям информацию. Стоило включить специальную опцию в "Яндексе" — и "бойцу магического фронта" оказывались доступны странички колдунов, ведьм и новостные публикации о сборищах всякой нечисти. "Темный веб" есть не только в русском фэнтези, он вполне реален. Считается, что примерно 90% или даже 98% информации не просматривается в поисковиках. Это могут быть сведения на непопулярных страничках с единичным числом заходов, которые не учитываются алгоритмом page rank. Либо это информация, оказавшаяся "за стеной" платных библиотек или баз данных. Вильям Парк, основатель американской компании DeepDyve, уверен, что ему без всякой магии удалось подобрать "ключик" ко всей скрытой информации.

Идея пришла Парку из генетики, которой он занимался раньше. Если надо проанализировать длинные последовательности ДНК, приходится использовать алгоритмы поиска с очень длинной "поисковой фразой". Алгоритм Google позволяет искать не больше 32 слов одновременно. В DeepDyve можно будет загнать целую страницу текста. Так решится проблема непопулярных страниц: алгоритм будет находить "скрытые связи" между сайтами. Может выясниться, что страница с небольшим числом посещений является источником контента для сотен других сайтов. "Мы пойдем к издательства и скажем: давайте мы станет вашим плеером iTunes, из "темной" мы сделаем вашу информацию "находимой"", — говорит Паркер.

Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...