Хранение данных: быстро, дешево и сердито

Новое поколение систем хранения данных поставит рекорды производительности и экономической эффективности, позволяя бизнесу войти в эпоху «Больших Данных».

Общемировая тенденция роста объема данных, недавно отмеченная в исследовании IDC, которая приведет к их десятикратному росту до 2020 года, проявляется в каждой конкретной компании самым острым образом. Даже компании, далекие от «информационного бизнеса», сталкиваются с необходимостью хранить все возрастающий поток данных, параллельно разрабатывая способы и процедуры, позволяющие воспользоваться этой информацией. Решая эту задачу, приходится преследовать три совершенно разные цели, часто противоречащие друг другу: минимизировать цену хранимого гигабайта, предельно снизить время доступа к данным, максимально упростить управление этой инфраструктурой.

В качестве «бонуса» перед IT-подразделением ставят задачу создать экспериментальную площадку для аналитических проектов, не создавая избыточных затрат и не устраивая в IT-подсистеме фирмы «большого взрыва», но при этом гарантируя, что, если этот эксперимент сработает, систему можно серьезно масштабировать. Увы, универсального решения всех проблем не существует, поэтому для каждого случая приходится выстраивать приоритеты и подбирать специфические продукты и технологии для конкретной задачи. На выставке EMC World мировой лидер рынка систем хранения данных, корпорация EMC, представила свое видение решения этих задач — для каждой задачи свое решение.

Год назад компания представила решение ViPR, платформу «программно-определяемого дата-центра», которая позволяет объединять разные системы хранения, максимально переводить их на автоматизированное управление и самообслуживание, а также представлять хранилища прикладным программам в нужном виде. Сегодня это решение в своей версии 2.0 стало основой уже «железного» продукта — Elastic Cloud Storage.

Прибор размером с серверную стойку может хранить от 360 до 2880 Тб данных, обеспечивая доступ к ним как для традиционных, так и для «облачных» сервисов внутри компании благодаря поддержке объектного или блочного хранения, включая HDFS. Разумеется, приборов может быть несколько с соответствующим ростом емкости. При этом, благодаря поддержке платформой ViPR 2.0 самых обычных дешевых дисков (commodity storage), а также сильно упрощенному администрированию, стоимость владения системой оказывается ниже, чем аренда емкости в популярных публичных «облаках».

В EMC подсчитали, что за четыре года хранения 11,5 Пб информации все расходы на покупку и поддержку ECS составят $5,7 млн, а аренда емкости у Amazon и Google обойдется в $7,4-8 млн, то есть примерно на четверть дороже. ECS позиционируется как решение для «любого» центра обработки данных, будь то собственный ЦОД компании или оборудование сервис-провайдера, перепродающего эти мощности. Для компаний среднего размера весьма важным плюсом ECS будет минимизация административных усилий на разворачивание хранилища, а для крупных фирм — быстрота внедрения.

На другом полюсе ценовой шкалы находятся решения, от начала до конца «заточенные» на минимизацию задержки при доступе к данным. Подобная скорость нужна при принятии решений по скоротечным процессам. Примером может быть, например, работа системы безопасности в банке, когда подозрительные транзакции по кредитным картам нужно блокировать сразу, или создание специальных предложений в рознице, актуальных, пока клиент находится в нужном отделе магазина. Здесь малыми расходами не обойтись, поскольку подобные приложения работают на носителях, использующих флэш-память. Время задержки доступа к данным на носителе исчисляется парой миллисекунд, и очень важно, чтобы оно было предсказуемым, не меняясь из-за естественных факторов, вроде заполнения диска или его планомерного износа.

Подобное решение под названием XtremIO было анонсировано EMC полгода назад и всего за два месяца стало лидером продаж в своем сегменте рынка. Компания даже объявила программу «трейд-ина» для клиентов, которые купили «неудачные» решения конкурентов. Впрочем, производительности никогда не бывает мало, и, глядя в будущее, EMC объявила о приобретении стартапа DSSD. Последний разрабатывает принципиально новые флэш-хранилища, максимально приближенные к серверным процессорам для еще более быстрого доступа. Конкретных параметров пока не заявлено, но цель у компании амбициозная — уменьшить время доступа по сравнению с имеющимися флэш-массивами в 15-20 раз. Продукт на основе идей DSSD ожидается уже в будущем году.

Несмотря на дороговизну флэш-хранилищ, которая препятствует их широкомасштабному разворачиванию (по оценке IDC, даже в 2017 году на эту технологию будет приходиться всего 3% рынка против 1,7% в этом году), флэш-технология будет точечно применяться во все более широком спектре продуктов, повышая производительность даже относительно простых и медленных систем хранения. EMC анонсировала стратегию flash everywhere, но не детализировала, когда какие продукты будут оснащаться гибридным хранилищем.

Многообразие продуктов для внедрения современных вычислительных методик на предприятии усложняет выбор для бизнеса и создает простор для ошибок планирования. Корреспонденту «Техноблога» удалось обсудить некоторые типовые вопросы, возникающие на старте проектов «Больших Данных», с Биллом Шмарцо (Bill Schmarzo), техническим директором консалтингового подразделения EMC Global Services.

— Билл, какие ошибки или заблуждения чаще всего приходится исправлять на старте проектов по «Большим Данным»?

— Мой любимый вопрос — насколько большими должны быть «Большие Данные». Например, в компании есть база на 500 Гб — это «Большие Данные», или нет? Конечно, «Большие Данные» — это такой удобный термин, но ключевым в его понимании является разнообразие. Данные разнообразны, мало структурированы, это зачастую важнее конкретных показателей объема.

— Недавно в Harward Business Review упоминалась такая цифра: компании, активно использующие аналитику «Больших Данных», на 5-6% прибыльней и эффективней своих конкурентов в индустрии. Можно ли ожидать увеличения этого показателя по мере развития инструментария работы с «Большими Данными»?

— «Большие Данные» открывают большие возможности для оптимизации бизнес-процессов. Снижение задержек в логистике или обработке заказов, уменьшение объема непродуктивной работы сотрудников и так далее — вот здесь достижимо улучшение показателей. Мне кажется, что показатель в 5–6% может остаться фиксированным. Но у «Больших Данных» есть иной потенциал. Компания может найти принципиально новые схемы заработка, источники дохода. Это намного важнее.

— Можете привести конкретные примеры?

— Современные инструменты управления, «инструменты третьей ИТ-платформы», можно дать в руки совершенно новых категорий сотрудников. Например, возьмем продуктовые супермаркеты: кто самый важный человек, способный повысить заработки сети супермаркетов? У меня печальная новость для директоров по маркетингу и прочих сотрудников штаб-квартиры — это не они, а директор магазина. Очень часто эти люди не имеют высшего образования, они выросли из кассиров и администраторов и управляют такими важными вещами, как выкладка, промо-акции, и так далее просто на основе личного опыта. Если дать им в руки мобильное устройство и удобный аналитический инструмент, они могут не только придумывать идеальные для их конкретного магазина промо-акции и способы привлечения посетителей, но и делать другие, более сложные вещи. Например, находить локальных поставщиков продукции, фермеров, скажем.

— Вопрос по поводу аналитики: в этом году EMC много внимания уделяет аналитике в реальном времени, но действительно ли это так важно? Какой процент аналитических задач заслуживает того, чтобы крутиться в реальном времени?

— Когда мы начинаем работать с компанией, мы им вот что советуем: начните с ключевого бизнес-процесса. С того, что делает вас отличающимся на рынке, что помогает зарабатывать деньги. Возьмите этот процесс и разделите на части. Скорее всего, он будет разделен в итоге на 10-20 различных активностей, из которых максимум 2-3 могут сильно выиграть, если к ним применить аналитику в реальном времени. То есть их процент невелик. Но очень часто именно они оказываются критически важными, именно их внедрение способно в корне изменить бизнес и рыночную позицию компании. Простой пример – когда я прохожу мимо кофейни Starbucks и достаю свой iPhone, у меня сразу на экран всплывает их клубная карточка. Для этого их приложение должно знать, что я возле «Старбакса», и сделать мне спецпредложение ровно тогда, когда я рядом, потому что спустя минуту это уже не сработает.

— Подобные вещи, такой уровень и скорость аналитики, вызывают много тревоги, поскольку затрагивают персональные данные и могут «вытащить» на общее обозрение более интимные вещи. Есть ли какие-то индустриальные рекомендации по этому поводу?

— Мы всем клиентам настойчиво рекомендуем «мамино правило»: то, что вы что-то знаете, не означает, что вы должны это использовать. Никогда не используйте накопленные данные и сделанные выводы против клиента. Это особенно важно для таких индустрий, как страховая. Их все очень демонизируют и боятся, что они будут повышать страховые премии за, скажем, питание в фаст-фуде или безответственное вождение. Чтобы развеять эти страхи, индустрия должна жестко следовать «маминому правилу» и работать с данными только во благо клиента.

Максим Игнатьев

Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...