Рынок корпоративных систем хранения данных стал исключительно разнообразен и расслоен – на нем присутствуют абсолютно все продукты от обычных винчестеров, встречающихся в домашних ПК до специализированных скоростных приборов, основанных на быстрой флэш-памяти и производящих миллионы операций ввода-вывода каждую секунду. Разница в цене между ними измеряется несколькими порядками, поэтому для покупки «хай-энда» у компании должна быть выраженная нужда и четкий бизнес-кейс, оправдывающий применение дорогостоящих хранилищ.
Производители прекрасно это понимают, поэтому, например, в свежайшем анонсе такого толка, презентации XtremIO от EMC, два раза фигурировало слово «требовательные» – требовательные фермы виртуальных серверов и требовательные базы данных. Некоторые эксперты рынка СХД не согласны с такой позицией и утверждают, что случаев, требующих применения таких экстремально скоростных хранилищ просто нет, они просто компенсируют собой неэффективность приложений и структур хранения данных. В действительности ситуация несколько сложнее – очень часто некоторый уровень неэффективности обусловлен естественными и трудно устранимыми причинами. Самый очевидный пример – виртуальные рабочие столы. Очевидно, что каждая из копий виртуальной машины содержит значительный объем повторяющихся данных, иногда оно превышает 90%. При этом их дедупликация на уровне приложений связана с большими трудностями. Есть сценарии, связанные с обработкой событий в реальном времени, в которых важна не только скорость операции, но и минимальные отклонения от средних величин при обработке. В общем, скорость важна не в чистом виде, а с включением в рассмотрение сопутствующих факторов, из которых складывается общее понятие «эффективное хранение информации». Именно комплексную эффективность имеет смысл рассматривать, анализируя системы подобные EMC XtremIO. Помимо действительно экстремальной, как и указано в названии, производительности до миллиона операций в секунду, массив может похвастаться исключительно ровным временем отклика, которое практически не меняется ни при заполнении дискового массива, ни при старении флэш-дисков, входящих в накопитель. Это достижимо благодаря уникальной системе хранения, основанной на адресации содержимого. Вся хранимая информация разделяется на четырехкилобайтные блоки, каждый из которых имеет свой уникальный цифровой отпечаток и никогда не хранится дважды. Таким образом дедупликация происходит прямо в процессе первичного сохранения контента, обеспечивая экстремально быстрое копирование (по сути ничего не копируется, только вносятся изменения в метаданные). Кстати, двухэтапный механизм обработки метаданных позволяет избавиться от внутренних процессов «сборки мусора», что приводит к сильному продлению срока жизни накопителей и отсутствию деградации производительности со временем. Ну а алгоритм XDP, защищающий данные, значительно опережает традиционный RAID, позволяя сохранять полную производительность и 100% использование емкости накопителя для данных пользователя. Эти свойства особенно наглядно проявляются при работе с VDI, виртуальными рабочими станциями. Так, в реально установленном массиве XtremIO, работающем в компании Boston Scientific, время создания 150 полных копий виртуальных десктопов составило около часа против 1050 минут в традиционном массиве. При этом в ряде сценариев уровень дедупликации превышает 50, то есть реально на массиве занято всего 2% места, которое суммарно должны бы занимать все сохраненные копии VDI. В среднем при емкости одного блока XtremIO в 10 Гб и возможности группировать их по четыре, логическая емкость кластера достигает 250 Гб. Безусловно, для больших баз данных это ставит задачу ранжирования нагрузок, то есть на уровне приложения нужно создать систему, в которой XtremIO хранит самые срочные данные, а менее важные отправляются на более медленные носители.