

Data Science инфраструктура
Облака — дорого и не всегда удобно. Как мы построили собственную DS-инфраструктуру для Big Data и почему это выгодно нашим клиентам
Цели
Кардинально снизить затраты на R&D и разработку моделей по сравнению с использованием облачных DS-сервисов
Обеспечить максимальный уровень безопасности при работе с чувствительными данными заказчиков
Получить неограниченную производительность при обработке больших данных
Создать масштабируемый фундамент для MLOps-решений, используемых в продакшен
Метрики
Срок полной окупаемости инфраструктурных вложений
Суммарный объем оперативной памяти в кластере
Общее количество ядер CPU для параллельных вычислений
Сквозная защита данных
Подробности
Точка отсчёта
Каждый руководитель, работающий с Data Science, знает эту боль: ежемесячный счет за облачные сервисы растет вместе с амбициями команды либо возникает компромисс между необходимым и финансово приемлемым объемом экспериментов.
Добавьте к этому опасения заказчиков о конфиденциальности и защите передаваемых чувствительных данных — и вы получите три причины, по которым мы в «Дайгер» решили пойти своим путем.
Точка кипения: почему мы решили строить своё
Облачные платформы для DS — отличный старт, но на определенном этапе они становятся тормозом. Мы столкнулись с ситуацией, когда:
- Стоимость on-demand ресурсов, особенно GPU, делала каждый эксперимент неоправданно дорогим. Простой расчет показал, что собственное «железо» полностью окупается за 3-5 месяцев.
- Безопасность данных наших клиентов — абсолютный приоритет. Передача данных в публичное облако всегда сопряжена с рисками и сложностями комплаенса.
- Производительность и скорость доступа к данным становились «боттлнеком», замедляя наши R&D-циклы.
Наш вывод был однозначным: чтобы предоставлять клиентам сервис высокого класса, нам нужна собственная, полностью контролируемая инфраструктура.
Что у нас под капотом?
Мы построили горизонтально-масштабируемую многопользовательскую платформу для разработки ML-решений. В её основе — кластер из нескольких узлов под управлением Kubernetes.
Система спроектирована для решения промышленных задач Data Science и включает ключевые системные и пользовательские компоненты: от Identity Management и CI/CD до Реестра моделей, Пайплайнов обучения и готовых Docker-образов для DS-ов и аналитиков.
Ниже представлена интерактивная схема нашей DS-инфраструктуры (подробности при наведении/клике на компоненту):
Мощное железо — лишь половина успеха
Имея в распоряжении более 2 ТБ оперативной памяти и 240 ядер CPU, можно решать многие задачи «в лоб», загружая данные в RAM. Приоритетом нашей команды разработки является культура работы с данными и оптимальность любых инженерных решений. По этой причине мы включили в DS инфраструктуру инструменты из современного стека больших данных.
"With great power comes great responsibility"
Uncle Ben
Этот подход позволил нам не только лучше утилизировать вычислительные ресурсы, но и заложить культуру эффективности как в DS инфраструктуру, так и во все последующие программные решения, включая те, что мы внедряем для использования клиентами в продакшн.
Главный вопрос: как всё это помогает вашему бизнесу?
Наша DS-инфраструктура — это не внутренний проект для гиков. Это наш стратегический актив, который напрямую влияет на качество моделей, которые мы предлагаем клиентам.
Имея под рукой собственную мощную платформу, мы можем:
- Работать с действительно большими объемами сырых данных, а не с урезанными выборками.
- Проверять тысячи гипотез и генерировать сложные признаки, не беспокоясь о счетах за облака.
- Гарантировать безопасность ваших данных, так как они находятся в нашем защищенном контуре.
Именно эта свобода и скорость R&D позволяют нам находить в данных скрытые закономерности и создавать модели, которые превосходят существующие аналоги.
Итог
Инвестиции в собственную инфраструктуру трансформировались в конкурентное преимущество как при разработке моделей, так и в ModelOps проектах.
В результате мы можем не только проанализировать ваши большие данные и повысить финэффект от моделей, но и помочь вам правильно выстроить DS-инфраструктуру для внутренни нужд в вашей корпоративной сети.
Достигнутые результаты
Сформирована независимая, полностью контролируемая среда для разработки ML/AI решений
Сняты ограничения на объем обрабатываемых данных и интенсивность вычислений
Создана инфраструктура для разработки и использования в продакшен продвинутых ML/AI решений
Обеспечена возможность гарантировать клиентам конфиденциальность и безопасность данных