

Data Science инфраструктура
Облака — дорого и не всегда удобно. Как мы построили собственную DS-инфраструктуру для Big Data и почему это выгодно нашим клиентам
Цели
Кардинально снизить затраты на R&D и разработку моделей по сравнению с облачными сервисами
Обеспечить максимальный уровень безопасности при работе с чувствительными данными заказчиков
Получить неограниченную производительность для обработки больших данных
Создать масштабируемый фундамент для собственных end-to-end MLOps-решений
Метрики
Срок полной окупаемости инфраструктурных вложений
Суммарный объем оперативной памяти в кластере
Общее количество ядер CPU для параллельных вычислений
Контроль над физической и программной безопасностью данных
Подробности
Точка отсчёта
Каждый руководитель, работающий с Data Science, знает эту боль: ежемесячный счет за облачные сервисы растет вместе с амбициями команды.
Добавьте к этому компромиссы в производительности и постоянные вопросы о безопасности при передаче чувствительных данных — и вы получите три причины, по которым мы в «Дайгер» решили пойти своим путем.
Точка кипения: почему мы решили строить своё
Стандартные облачные платформы — отличный старт, но на определенном этапе они становятся тормозом. Мы столкнулись с ситуацией, когда:
- Стоимость on-demand ресурсов, особенно GPU, делала каждый эксперимент неоправданно дорогим. Простой расчет показал, что собственное «железо» полностью окупается за 3-5 месяцев.
- Безопасность данных наших клиентов — абсолютный приоритет. Передача данных в публичное облако всегда сопряжена с рисками и сложностями комплаенса.
- Производительность и скорость доступа к данным становились «боттлнеком», замедляя наши R&D-циклы.
Наш вывод был однозначным: чтобы предоставлять клиентам сервис высокого класса, нам нужна собственная, полностью контролируемая инфраструктура.
Что у нас под капотом?
Мы построили горизонтально-масштабируемую многопользовательскую платформу для разработки ML-решений. В её основе — кластер из нескольких узлов, управляемых через Kubernetes.
Система спроектирована для решения промышленных задач Data Science и включает ключевые системные и пользовательские компоненты: от Identity Management и Системы контроля версий (CI/CD) до Реестра моделей, Пайплайнов обучения и готовых Docker-образов для DS-ов и аналитиков.
Ниже представлена интерактивная схема нашей DS-инфраструктуры (подробности при наведении/клике на компоненту):
Мощное железо — лишь половина успеха
Имея в распоряжении более 2 ТБ оперативной памяти и 240 ядер CPU, можно решать многие задачи «в лоб», загружая данные в RAM. Наша команда разработки ставит в приоритет культуру работы с данными и оптимальность любых инженерных решений. Поэтому мы разработали и активно используем платформу, основанную на современном стеке больших данных.
"With great power comes great responsibility"
Uncle Ben
Этот подход позволил нам не только экономить ресурсы, но и заложить культуру эффективности во все наши решения и разработки, включая те, что мы внедряем на продакшн для клиентов.
Главный вопрос: как всё это помогает вашему бизнесу?
Наша DS-инфраструктура — это не внутренний проект для гиков. Это наш главный актив, который напрямую влияет на качество решений, которые мы предлагаем.
Имея под рукой собственную мощную платформу, мы можем:
- Работать с действительно большими объемами сырых данных, а не с урезанными выборками.
- Проверять тысячи гипотез и генерировать сложные признаки, не беспокоясь о счетах за облака.
- Гарантировать безопасность ваших данных, так как они находятся в нашем защищенном контуре.
Именно эта свобода и скорость R&D позволяют нам находить в данных скрытые закономерности и создавать модели, которые превосходят существующие аналоги.
Итог
Инвестиции в собственную инфраструктуру трансформировались в конкурентное преимущество для наших клиентов.
В результате мы можем не только обработать ваши большие данные и повысить предиктивные метрики, но и помочь грамотно организовать DS-инфраструктуру в вашем безопасном контуре для всего жизненного цикла ML-решений.
Достигнутые результаты
Сформирована независимая, полностью контролируемая среда для разработки AI-решений
Сняты ограничения по объему обрабатываемых больших данных и сложности вычислений
Создан плацдарм для быстрой проверки гипотез и разработки продвинутых AI-решений, напрямую влияющих на бизнес-метрики клиентов
Обеспечена возможность предлагать клиентам уникальные безопасные решения