Background for Data Science инфраструктура

Data Science инфраструктура

Облака — дорого и не всегда удобно. Как мы построили собственную DS-инфраструктуру для Big Data и почему это выгодно нашим клиентам

Цели

1

Кардинально снизить затраты на R&D и разработку моделей по сравнению с облачными сервисами

2

Обеспечить максимальный уровень безопасности при работе с чувствительными данными заказчиков

3

Получить неограниченную производительность для обработки больших данных

4

Создать масштабируемый фундамент для собственных end-to-end MLOps-решений

Supabase icon

Метрики

24мес

Срок полной окупаемости инфраструктурных вложений

>0TB

Суммарный объем оперативной памяти в кластере

0

Общее количество ядер CPU для параллельных вычислений

0%

Контроль над физической и программной безопасностью данных

Подробности

Точка отсчёта

Каждый руководитель, работающий с Data Science, знает эту боль: ежемесячный счет за облачные сервисы растет вместе с амбициями команды.

Добавьте к этому компромиссы в производительности и постоянные вопросы о безопасности при передаче чувствительных данных — и вы получите три причины, по которым мы в «Дайгер» решили пойти своим путем.

Точка кипения: почему мы решили строить своё

Стандартные облачные платформы — отличный старт, но на определенном этапе они становятся тормозом. Мы столкнулись с ситуацией, когда:

  • Стоимость on-demand ресурсов, особенно GPU, делала каждый эксперимент неоправданно дорогим. Простой расчет показал, что собственное «железо» полностью окупается за 3-5 месяцев.
  • Безопасность данных наших клиентов — абсолютный приоритет. Передача данных в публичное облако всегда сопряжена с рисками и сложностями комплаенса.
  • Производительность и скорость доступа к данным становились «боттлнеком», замедляя наши R&D-циклы.

Наш вывод был однозначным: чтобы предоставлять клиентам сервис высокого класса, нам нужна собственная, полностью контролируемая инфраструктура.

Что у нас под капотом?

Мы построили горизонтально-масштабируемую многопользовательскую платформу для разработки ML-решений. В её основе — кластер из нескольких узлов, управляемых через Kubernetes.

Система спроектирована для решения промышленных задач Data Science и включает ключевые системные и пользовательские компоненты: от Identity Management и Системы контроля версий (CI/CD) до Реестра моделей, Пайплайнов обучения и готовых Docker-образов для DS-ов и аналитиков.

Ниже представлена интерактивная схема нашей DS-инфраструктуры (подробности при наведении/клике на компоненту):

Мощное железо — лишь половина успеха

Имея в распоряжении более 2 ТБ оперативной памяти и 240 ядер CPU, можно решать многие задачи «в лоб», загружая данные в RAM. Наша команда разработки ставит в приоритет культуру работы с данными и оптимальность любых инженерных решений. Поэтому мы разработали и активно используем платформу, основанную на современном стеке больших данных.

"With great power comes great responsibility"

Uncle Ben

Этот подход позволил нам не только экономить ресурсы, но и заложить культуру эффективности во все наши решения и разработки, включая те, что мы внедряем на продакшн для клиентов.

Главный вопрос: как всё это помогает вашему бизнесу?

Наша DS-инфраструктура — это не внутренний проект для гиков. Это наш главный актив, который напрямую влияет на качество решений, которые мы предлагаем.

Имея под рукой собственную мощную платформу, мы можем:

  • Работать с действительно большими объемами сырых данных, а не с урезанными выборками.
  • Проверять тысячи гипотез и генерировать сложные признаки, не беспокоясь о счетах за облака.
  • Гарантировать безопасность ваших данных, так как они находятся в нашем защищенном контуре.

Именно эта свобода и скорость R&D позволяют нам находить в данных скрытые закономерности и создавать модели, которые превосходят существующие аналоги.

Итог

Инвестиции в собственную инфраструктуру трансформировались в конкурентное преимущество для наших клиентов.

В результате мы можем не только обработать ваши большие данные и повысить предиктивные метрики, но и помочь грамотно организовать DS-инфраструктуру в вашем безопасном контуре для всего жизненного цикла ML-решений.

Достигнутые результаты

Сформирована независимая, полностью контролируемая среда для разработки AI-решений

Сняты ограничения по объему обрабатываемых больших данных и сложности вычислений

Создан плацдарм для быстрой проверки гипотез и разработки продвинутых AI-решений, напрямую влияющих на бизнес-метрики клиентов

Обеспечена возможность предлагать клиентам уникальные безопасные решения

У вас большие данные? Извлечем пользу их них в нашей инфраструктуре