Background for Data Science инфраструктура

Data Science инфраструктура

Облака — дорого и не всегда удобно. Как мы построили собственную DS-инфраструктуру для Big Data и почему это выгодно нашим клиентам

Цели

1

Кардинально снизить затраты на R&D и разработку моделей по сравнению с использованием облачных DS-сервисов

2

Обеспечить максимальный уровень безопасности при работе с чувствительными данными заказчиков

3

Получить неограниченную производительность при обработке больших данных

4

Создать масштабируемый фундамент для MLOps-решений, используемых в продакшен

Supabase icon

Метрики

24мес

Срок полной окупаемости инфраструктурных вложений

>0TB

Суммарный объем оперативной памяти в кластере

0

Общее количество ядер CPU для параллельных вычислений

0%

Сквозная защита данных

Подробности

Точка отсчёта

Каждый руководитель, работающий с Data Science, знает эту боль: ежемесячный счет за облачные сервисы растет вместе с амбициями команды либо возникает компромисс между необходимым и финансово приемлемым объемом экспериментов.

Добавьте к этому опасения заказчиков о конфиденциальности и защите передаваемых чувствительных данных — и вы получите три причины, по которым мы в «Дайгер» решили пойти своим путем.

Точка кипения: почему мы решили строить своё

Облачные платформы для DS — отличный старт, но на определенном этапе они становятся тормозом. Мы столкнулись с ситуацией, когда:

  • Стоимость on-demand ресурсов, особенно GPU, делала каждый эксперимент неоправданно дорогим. Простой расчет показал, что собственное «железо» полностью окупается за 3-5 месяцев.
  • Безопасность данных наших клиентов — абсолютный приоритет. Передача данных в публичное облако всегда сопряжена с рисками и сложностями комплаенса.
  • Производительность и скорость доступа к данным становились «боттлнеком», замедляя наши R&D-циклы.

Наш вывод был однозначным: чтобы предоставлять клиентам сервис высокого класса, нам нужна собственная, полностью контролируемая инфраструктура.

Что у нас под капотом?

Мы построили горизонтально-масштабируемую многопользовательскую платформу для разработки ML-решений. В её основе — кластер из нескольких узлов под управлением Kubernetes.

Система спроектирована для решения промышленных задач Data Science и включает ключевые системные и пользовательские компоненты: от Identity Management и CI/CD до Реестра моделей, Пайплайнов обучения и готовых Docker-образов для DS-ов и аналитиков.

Ниже представлена интерактивная схема нашей DS-инфраструктуры (подробности при наведении/клике на компоненту):

Мощное железо — лишь половина успеха

Имея в распоряжении более 2 ТБ оперативной памяти и 240 ядер CPU, можно решать многие задачи «в лоб», загружая данные в RAM. Приоритетом нашей команды разработки является культура работы с данными и оптимальность любых инженерных решений. По этой причине мы включили в DS инфраструктуру инструменты из современного стека больших данных.

"With great power comes great responsibility"

Uncle Ben

Этот подход позволил нам не только лучше утилизировать вычислительные ресурсы, но и заложить культуру эффективности как в DS инфраструктуру, так и во все последующие программные решения, включая те, что мы внедряем для использования клиентами в продакшн.

Главный вопрос: как всё это помогает вашему бизнесу?

Наша DS-инфраструктура — это не внутренний проект для гиков. Это наш стратегический актив, который напрямую влияет на качество моделей, которые мы предлагаем клиентам.

Имея под рукой собственную мощную платформу, мы можем:

  • Работать с действительно большими объемами сырых данных, а не с урезанными выборками.
  • Проверять тысячи гипотез и генерировать сложные признаки, не беспокоясь о счетах за облака.
  • Гарантировать безопасность ваших данных, так как они находятся в нашем защищенном контуре.

Именно эта свобода и скорость R&D позволяют нам находить в данных скрытые закономерности и создавать модели, которые превосходят существующие аналоги.

Итог

Инвестиции в собственную инфраструктуру трансформировались в конкурентное преимущество как при разработке моделей, так и в ModelOps проектах.

В результате мы можем не только проанализировать ваши большие данные и повысить финэффект от моделей, но и помочь вам правильно выстроить DS-инфраструктуру для внутренни нужд в вашей корпоративной сети.

Достигнутые результаты

Сформирована независимая, полностью контролируемая среда для разработки ML/AI решений

Сняты ограничения на объем обрабатываемых данных и интенсивность вычислений

Создана инфраструктура для разработки и использования в продакшен продвинутых ML/AI решений

Обеспечена возможность гарантировать клиентам конфиденциальность и безопасность данных

У вас большие данные? Извлечем пользу из них в нашей инфраструктуре