Data version control

Лев Коваленко — Senior DS Engineer

Почему это важно?

  • Воспроизводимость исследований.
  • Распространение данных в команде.
  • Версионирование исследований.

Почему я не могу просто использовать git?

Требования к DVC

  • Независимость от формата данных.
  • Независимость от хранилища.
  • Self-hosted версия.
  • Workflow похож на git.
  • Нет зависимости на уровне кода.
  • Анализ различий.
  • Переиспользование в проде.

Versioning problem

Solve problem