Какие темы покрывают данные проблемы:
Исследования в DS / ML сосредоточены на изучении и анализе данных для получения новых знаний, а также экспериментировании, разработке и тестировании новых алгоритмов и моделей. Разработанная модель - только часть большой системы, сама модель часто ценности не несет
Продуктовизация в DS / ML фокусируется на интеграции построенных моделей в бизнес-процессы, масштабирование их использования, обеспечение стабильности и поддержки в рабочей среде (деньги находятся тут)
Roles:
Spheres:
Цель проекта; его ценность; бизнес-метрика; связь с техническими метриками; список гипотез, которые проверяли; почему проверяли именно эти гипотезы;
Организация рабочего процесса (процессы работы команды, приоритезация списка гипотез, рабочее место dsа)
Использование контроля версий кода и инструментов командной разработки (git, code review, linters, formatters, CI)
Чтение и слияние исходных данных из различных файлов/форматов (в т. ч. из разных источников, с выгрузкой в версионированное хранилище)
Исследования на данных (EDA - графики по имеющимся значениям, проверка распределения данных/стационарность, расчет стандартных статистических характеристик; подготовка интерактивных отчетов по данным и гипотезам);
Предобработка данных (исправление некорректных значений и выбросов, фильтрация, замена пропусков и т.д., сохранение и версионирование датасетов, автоматизация пайплайнов подготовки датасетов);
Реализация пайплайнов обучения и валидации моделей, проведение сравнительного анализа моделей (сохранение и версионирование моделей и пайплайнов, бэнчмарк моделей: время работы, потребление ресурсов)
Реализация сервиса с интерфейсом (интерфейс, масштабирование, очереди, мониторинг)
Сборка и поставка сервиса с моделью (CI/CD, поставка моделей)
Бонус от организаторов курса (бонусные критерии скрыты для избежания хакинга метрики)