Путь в Data Science кажется хаотичным: Python, SQL, математика, ML, нейросети, проекты, портфолио. На практике всё проще, если идти по этапам. Ниже — реалистичный roadmap Data Scientist на 12 месяцев для новичка.
1–2 месяц: база Python и SQL
Что изучить:
- Python: переменные, функции, циклы, списки, словари, ООП
- Jupyter Notebook, Git, virtual environment
- SQL: SELECT, JOIN, GROUP BY, оконные функции
- Библиотеки: NumPy, Pandas
Результат:
- умеете загружать, чистить и анализировать данные
- пишете SQL-запросы для выборок и агрегаций
3–4 месяц: математика и статистика 📈
Что важно:
- линейная алгебра: векторы, матрицы
- теория вероятностей
- статистика: среднее, медиана, дисперсия
- гипотезы, p-value, доверительные интервалы
- корреляция и регрессия
Результат:
- понимаете, как модели “думают”
- можете интерпретировать метрики и A/B-тесты
5–6 месяц: визуализация и EDA
Что изучить:
- Matplotlib, Seaborn, Plotly
- разведочный анализ данных
- поиск выбросов, пропусков, аномалий
- feature engineering basics
Что сделать:
- 2–3 мини-проекта на открытых датасетах
- оформить выводы в ноутбуке как кейс для портфолио
7–8 месяц: классический Machine Learning ⚙️
Ключевые темы:
- supervised learning: линейная и логистическая регрессия
- деревья решений, Random Forest, Gradient Boosting
- unsupervised learning: k-means, PCA
- train/validation/test split
- overfitting, underfitting
- метрики: accuracy, precision, recall, F1, ROC-AUC, MAE, RMSE
Инструменты:
- scikit-learn
- pipelines, cross-validation, GridSearch
9 месяц: реальные проекты 🧩
Что нужно:
- взять задачу “как в бизнесе”
- пройти путь от данных до модели и выводов
- сделать 2 сильных проекта:
- прогноз оттока клиентов
- предсказание спроса
- скоринг, рекомендации, сегментация
Важно:
- показывайте не только код, но и бизнес-логику
- пишите, какую проблему решали и какой эффект даёт модель
10 месяц: основы Deep Learning 🧠
Что изучить:
- нейронные сети, backpropagation
- PyTorch или TensorFlow
- задачи классификации изображений и текста
- embeddings, transfer learning
На старте Data Scientist deep learning не обязателен, но базовое понимание повышает ценность специалиста.
11 месяц: деплой и production mindset 🚀
Что освоить:
- Flask/FastAPI
- Docker
- основы API
- MLflow, DVC или основы MLOps
- мониторинг качества модели
Результат:
- понимаете, как модель попадает в продукт, а не живёт только в ноутбуке
12 месяц: портфолио и выход на рынок 💼
Что подготовить:
- GitHub с 3–5 проектами
- резюме с акцентом на стек и результаты
- LinkedIn / hh / Telegram-профиль
- шаблоны ответов на вопросы по статистике, ML и кейсам
Что должно быть в портфолио Data Scientist:
- EDA-проект
- ML-классификация или регрессия
- SQL-кейс
- проект с деплоем
- желательно один pet-project на интересную тему
Главная ошибка новичков
— пытаться выучить всё сразу: NLP, CV, LLM, MLOps, BI. Сильный старт — это Python + SQL + статистика + классический ML + 3 хороших проекта.
Сохраните этот roadmap, если планируете войти в Data Science в 2025 году. И загляните в подборку каналов про IT — там полезные материалы, вакансии и практические разборы.