Математика для Data Science и машинного обучения. Подробный план обучения

Беспилотные автомобили, продвинутые голосовые ассистенты, рекомендательные системы – это только малая часть тех классных продуктов, которые создаются с помощью инженеров по машинному обучению и, думаю, не для кого не секрет, что за кулисами сего чуда стоит математика. Именно от её знания зависит понимание алгоритмов машинного и глубокого обучения.

Машинное обучение держится на трех основных столпах:

  • линейная алгебра и аналитическая геометрия;
  • математический анализ;
  • теория вероятностей и статистика.

Теперь может возникнуть несколько вопросов: можно ли все это выучить самостоятельно и если да, то сколько это займет времени, и насколько это будет больно?

Исходя из собственного опыта, могу сказать, что конечно же можно, однако будет больно, и чтобы понизить тот самый «градус боли» я решил написать эту статью в помощь таким же новичкам, как и я. Ну что….поехали!

Примечание: вся литература, приведенная ниже, содержит упражнения для самостоятельной работы.

Школьная математика (1 неделя и больше)

Если нет проблем со школьным курсом, то рекомендую Кратчайший курс школьной математики – все описано кратко и очень понятным языком.

Если есть пробелы и хочется углубиться, то есть хорошие плейлисты на канале Видеокурсы DA VINCI – там найдете не только объяснение школьной математики, но и линейной алгебры с математическим анализом.

В качестве задачника мне понравился «Сборник задач по математике для поступающих во втузы», Сканави М.И.

Линейная алгебра (1,5 месяца)

Начнем с плейлистов Linear algebra и Linear algebra (English) канала The bright sight of mathematics – лучшего объяснения линейной алгебры и численных методов к ней я не видел.

Для более глубокого ознакомления советую следующие книги:

  • «Introduction to Linear and Matrix Algebra», Nathaniel Johnston
  • «Advanced Linear and Matrix Algebra», Nathaniel Johnston

Хорошая серия книг, где читателя постепенно знакомят со всеми необходимыми разделами линейной алгебры, включая матричные факторизации и тензоры.

На русском языке понравились следующие книги:

  • «Линейная алгебра и аналитическая геометрия», Киркинский А.С.
  • «Вычислительная линейная алгебра», Вержбицкий В.М.

Первая книга — классический университетский курс линейной алгебры, а вторая — учебник по матричным факторизациям (LU, QR, SVD).

Математический анализ (3 месяца)

Здесь стоит начать с плейлистов канала N Eliseeva – объемный, но очень хороший курс с кучей примеров и понятным объяснением.

Из книг порекомендую следующие:

  • «Calculus for Scientists and Engineers», Martin Brokate, Pammy Manchanda, Abul Hasan Siddiqi
  • «Математический анализ», Киркинский А.С.

Хорошие книги плюс-минус об одном и том же, содержат все необходимые темы, включая преобразование Фурье.

Примечание: в качестве задачника я использовал учебное пособие БГТУ «Высшая математика в 2-х частях» (Марченко В.М.) – простой вузовский учебник, однако его плюс заключается в том, что после каждой главы имеются упражнения сразу же с ответами, что очень удобно.

Теория вероятностей и математическая статистика (3 месяца)

Начнем с раздела теория вероятностей на mathprofi и учебника все того же БГТУ «Теория вероятностей» (Блинова Е.И.), в котором кратко описана теория и содержится необходимый набор упражнений.

Переходя к статистике, советую раздел математическая статистика также на mathprofi и плейлист Statistics Fundamentals на канале StatQuest with Josh Starmer.

Книги для дополнительного изучения:

  • «Modern Mathematical Statistics with Applications», Jay L. Devore, Kenneth N. Berk, Matthew A. Carlton

    Объемная книга, содержащая в себе и теорию вероятностей, и статистику с огромным множеством продвинутых тем

  • «Теория вероятностей и математическая статистика», Гмурман В.Е.

    Также хорошая книга, но с меньшим количеством тем.

Дыхание машинного обучения (1 неделя)

Изучив все необходимые темы для уверенного старта в машинном обучении, было бы неплохо иметь представление о том, как в нем применяется математика и здесь я рекомендую ознакомиться с книгой «Data-Driven Science and Engineering», Steven L. Brunton, J. Nathan Kutz.

Отсюда вы узнаете о сжатии изображений с помощью сингулярного разложения матриц, как преобразование Фурье помогает избавляться от шума в аудиофайлах и изображениях, как найти коэффициенты регрессий через градиентный спуск и многое другое.

Дополнительные источники

Также не могу не упомянуть каналы:

  • Sergej Kuts (18+, присутствует мат). Автор по-пацански объясняет математику – весело и полезно.
  • dUdVstud – очень много полезной инфы касаемо математики и Data Science в целом.
  • MIT OpenCourseWare – море лекций от небезызвестного университета.

 

Читайте также: