Математика для Data Science и машинного обучения. Подробный план обучения
Беспилотные автомобили, продвинутые голосовые ассистенты, рекомендательные системы – это только малая часть тех классных продуктов, которые создаются с помощью инженеров по машинному обучению и, думаю, не для кого не секрет, что за кулисами сего чуда стоит математика. Именно от её знания зависит понимание алгоритмов машинного и глубокого обучения.
Машинное обучение держится на трех основных столпах:
- линейная алгебра и аналитическая геометрия;
- математический анализ;
- теория вероятностей и статистика.
Теперь может возникнуть несколько вопросов: можно ли все это выучить самостоятельно и если да, то сколько это займет времени, и насколько это будет больно?
Исходя из собственного опыта, могу сказать, что конечно же можно, однако будет больно, и чтобы понизить тот самый «градус боли» я решил написать эту статью в помощь таким же новичкам, как и я. Ну что….поехали!
Примечание: вся литература, приведенная ниже, содержит упражнения для самостоятельной работы.
Школьная математика (1 неделя и больше)
Если нет проблем со школьным курсом, то рекомендую Кратчайший курс школьной математики – все описано кратко и очень понятным языком.
Если есть пробелы и хочется углубиться, то есть хорошие плейлисты на канале Видеокурсы DA VINCI – там найдете не только объяснение школьной математики, но и линейной алгебры с математическим анализом.
В качестве задачника мне понравился «Сборник задач по математике для поступающих во втузы», Сканави М.И.
Линейная алгебра (1,5 месяца)
Начнем с плейлистов Linear algebra и Linear algebra (English) канала The bright sight of mathematics – лучшего объяснения линейной алгебры и численных методов к ней я не видел.
Для более глубокого ознакомления советую следующие книги:
- «Introduction to Linear and Matrix Algebra», Nathaniel Johnston
- «Advanced Linear and Matrix Algebra», Nathaniel Johnston
Хорошая серия книг, где читателя постепенно знакомят со всеми необходимыми разделами линейной алгебры, включая матричные факторизации и тензоры.
На русском языке понравились следующие книги:
- «Линейная алгебра и аналитическая геометрия», Киркинский А.С.
- «Вычислительная линейная алгебра», Вержбицкий В.М.
Первая книга — классический университетский курс линейной алгебры, а вторая — учебник по матричным факторизациям (LU, QR, SVD).
Математический анализ (3 месяца)
Здесь стоит начать с плейлистов канала N Eliseeva – объемный, но очень хороший курс с кучей примеров и понятным объяснением.
Из книг порекомендую следующие:
- «Calculus for Scientists and Engineers», Martin Brokate, Pammy Manchanda, Abul Hasan Siddiqi
- «Математический анализ», Киркинский А.С.
Хорошие книги плюс-минус об одном и том же, содержат все необходимые темы, включая преобразование Фурье.
Примечание: в качестве задачника я использовал учебное пособие БГТУ «Высшая математика в 2-х частях» (Марченко В.М.) – простой вузовский учебник, однако его плюс заключается в том, что после каждой главы имеются упражнения сразу же с ответами, что очень удобно.
Теория вероятностей и математическая статистика (3 месяца)
Начнем с раздела теория вероятностей на mathprofi и учебника все того же БГТУ «Теория вероятностей» (Блинова Е.И.), в котором кратко описана теория и содержится необходимый набор упражнений.
Переходя к статистике, советую раздел математическая статистика также на mathprofi и плейлист Statistics Fundamentals на канале StatQuest with Josh Starmer.
Книги для дополнительного изучения:
- «Modern Mathematical Statistics with Applications», Jay L. Devore, Kenneth N. Berk, Matthew A. Carlton
Объемная книга, содержащая в себе и теорию вероятностей, и статистику с огромным множеством продвинутых тем
- «Теория вероятностей и математическая статистика», Гмурман В.Е.
Также хорошая книга, но с меньшим количеством тем.
Дыхание машинного обучения (1 неделя)
Изучив все необходимые темы для уверенного старта в машинном обучении, было бы неплохо иметь представление о том, как в нем применяется математика и здесь я рекомендую ознакомиться с книгой «Data-Driven Science and Engineering», Steven L. Brunton, J. Nathan Kutz.
Отсюда вы узнаете о сжатии изображений с помощью сингулярного разложения матриц, как преобразование Фурье помогает избавляться от шума в аудиофайлах и изображениях, как найти коэффициенты регрессий через градиентный спуск и многое другое.
Дополнительные источники
Также не могу не упомянуть каналы:
- Sergej Kuts (18+, присутствует мат). Автор по-пацански объясняет математику – весело и полезно.
- dUdVstud – очень много полезной инфы касаемо математики и Data Science в целом.
- MIT OpenCourseWare – море лекций от небезызвестного университета.