Обзор наиболее интересных онлайн курсов по анализу данных и машинному обучению
Данный выпуск обзора наиболее интересных материалов по анализу данных и машинному обучению полностью посвящен онлайн-курсам по тематике Data Science. В прошлом выпуске был представлен список онлайн-курсов, стартующих в ближайшее время. В данном выпуске я постарался собрать наиболее интересные онлайн-курсы по теме анализа данных. Стоит отметить, что некоторые курсы уже закончились, но у большинства таких курсов можно посмотреть архив всех учебных материалов.
Начинается обзор с набора курсов от Johns Hopkins University на Coursera, которые объединены в одной специализации «Data Science Specialization», поэтому имеет смысл рассмотреть их отдельно от остальных курсов. Это 9 официальных курсов специализации и два дополнительных Mathematical Biostatistics Boot Camp 1 и 2, которые официально не входят в специализацию. Важно отметить, что весь набор данных курсов регулярно начинается заново и в общем-то можно достаточно гибко построить свой график продвижения по специализации. Большинство курсов длятся 4 недели. Язык R является основным языком программирования в данном наборе курсов. Далее идет список курсов из специализации Data Science от Johns Hopkins University:
- The Data Scientist’s Toolbox — базовый курс в специализации и посвящен обзору различных инструментов специалиста по анализу данных. Количество материалов невелико и курс может быть пройден за 3-4 часа.
- R Programming — базовый курс в специализации и посвящен основам работы с язык программирования R.
- Getting and Cleaning Data — также является базовым курсом в специализации и посвящен очень важной теме подготовки и обработки сырых входных данных к дальнейшему анализу.
- Exploratory Data Analysis — курс посвящен исследовательскому анализу данных и визуализации данных с помощью языка R и таких популярных пакетов для визуализации как lattice и ggplot2.
- Reproducible Research — курс рассказывает о такой важной теме в анализе данных как Reproducible Research. Рассматриваются пакет knitlr для языка R, а также язык разметки R Markdown.
- Statistical Inference — формально курс посвящен теме статистического вывода, но по сути является курсом по основам статистики и теории вероятностей. Подано все в очень скомканной и сумбурной форме. Один из самых неоднозначных курсов в данной специализации. Надеюсь, что в будущих версиях курс будет серьезно переработан.
- Regression Models — курс посвящен теме регрессионного анализа. К курсу также есть вопросы по теме проработанности материала и надежда, что создатели курса обратят внимание на комментарии студентов и серьезно переработают курс в будущем.
- Practical Machine Learning — курс посвящен основам машинного обучения.
- Developing Data Products — курс посвящен разработке современных продуктов в теме анализа данных. Рассматриваются такие популярные фреймворки как Shiny и Slidify.
- Mathematical Biostatistics Boot Camp 1 — первая часть курса по биостатистике от Johns Hopkins University, является неофициальным дополнением к специализации Data Science, хорошо покрывает основы статистики и теории вероятностей.
- Mathematical Biostatistics Boot Camp 2 — вторая часть курса по биостатистике от Johns Hopkins University, является неофициальным дополнением к специализации Data Science, хорошо покрывает основы статистики и теории вероятностей.
Далее рассмотрим курсы, которые помогут улучшить общие навыки, необходимые для специалиста по анализу данных:
- Intro to Hadoop and MapReduce (Udacity) — курс посвящен основам работы с Hadoop и большими наборами данных.
- Data Wrangling with MongoDB (Udacity) — речь в данном курсе пойдет о работе с данными в такой популярной сейчас NoSQL базе данных как MongoDB.
- Programming Foundations with Python (Udacity) — курс посвящен основам языка программирования Python, который стремительно набирает популярность среди специалистов по анализу данных.
- Introduction to Databases (Coursera — Stanford University) — курс рассказывает о работе с реляционными источниками данных, а также о работе с другими популярными форматами хранения данных (XML, JSON)
Теперь перейдем к курсам, которые посвящены теории вероятностей и статистике. Безусловно знание данных дисциплин будет полезно каждому, кто претендует на звание специалиста по анализу данных. В некоторых случаях разделение курсов на категории достаточно условно, так как многие курсы охватывают различные аспекты, связанные с анализом данных. Далее представлен список курсов в данной категории:
- Probabilty and Statistics (Khan Academy) — отличный набор базовых вещей по статистике и теории вероятностей от Khan Academy.
- Case-Based Introduction to Biostatistics (Coursera — Johns Hopkins University) — курс прдеставляет в доступной форме основы статистики и теории вероятностей с примерами из биостатистики.
- Probabilistic Graphical Models (Coursera — Stanford University) — небольшой курс по теории вероятностей.
- Statistics: Making Sense of Data (Coursera — University of Toronto) — еще один курс по основам статистики.
- Data Analysis and Statistical Inference (Coursera — Duke University) — отличный курс по анализу данных, в котором доступно рассказывается об основах теории вероятностей и статистики.
- Statistics One (Coursera — Princeton University) — неплохой курс по основам статистики. Материал подается на доступном уровне и не требует от слушателя специальных знаний для усвоения материала.
- Statistics in Medicine (Stanford Online) — основы статистики на основе примеров из медицины.
- Statistics for Medical Professionals (CME) (Stanford Online) — основы статистики на основе примеров из медицины.
- Stat_2.1x — Introduction to Statistics: Descriptive Statistics (edX — BerkleyX) — первая часть из серии курсов по статистике и теории вероятностей. Первая часть посвящена описательной статистике.
- Stat_2.2x — Introduction to Statistics: Probability (edX — BerkleyX) — вторая часть из серии курсов по статистике и теории вероятностей. Вторая часть посвящена основам теории вероятностей.
- Stat_2.3x — Introduction to Statistics: Inference (edX — BerkleyX) — третья часть из серии курсов по статистике и теории вероятностей. Третья часть посвящена теме статистического вывода.
- 6.041x Introduction to Probability — The Science of Uncertainty (edX — MITx) — курс по теории вероятностей от MIT.
- Explore Statistics with R (edX — KIx) — новый курс по работе со статистическим языком программирования R. Первая сессия данного курса начинается 9 сентября 2014 года.
- Intro to Statistics (Udacity) — еще один курс по основам статистики.
- Statistics (Udacity) — достаточно простой курс по теории вероятностей и статистике.
Далее следует список курсов, которые посвящены различным аспектам темы анализа данных, таким как машинное обучение, обработка естественного языка, нейронным сетям, рекомендательным системам, анализу социальных сетей, искусственному интеллекту и другим:
- Data Analysis (Coursera — Johns Hopkins University) — курс по анализу данных с использованием языка R длительностью 8 недель.
- Introduction to Data Science (Coursera — University of Washington) — курс длится 8 недель. Один из наиболее популярных онлайн-курсов по основам Data Science.
- Machine Learning (Coursera — University of Washington) — отличный курс, который длится 10 недель по машинному обучению от University of Washington.
- Machine Learning (Coursera — Stanford University) — один из наиболее известных курсов по Machine Learning, ведет его профессор Стэнфордского Университета Andrew Ng. Курс длится 10 недель. Курс достаточно простой и понятный, не требует каких-то специальных знаний для его успешного прохождения, при этом охватывает достаточно много направлений Machine Learning.
- Natural Language Processing (Coursera — Stanford University) — один из самых популярных онлайн-курсов по обработке естественного языка от Стэнфордского Университета.
- Introduction to Recommender Systems (Coursera — University of Minnesota) — введение в рекомендательные системы. Нельзя сказать, что курс тщательно проработан, но курсов по данной не так много, так что он может быть интересен тем, кто занимается тематикой рекомендательных систем.
- Neural Networks for Machine Learning (Coursera — University of Toronto) — курс по применению нейронных сетей в машинном обучении.
- Natural Language Processing (Coursera — Columbia University) — еще один курс, посвященный теме обработки естественного языка.
- Social Network Analysis (Coursera — University of Michigan) — курс посвящен популярной теме анализа данных социальных сетей.
- Statistical Learning (Stanford Online) — курс, посвященный основам обучения с учителем (Supervised learning) в машинном обучении.
- SABR101x Sabremetrics: Introduction to Baseball Analytics (edX — BUx-Boston University) — в курсе объясняются многие аспекты Data Science и Big Data на основе анализа спортивной статистики (в данном случае бейсбола).
- PH525x Data Analysis for Genomics (edX — HarvardX) — достаточно простой курс по теме анализа данных.
- 15.071x The Analytics Edge (edX — MITx) — курс с отличным материалом по теме анализа данных и машинному обучению.
- Learning From Data (edX — CaltechX) — один из лучших курсов по машинному обучению. Доступно раскрываются многие темы машинного обучения.
- CS188.1x Artificial Intelligence (edX — BerkleyX) — наверное один из самых интересных онлайн-курсов по теме искусственного интеллекта. В курсе используется язык программирования Python.
- Intro to Data Science (Udacity) — введение в Data Science от Udacity.
- Machine Learning 1—Supervised Learning (Udacity) — первая часть из серии курсов по машинному обучению от Udacity. Первая часть посвящена теме обучения с учителем (Supervised learning).
- Machine Learning 2—Unsupervised Learning (Udacity) — вторая часть из серии курсов по машинному обучению от Udacity. Вторая часть посвящена теме обучения без учителя (Unsupervised learning).
- Machine Learning 3—Reinforcement Learning (Udacity) — третья часть из серии курсов по машинному обучению от Udacity. Третья часть посвящена популярной методике машинного обучения Reinforcement Learning.
- Exploratory Data Analysis (Udacity) — курс по визуализации данных с использованием языка R.
- Artificial Intelligence for Robotics (Udacity) — введение в тему программирования искусственного интеллекта на примере беспилотного автомобиля.
- Intro to Artificial Intelligence (Udacity) — курс по основам искусственного интеллекта.
- CS109 Data Science (Harvard) — видеолекции курса по основам Data Science от Harvard Extension School