Подборка курсов и материалов для тех, кто хочет влиться в Data Science.

Сегодня мы подготовили для вас дайджест, в котором постарались собрать самые интересные литературные источники, статьи, видеокурсы и лекции (в том числе подготовленные силами преподавателей, студентов и сотрудников Университета ИТМО), которые позволят познакомиться с Data Science.

Эти материалы затрагивают как теоретические аспекты работы с данными, так и практические — направленные на создание алгоритмов и написание программ.

Подборка курсов и материалов для тех, кто хочет влиться в Data Science.

Статьи

Работа с данными — новая наука

Объемы научных данных увеличиваются с поразительной скоростью, потому появляется необходимость в новых математических методах и методах анализа. При этом недостаточно просто собирать и хранить громадные объемы информации, их нужно грамотно организовывать, а для этого нужна специальная структура. Статья о том, как ученые реализуют нетривиальные подходы к работе с данными.

Список ресурсов по машинному обучению. Часть 1

Адаптированная подборка полезных материалов по машинному обучению, которые обсуждали резиденты Stack Overflow и Stack Exchange. Внимание уделено таким темам, как логистическая регрессия, нейронные сети прямого распределения, обработка естественного языка, метод опорных векторов и др.

Список ресурсов по машинному обучению. Часть 2

Вторая часть адаптированной подборки полезных материалов: фреймворки, презентации, интервью и другие материалы по теме.

Коламбия Пикчерз не представляет: что могут рассказать данные IMDB

Студент кафедры вычислительной техники Юрий Волков рассказал, как анализировал датасет крупнейшего мирового хранилища информации о фильмах IMDB и к каким выводам пришел.

Глубокое обучение: Немного теории

Что нужно для создания искусственного интеллекта и какие алгоритмы для этого применяются. Сложности реализации и варианты решения проблем.

Подборка: Более 70 источников по машинному обучению для начинающих

Это список предназначен для тех, кто только начинает изучать тему машинного обучения, например, с использованием Python. Здесь вы найдете статьи, курсы, книги, пакеты и инструменты, чаты и обсуждения.

40 инструментов и методик, используемых специалистами по анализу данных

Наиболее часто встречающиеся термины, что они означают и какое значение имеют в контексте науки о данных. Каждый пункт в списке является ссылкой на несколько других статей портала.

 

Литература

«Голая статистика. Самая интересная книга о самой скучной науке»

Книга подойдет не только специалистам по обработке данных. В ней содержатся основы статистического анализа, которые пригодятся и в других сферах деятельности. Автор книги, профессор Чарльз Уилан, с юмором и наглядными примерами учит находить скрытые взаимосвязи между явлениями.

Статистика: Учебное пособие

Книга разработана в соответствии с программой дисциплины «Статистика» Университета ИТМО, и в ней собраны основные методологические и методические положения по теории статистки и прикладного их применения.

Журнал «Научно-технический вестник информационных технологий, механики и оптики»

Журнал выходит на базе Университета ИТМО и является одним из старейших научных периодических изданий страны. Здесь содержится большое количество статей на тему компьютерных систем и информационных технологий, включая глубокое обучение и анализ статистических данных.

Doing Data Science: Straight Talk from the Frontline

Эта книга основана на курсе Колумбийского университета и позволяет глубоко изучить такие темы, как регрессионные модели, фильтрация спама, рекомендательные машины и большие данные.

Think Stats: Exploratory Data Analysis in Python

Think Stats делает акцент на простых техниках, которые вы можете использовать для исследования реальных сводов данных. Здесь также представлен конкретный пример с данными из Национальных институтов здравоохранения.

«Алгоритмы. Руководство по разработке»

Это наиболее полное руководство по разработке эффективных алгоритмов. В первой части книги рассматриваются типы структур данных, алгоритмы сортировки, примеры использования комбинаторного поиска, эвристических методов и динамического программирования. Во второй части автор разместил список литературы и каталог из 75 наиболее распространенных алгоритмических задач с существующими программными реализациями.

The Elements of Statistical Learning: Data Mining, Inference, and Prediction

В книге нет ни одной строчки кода на Python или R, зато есть множество графиков и формул. Она охватывает большое количество областей: машинное обучение с учителем и без, нейронные сети, деревья решений, метод опорных векторов и ансамбли моделей. На сайте Стэнфордского университета её можно скачать бесплатно.

«Алгоритмы. Построение и анализ»

Книга представляет собой исчерпывающий учебник, охватывающий весь спектр современных алгоритмов: от быстрых алгоритмов и структур данных до алгоритмов с полиномиальным временем работы и специализированных алгоритмов поиска подстрок, вычислительной геометрии и теории чисел.

«Алгоритмы. Разработка и применение»

Читатель сперва знакомится с базовыми аспектами построения алгоритмов, основными понятиями и определениями, а затем переходит к методам построения алгоритмов, неразрешимости и методам решения неразрешимых задач. Самые сложные темы объясняются на простых примерах.

Lean Analytics

Книга рассказывает о том, как использовать данные в бизнес-среде. Она учит, почему важно фокусироваться на одной ключевой метрике при оценке рабочих процессов компании, а также рассказывает о шести видах онлайн-бизнеса и стратегиях работы с данными в каждом из них.

Analytics Lessons Learned: Free e-book with 13 case studies

Это электронное издание является своеобразным дополнением к предыдущей книге. В ней собраны истории о том, как работают с данными такие компании, как Airbnb, Backupify, Sincerely, Swiffer и EMI.

I Heart Logs: Event Data, Stream Processing, and Data Integration

Эта небольшая книжка содержит всего 60 страниц, но она дает хорошее представление о технической стороне процессов сбора и обработки данных. Также читатель узнает, с какими данными работают специалисты по инфраструктуре различных компаний.

Data Science at the Command Line

Эта книга призвана расширить ваши возможности в сфере анализа данных. Еще это единственная книга, содержащая информацию об анализе данных с помощью командной строки.

«Python и анализ данных»

Здесь рассматриваются вопросы переформатирования, очистки и обработки данных на Python. Ее можно также рассматривать как современное практическое введение в разработку научных приложений на Python, ориентированных на обработку данных. Это книга о тех частях языка Python и библиотек для него, которые необходимы для эффективного решения широкого круга аналитических задач.

«R в действии. Анализ и визуализация данных на языке R»

Руководство по обучению языку R, в котором особое внимание уделяется практике. Здесь представлены полезные примеры статистической обработки данных и описаны методы работы с запутанными и неполными данными. Она также учит читателя тому, как правильно представлять данные для визуального исследования.

«Hadoop. Подробное руководство»

Apache Hadoop — фреймворк с открытым исходным кодом, в котором реализована вычислительная парадигма, известная как MapReduce. Эта книга покажет, как использовать всю мощь Hadoop для создания надежных, масштабируемых распределенных систем и обрабатывать большие своды данных.

«Основы Data Science и Big Data. Python и наука о данных»

Каждая из глав этой книги посвящена одному из самых интересных аспектов анализа и обработки данных. Вы начнете с теоретических основ, затем перейдете к алгоритмам машинного обучения, работе с огромными массивами данных, NoSQL, потоковым данным, глубокому анализу текстов и визуализации информации. В многочисленных практических примерах использованы сценарии Python.

 

Видеокурсы

Узнать больше о Machine Learning и поймать робота: 10 онлайн-курсов, на которые стоит записаться

Подборка из 10 онлайн-курсов от ведущих компаний и университетов мира, записаться на которые никогда не поздно. Программы подойдут для тех, кто уже давно хотел попробовать МООК (массовый открытый онлайн-курс), но решился только сейчас.

Методы и алгоритмы теории графов

Целью курса является формирование базовых знаний, умений и навыков решения наиболее важных и часто встречаемых на практике графовых задач. В составе онлайн-курса используются видео-лекции вместе с опросами по их отдельным частям, упражнения, интерактивные демонстрации и виртуальные лаборатории для формирования и контроля навыков алгоритмического решения задач на графах.

 

Функциональное программирование: базовый курс

В курсе изучаются основы функционального подхода к программированию и практические вопросы программирования на языке Lisp. Функциональные языки обладают множеством интересных особенностей, знакомство с которыми расширяет кругозор программиста.

Программирование и разработка веб-приложений

Целью курса является формирование базовых знаний, умений и навыков решения наиболее важных и часто встречаемых на практике задач по программированию на языке Python. Также внимание уделяется созданию систем и приложений с использованием CMS Django. Дополнением к курсу может служить бесплатная электронная книга по Python.

Data 8: Основы науки о данных

Курс дает возможность ознакомиться с важными концепциями и навыками программирования и статистического анализа, предлагая работать с реальными сводами данных: экономическими и географическими и информацией из социальных сетей. Все программное обеспечение, используемое в рамках курса, является открытым.

 

Машинное обучение с Эндрю Ыном

Курс по машинному обучению от Эндрю Ына — учёного в области информатики из Стэнфордского университета. Эндрю начинает с объяснения принципов работы машинного обучения, а затем плавно переходит к алгоритмам и используемым функциям.

Читайте также: