Книга Язык R в задачах науки о данных:
импорт, подготовка, обработка, визуализация и моделирование данных.
Хэдли Уикем, Гарретт Гроулмунд
Овладейте искусством превращения необработанных первичных данных в плодотворные догадки, гипотезы и новые знания с помощью языка R. Эта книга задумана как введение в вычислительную среду R, среду разработки RStudio и библиотеку tidyverse – коллекцию пакетов, совместное использование которых обеспечивает быстроту и легкость анализа данных.
Книга ориентирована на читателей, не имеющих предварительного опыта программирования, и предназначена для того, чтобы помочь им в как можно более короткие сроки начать решать задачи науки о данных. Авторы книги познакомят вас со всеми стадиями процесса анализа данных, включая импорт, предварительную подготовку, разведочный анализ и моделирование данных, а также демонстрацию результатов.
Прочитав книгу, вы получите цельное представление как о процессе анализа данных в целом, так и об основных инструментах, используемых при его проведении. Основные темы книги: Предварительная обработка данных – преобразование наборов данных к виду, удобному для анализа. Программирование – освоение мощных инструментов R, упрощающих анализ данных и делающих его более понятным. Разведочный анализ – исследование данных, выдвижение и быстрая проверка гипотез.
Моделирование – предоставление сжатых сводных данных, отражающих выявленные тенденции в наборе данных. Обмен информацией – изучение языка R Markdown, обеспечивающего интеграцию описательного текста, кода и результатов анализа. Хэдли Уикем – старший научный сотрудник компании RStudio и член организации R Foundation. К числу его разработок относятся пакеты для науки о данных (библиотека tidyverse: ggplot2, dplyr, tidyr, purrr, readr и др.) и инструментальные средства разработки пакетов (roxygen2, testthat, devtools).
Гарретт Гроулмунд – специалист в области статистики, преподаватель и главный инструктор компании RStudio. Он автор известного пакета lubridate, а также книги Hands-On Programming with R.
Оглавление Книга Язык R в задачах науки о данных:
- Часть I. Предварительный анализ
- Глава 1. Визуализация данных с помощью ggplot2
- Глава 2. Рабочий процесс: основы
- Глава 3. Преобразование данных с помощью пакета dplyr
- Глава 4. Организация рабочего процесса: скрипты
- Глава 5. Предварительный анализ данных
- Глава 6. Организация рабочего процесса: проекты
- Часть II. Подготовка данных
- Глава 7. Создание tibble-фреймов с помощью пакета tibble
- Глава 8. Импорт данных с помощью пакета readr
- Глава 9. Аккуратизация данных с помощью пакета tidyr
- Глава 10. Работа с реляционными данными с помощью пакета dplyr
- Глава 11. Работа со строками с помощью пакета stringr
- Глава 12. Работа с факторами с помощью пакета forcats
- Глава 13. Работа с датами и временем с помощью пакета lubridate
- Часть III. Программирование
- Глава 14. Работа с каналами с помощью пакета magrittr
- Глава 15. Функции
- Глава 16. Векторы
- Глава 17. Итерирование с помощью пакета purrr
- Часть IV. Моделирование
- Глава 18. Базовое моделирование с помощью пакета modelr
- Глава 19. Создание модели
- Глава 20. Обработка множества моделей с помощью пакетов purrr и broom
- Часть V. Коммуникация
- Глава 21. Язык разметки R Markdown
- Глава 22. Обмен графикой с помощью пакета ggplot2
- Глава 23. Выходные форматы R Markdown
- Глава 24. Организация работы с R Markdown