Книга Мова R в задачах науки про дані:
імпорт, підготовка, обробка, візуалізація та моделювання даних.
Хедлі Коннор Вікем, Гарретт Гроулмунд
Опануйте мистецтвом перетворення необроблених первинних даних в плідні здогади, гіпотези і нові знання за допомогою мови R. Ця книга задумана як введення в обчислювальну середу R, середовище розробки RStudio і бібліотеку tidyverse – колекцію пакетів, спільне використання яких забезпечує швидкість і легкість аналізу даних.
Книга орієнтована на читачів, які не мають попереднього досвіду програмування, і призначена для того, щоб допомогти їм у якомога коротші терміни почати вирішувати завдання науки про дані. Автори книги познайомлять вас з усіма стадіями процесу аналізу даних, включаючи імпорт, попередню підготовку, розвідувальний аналіз і моделювання даних, а також демонстрацію результатів.
Прочитавши книгу, ви отримаєте цілісне уявлення як про процес аналізу даних в цілому, так і про основні інструменти, які використовуються при його проведенні. Основні теми книги: Попередня обробка даних – перетворення наборів даних до вигляду, зручного для аналізу. Програмування – освоєння потужних інструментів R, що спрощують аналіз даних і роблять його більш зрозумілим. Розвідувальний аналіз – дослідження даних, висування і швидка перевірка гіпотез.
Моделювання – надання стислих зведених даних, що відображають виявлені тенденції в наборі даних. Обмін інформацією – вивчення мови R Markdown, що забезпечує інтеграцію описового тексту, коду і результатів аналізу. Хедлі Коннор Вікем – старший науковий співробітник компанії RStudio і член організації R Foundation. До числа його розробок відносяться пакети для науки про дані (бібліотека tidyverse: ggplot2, dplyr, tidyr, purrr, readr і ін.) І інструментальні засоби розробки пакетів (roxygen2, testthat, devtools).
Гарретт Гроулмунд – фахівець в області статистики, викладач і головний інструктор компанії RStudio. Він автор відомого пакету lubridate, а також книги Hands-On Programming with R.
Зміст Книга Мова R у задачах науки про дані:
- Частина I. Попередній аналіз
- Глава 1. Візуалізація даних за допомогою ggplot2
- Глава 2. Робочий процес: основи
- Глава 3. Перетворення даних за допомогою пакета dplyr
- Глава 4. Організація робочого процесу: скрипти
- Глава 5. Попередній аналіз даних
- Глава 6. Організація робочого процесу: проекти
- Частина II. Підготовка данних
- Глава 7. Створення tibble-фреймів за допомогою пакету tibble
- Глава 8. Імпорт даних за допомогою пакета readr
- Глава 9. Акуратизація даних за допомогою пакету tidyr
- Глава 10. Робота з реляційними даними за допомогою dplyr
- Глава 11. Робота з рядками за допомогою пакета stringr
- Глава 12. Робота з факторами за допомогою пакету forcats
- Глава 13. Робота з датами та часом за допомогою пакету lubridate
- Частина III. Програмування
- Глава 14. Робота з каналами за допомогою пакету magrittr
- Глава 15. функції
- Глава 16. Вектори
- Глава 17. Ітерування за допомогою пакета purrr
- Частина IV. Моделювання
- Глава 18. Базове моделювання за допомогою пакету modelr
- Розділ 19. Створення моделі
- Глава 20. Обробка безлічі моделей за допомогою пакетів purrr та broom
- Частина V. Комунікація
- Глава 21. Мова розмітки R Markdown
- Глава 22. Обмін графікою за допомогою пакета ggplot2
- Глава 23. Вихідні формати R Markdown
- Глава 24. Організація роботи з R Markdown