Книга Наука про дані: навчальний курс
Для того щоб зрозуміти світ, необхідно зібрати та проаналізувати дані про нього. Об’єднання останніх технологічних тенденцій надає нові можливості для застосування аналізу даних до складніших завдань, ніж будь-коли раніше. Місткість комп’ютерних сховищ збільшується експоненційно; зберігання даних зараз стало настільки дешевим, що комп’ютерних систем майже неможливо нічого забути. Сенсорні пристрої все ширше і ширше контролюють все, за чим можна спостерігати: потоки відео, дії в соціальних мережах і місце розташування всього, що переміщається.
Мережеве обчислювальне середовище дозволяє використовувати величезну кількість машин для маніпулювання цими даними. Щоразу, коли ви здійснюєте пошук у Google, задіяні сотні комп’ютерів, які ретельно досліджують усі ваші попередні дії, тільки для того, щоб вирішити, яка реклама є найкращою для демонстрації саме вам. Результатом цього стало народження науки про дані — нової області, присвяченої максимізації значення великих колекцій інформації.
Як дисципліна, наука про дані знаходиться десь на перетині статистики, інформатики та машинного навчання, але стоїть вона окремо як самостійний персонаж. Ця книга служить введенням у науку про дані, зосереджуючись на навичках та принципах, необхідних для побудови систем, призначених для аналізу та інтерпретації даних. Професійна практика автора як дослідника та викладача переконала його в тому, що однією з головних складнощів науки про дані є те, що вона значно складніша, ніж виглядає.
Будь-який студент, який будь-коли обчислював свій середній бал успішності, може сказати, що виконував елементарний статистичний розрахунок, а малювання простого графіка розкиду дозволить вам додати у своє резюме згадку про наявність досвіду у візуалізації даних. Проте реальний аналіз та інтерпретація даних вимагають і технічних знань, і мудрості. Основами володіє дуже багато людей, але не технічними знаннями, що надихнуло автора на написання цієї книги.