
Data Science & Machine Learning: crash course
Data Science & Machine Learning: crash course
У сучасному світі важко уявити ефективне ведення бізнесу без якісного аналізу даних та побудови ефективних стратегій на основі знань, отриманих з даних різної природи. Курс дозволить вам опанувати практичні навички в аналізі даних, побудові алгоритмів маш
На вас чекає оптимальне поєднання необхідної теорії та практичних завдань для ефективного засвоєння матеріалу. А також цікавий курсовий проект наприкінці курсу, під час роботи над яким ви зможете закріпити отримані знання та проявити себе у розв'язанні практичних задач бізнесу. Крім того, цей курс може стати прекрасним стартом для більш глибокого занурення у світ машинного навчання та базою для вивчення нових state-of-the-art підходів.
Заняття 1. Вступ до Data Science. Основи Python
Вступ до Machine Learning та Data Science
Знайомство з мовою програмування Python
- Огляд прикладів застосування Python в аналізі даних та основних бібліотек
- Установка Anaconda, середовище Jupyter Notebook
- Можливості застосування платформи Google Colaboratory
Синтаксис, типи даних, оператори, цикли, функції
- Типи даних, змінні, логічні вирази
- Умовні оператори, множинне розгалуження
- Цикли
- Незмінювані та змінювані колекції: кортежі, множини, списки, словники; list comprehension
- Функції
Модуль NumPy
- Багатовимірні масиви, їх створення
- Робота з масивами
- Корисні функції
Модуль Pandas
- Основні типи даних: Series, DataFrame
- Читання і запис
- Базові операції, індексація та селекція
- Групування і агрегація
- Зведені таблиці
Візуалізація даних в Python
- МодульMatplotlib
- Модуль Seaborn
Практичний блок: розв'язання задач
Знайомство з мовою програмування Python
- Огляд прикладів застосування Python в аналізі даних та основних бібліотек
- Установка Anaconda, середовище Jupyter Notebook
- Можливості застосування платформи Google Colaboratory
Синтаксис, типи даних, оператори, цикли, функції
- Типи даних, змінні, логічні вирази
- Умовні оператори, множинне розгалуження
- Цикли
- Незмінювані та змінювані колекції: кортежі, множини, списки, словники; list comprehension
- Функції
Модуль NumPy
- Багатовимірні масиви, їх створення
- Робота з масивами
- Корисні функції
Модуль Pandas
- Основні типи даних: Series, DataFrame
- Читання і запис
- Базові операції, індексація та селекція
- Групування і агрегація
- Зведені таблиці
Візуалізація даних в Python
- МодульMatplotlib
- Модуль Seaborn
Практичний блок: розв'язання задач
Заняття 2-3. Математика та статистика для аналізу даних
Лінійна алгебра, n-вимірний векторний простір
- Базові поняття: матриця, визначник, n-вимірний лінійний векторний простір
- Матричні операції; обернена матриця
- Векторна алгебра: вектор, норма вектора, кут між векторами, скалярний добуток
- Розв'язання задач з використанням модуля NumPy
Основи математичного аналізу, методи оптимізації. Модуль SciPy
- Функція, способи задання, графік; види функцій
- Поняття похідної, формули та правила диференціювання; застосування похідної - Функція багатьох змінних; частинні похідні, похідна за напрямом, градієнт
- Методи оптимізації: градієнтний спуск та його модифікації
- Модуль SciPy: чисельні методи, оптимізація
Основи теорії ймовірностей
- Випадкові події, ймовірність, основні формули
- Випадкові величини, числові характеристики
- Основні закони розподілу: біноміальний, рівномірний, нормальний, експоненційний
- Двовимірна випадкова величина; числові характеристики, поняття коваріації та кореляції
Статистичний аналіз та візуалізація
- Види даних, генеральна сукупність і вибірка. Обробка первинного статистичного матеріалу, графічне представлення
- Числові характеристики: центральної тенденції (середнє, мода, медіана), положення (квантилі), розсіювання (дисперсія, стандартне відхилення, розмах, інтерквартильний розмах, коефіцієнт варіації), форми (асиметрія, ексцес); коробчаста діаграма
- Математична статистика вивідна: оцінка параметрів та перевірка статистичних гіпотез
Практичний блок: статистичний аналіз та візуалізація даних з допомогою пакетів Pandas, SciPy, Matplotlib, Seaborn на прикладі заданого датасету
- Базові поняття: матриця, визначник, n-вимірний лінійний векторний простір
- Матричні операції; обернена матриця
- Векторна алгебра: вектор, норма вектора, кут між векторами, скалярний добуток
- Розв'язання задач з використанням модуля NumPy
Основи математичного аналізу, методи оптимізації. Модуль SciPy
- Функція, способи задання, графік; види функцій
- Поняття похідної, формули та правила диференціювання; застосування похідної - Функція багатьох змінних; частинні похідні, похідна за напрямом, градієнт
- Методи оптимізації: градієнтний спуск та його модифікації
- Модуль SciPy: чисельні методи, оптимізація
Основи теорії ймовірностей
- Випадкові події, ймовірність, основні формули
- Випадкові величини, числові характеристики
- Основні закони розподілу: біноміальний, рівномірний, нормальний, експоненційний
- Двовимірна випадкова величина; числові характеристики, поняття коваріації та кореляції
Статистичний аналіз та візуалізація
- Види даних, генеральна сукупність і вибірка. Обробка первинного статистичного матеріалу, графічне представлення
- Числові характеристики: центральної тенденції (середнє, мода, медіана), положення (квантилі), розсіювання (дисперсія, стандартне відхилення, розмах, інтерквартильний розмах, коефіцієнт варіації), форми (асиметрія, ексцес); коробчаста діаграма
- Математична статистика вивідна: оцінка параметрів та перевірка статистичних гіпотез
Практичний блок: статистичний аналіз та візуалізація даних з допомогою пакетів Pandas, SciPy, Matplotlib, Seaborn на прикладі заданого датасету
Заняття 4-5. Навчання з учителем (supervised learning): задачі регресії
Види машинного навчання та основні поняття
Лінійна регресія
- Задача регресії, функція витрат
- Градієнтний спуск у випадку лінійної регресії, стохастичний градієнтний спуск
Оцінка якості алгоритму, перенавчання та методи регуляризації
- Метрики в задачах регресії
- Underfitting/overfitting
- Методи регуляризації, Ridge та LASSO регресія
- Крос-валідація, підбір гіперпараметрів
Робота зі змінними: нелінійні перетворення, масштабування, кодування категоріальних змінних, методи заповнення пропусків
Дерева рішень
Метод k найближчих сусідів
Ансамблеві методи
- Випадковий ліс (random forest)
- Градієнтний бустінг
Практичний блок: розв'язання задачі регресії на реальних даних, повний цикл побудови моделі
Лінійна регресія
- Задача регресії, функція витрат
- Градієнтний спуск у випадку лінійної регресії, стохастичний градієнтний спуск
Оцінка якості алгоритму, перенавчання та методи регуляризації
- Метрики в задачах регресії
- Underfitting/overfitting
- Методи регуляризації, Ridge та LASSO регресія
- Крос-валідація, підбір гіперпараметрів
Робота зі змінними: нелінійні перетворення, масштабування, кодування категоріальних змінних, методи заповнення пропусків
Дерева рішень
Метод k найближчих сусідів
Ансамблеві методи
- Випадковий ліс (random forest)
- Градієнтний бустінг
Практичний блок: розв'язання задачі регресії на реальних даних, повний цикл побудови моделі
Заняття 6. Навчання з учителем (supervised learning): задачі класифікації. Базові підходи до роботи з текстовими даними.
Задачі класифікації: бінарна та мультикласова класифікація
Лінійні моделі
- Логістична регресія і метод максимальної правдоподібності
- Метрики в задачах класифікації
- Точність, повнота та їх поєднання
- Регуляризація логістичної регресії
Робота з текстовими ознаками
- Мішок слів (bag-of-words)
- Tf-idf кодування
- Наївний баєсівський класифікатор
Дерево рішень та метод k найближчих сусідів у випадку класифікації
Ансамблеві методи в задачах класифікації
- Випадковий ліс (random forest)
- Градієнтний бустінг
Практичний блок: розв'язання задачі класифікації на реальних даних, повний цикл побудови моделі
Лінійні моделі
- Логістична регресія і метод максимальної правдоподібності
- Метрики в задачах класифікації
- Точність, повнота та їх поєднання
- Регуляризація логістичної регресії
Робота з текстовими ознаками
- Мішок слів (bag-of-words)
- Tf-idf кодування
- Наївний баєсівський класифікатор
Дерево рішень та метод k найближчих сусідів у випадку класифікації
Ансамблеві методи в задачах класифікації
- Випадковий ліс (random forest)
- Градієнтний бустінг
Практичний блок: розв'язання задачі класифікації на реальних даних, повний цикл побудови моделі
Тип: Продукт
Тематика: Великі дані
Поділитися