Data Science & Machine Learning: crash course

Data Science & Machine Learning: crash course

Заходи
завершено
29.02.2020 10:00
Київ
12 000 грн

Data Science & Machine Learning: crash course

У сучасному світі важко уявити ефективне ведення бізнесу без якісного аналізу даних та побудови ефективних стратегій на основі знань, отриманих з даних різної природи. Курс дозволить вам опанувати практичні навички в аналізі даних, побудові алгоритмів маш
На вас чекає оптимальне поєднання необхідної теорії та практичних завдань для ефективного засвоєння матеріалу. А також цікавий курсовий проект наприкінці курсу, під час роботи над яким ви зможете закріпити отримані знання та проявити себе у розв'язанні практичних задач бізнесу. Крім того, цей курс може стати прекрасним стартом для більш глибокого занурення у світ машинного навчання та базою для вивчення нових state-of-the-art підходів.
 
Заняття 1. Вступ до Data Science. Основи Python
 Вступ до Machine Learning та Data Science

 Знайомство з мовою програмування Python
- Огляд прикладів застосування Python в аналізі даних та основних бібліотек
- Установка Anaconda, середовище Jupyter Notebook
- Можливості застосування платформи Google Colaboratory

 Синтаксис, типи даних, оператори, цикли, функції
- Типи даних, змінні, логічні вирази
- Умовні оператори, множинне розгалуження
- Цикли
- Незмінювані та змінювані колекції: кортежі, множини, списки, словники; list comprehension
- Функції

Модуль NumPy
- Багатовимірні масиви, їх створення
- Робота з масивами
- Корисні функції

 Модуль Pandas
- Основні типи даних: Series, DataFrame
- Читання і запис
- Базові операції, індексація та селекція
- Групування і агрегація
- Зведені таблиці

 Візуалізація даних в Python
- МодульMatplotlib
- Модуль Seaborn

Практичний блок: розв'язання задач
 
Заняття 2-3. Математика та статистика для аналізу даних
 Лінійна алгебра, n-вимірний векторний простір
- Базові поняття: матриця, визначник, n-вимірний лінійний векторний простір
- Матричні операції; обернена матриця
- Векторна алгебра: вектор, норма вектора, кут між векторами, скалярний добуток
- Розв'язання задач з використанням модуля NumPy

 Основи математичного аналізу, методи оптимізації. Модуль SciPy
- Функція, способи задання, графік; види функцій
- Поняття похідної, формули та правила диференціювання; застосування похідної - Функція багатьох змінних; частинні похідні, похідна за напрямом, градієнт
- Методи оптимізації: градієнтний спуск та його модифікації
- Модуль SciPy: чисельні методи, оптимізація

 Основи теорії ймовірностей
- Випадкові події, ймовірність, основні формули
- Випадкові величини, числові характеристики
- Основні закони розподілу: біноміальний, рівномірний, нормальний, експоненційний
- Двовимірна випадкова величина; числові характеристики, поняття коваріації та кореляції

 Статистичний аналіз та візуалізація
- Види даних, генеральна сукупність і вибірка. Обробка первинного статистичного матеріалу, графічне представлення
- Числові характеристики: центральної тенденції (середнє, мода, медіана), положення (квантилі), розсіювання (дисперсія, стандартне відхилення, розмах, інтерквартильний розмах, коефіцієнт варіації), форми (асиметрія, ексцес); коробчаста діаграма
- Математична статистика вивідна: оцінка параметрів та перевірка статистичних гіпотез

Практичний блок: статистичний аналіз та візуалізація даних з допомогою пакетів Pandas, SciPy, Matplotlib, Seaborn на прикладі заданого датасету
 
Заняття 4-5. Навчання з учителем (supervised learning): задачі регресії
 Види машинного навчання та основні поняття

 Лінійна регресія
- Задача регресії, функція витрат
- Градієнтний спуск у випадку лінійної регресії, стохастичний градієнтний спуск

 Оцінка якості алгоритму, перенавчання та методи регуляризації
- Метрики в задачах регресії
- Underfitting/overfitting
- Методи регуляризації, Ridge та LASSO регресія
- Крос-валідація, підбір гіперпараметрів

 Робота зі змінними: нелінійні перетворення, масштабування, кодування категоріальних змінних, методи заповнення пропусків

 Дерева рішень

 Метод k найближчих сусідів

 Ансамблеві методи
- Випадковий ліс (random forest)
- Градієнтний бустінг

Практичний блок: розв'язання задачі регресії на реальних даних, повний цикл побудови моделі
 
Заняття 6. Навчання з учителем (supervised learning): задачі класифікації. Базові підходи до роботи з текстовими даними.
 Задачі класифікації: бінарна та мультикласова класифікація

 Лінійні моделі
- Логістична регресія і метод максимальної правдоподібності
- Метрики в задачах класифікації
- Точність, повнота та їх поєднання
- Регуляризація логістичної регресії

 Робота з текстовими ознаками
- Мішок слів (bag-of-words)
- Tf-idf кодування
- Наївний баєсівський класифікатор

 Дерево рішень та метод k найближчих сусідів у випадку класифікації

 Ансамблеві методи в задачах класифікації
- Випадковий ліс (random forest)
- Градієнтний бустінг

Практичний блок: розв'язання задачі класифікації на реальних даних, повний цикл побудови моделі
Тип пропозиції: Захід
Тематика: Великі дані
Організатор: Edu4You
Мова викладання: Українська
Регіон: Київ
Дата проведення: 29.02.2020 10:00 - 25.04.2020 17:30
Реєстрацію завершено
Реєстрацію завершено