Захід - Data Science & Machine Learning: crash course

Data Science & Machine Learning: crash course

Заходи

завершено

Edu4You

29.02.2020 10:00
Київ

12 000 грн

Опис

Data Science & Machine Learning: crash course

У сучасному світі важко уявити ефективне ведення бізнесу без якісного аналізу даних та побудови ефективних стратегій на основі знань, отриманих з даних різної природи. Курс дозволить вам опанувати практичні навички в аналізі даних, побудові алгоритмів маш

На вас чекає оптимальне поєднання необхідної теорії та практичних завдань для ефективного засвоєння матеріалу. А також цікавий курсовий проект наприкінці курсу, під час роботи над яким ви зможете закріпити отримані знання та проявити себе у розв'язанні практичних задач бізнесу. Крім того, цей курс може стати прекрасним стартом для більш глибокого занурення у світ машинного навчання та базою для вивчення нових state-of-the-art підходів.

Заняття 1. Вступ до Data Science. Основи Python

Вступ до Machine Learning та Data Science

Знайомство з мовою програмування Python
- Огляд прикладів застосування Python в аналізі даних та основних бібліотек
- Установка Anaconda, середовище Jupyter Notebook
- Можливості застосування платформи Google Colaboratory

Синтаксис, типи даних, оператори, цикли, функції
- Типи даних, змінні, логічні вирази
- Умовні оператори, множинне розгалуження
- Цикли
- Незмінювані та змінювані колекції: кортежі, множини, списки, словники; list comprehension
- Функції

Модуль NumPy
- Багатовимірні масиви, їх створення
- Робота з масивами
- Корисні функції

Модуль Pandas
- Основні типи даних: Series, DataFrame
- Читання і запис
- Базові операції, індексація та селекція
- Групування і агрегація
- Зведені таблиці

Візуалізація даних в Python
- МодульMatplotlib
- Модуль Seaborn

Практичний блок: розв'язання задач

Заняття 2-3. Математика та статистика для аналізу даних

Лінійна алгебра, n-вимірний векторний простір
- Базові поняття: матриця, визначник, n-вимірний лінійний векторний простір
- Матричні операції; обернена матриця
- Векторна алгебра: вектор, норма вектора, кут між векторами, скалярний добуток
- Розв'язання задач з використанням модуля NumPy

Основи математичного аналізу, методи оптимізації. Модуль SciPy
- Функція, способи задання, графік; види функцій
- Поняття похідної, формули та правила диференціювання; застосування похідної - Функція багатьох змінних; частинні похідні, похідна за напрямом, градієнт
- Методи оптимізації: градієнтний спуск та його модифікації
- Модуль SciPy: чисельні методи, оптимізація

Основи теорії ймовірностей
- Випадкові події, ймовірність, основні формули
- Випадкові величини, числові характеристики
- Основні закони розподілу: біноміальний, рівномірний, нормальний, експоненційний
- Двовимірна випадкова величина; числові характеристики, поняття коваріації та кореляції

Статистичний аналіз та візуалізація
- Види даних, генеральна сукупність і вибірка. Обробка первинного статистичного матеріалу, графічне представлення
- Числові характеристики: центральної тенденції (середнє, мода, медіана), положення (квантилі), розсіювання (дисперсія, стандартне відхилення, розмах, інтерквартильний розмах, коефіцієнт варіації), форми (асиметрія, ексцес); коробчаста діаграма
- Математична статистика вивідна: оцінка параметрів та перевірка статистичних гіпотез

Практичний блок: статистичний аналіз та візуалізація даних з допомогою пакетів Pandas, SciPy, Matplotlib, Seaborn на прикладі заданого датасету

Заняття 4-5. Навчання з учителем (supervised learning): задачі регресії

Види машинного навчання та основні поняття

Лінійна регресія
- Задача регресії, функція витрат
- Градієнтний спуск у випадку лінійної регресії, стохастичний градієнтний спуск

Оцінка якості алгоритму, перенавчання та методи регуляризації
- Метрики в задачах регресії
- Underfitting/overfitting
- Методи регуляризації, Ridge та LASSO регресія
- Крос-валідація, підбір гіперпараметрів

Робота зі змінними: нелінійні перетворення, масштабування, кодування категоріальних змінних, методи заповнення пропусків

Дерева рішень

Метод k найближчих сусідів

Ансамблеві методи
- Випадковий ліс (random forest)
- Градієнтний бустінг

Практичний блок: розв'язання задачі регресії на реальних даних, повний цикл побудови моделі

Заняття 6. Навчання з учителем (supervised learning): задачі класифікації. Базові підходи до роботи з текстовими даними.

Задачі класифікації: бінарна та мультикласова класифікація

Лінійні моделі
- Логістична регресія і метод максимальної правдоподібності
- Метрики в задачах класифікації
- Точність, повнота та їх поєднання
- Регуляризація логістичної регресії

Робота з текстовими ознаками
- Мішок слів (bag-of-words)
- Tf-idf кодування
- Наївний баєсівський класифікатор

Дерево рішень та метод k найближчих сусідів у випадку класифікації

Ансамблеві методи в задачах класифікації
- Випадковий ліс (random forest)
- Градієнтний бустінг

Практичний блок: розв'язання задачі класифікації на реальних даних, повний цикл побудови моделі

Тип пропозиції: Захід

Тематика: Великі дані

Організатор: Edu4You Стежити

Мова викладання: Українська

Місце проведення: проспект Перемоги, 54/1, Київ, Україна

Регіон: Київ

Дата проведення: 29.02.2020 10:00 - 25.04.2020 17:30

Реєстрацію завершено

Data Science & Machine Learning: crash course

Data Science & Machine Learning: crash course

Рекомендуємо - Edu4You Стежити

Data Analysis в "R" для початківців