Інженерія даних (КН)
Тип: На вибір студента
Навчальний план
Семестр | Кредити | Звітність |
6 | 5 | Залік |
Лекції
Семестр | К-сть годин | Лектор | Група(и) |
6 | 32 | доцент Демків Л. С. | ФеІ-31, ФеІ-32, ФеІ-33, ФеІ-34 |
Лабораторні
Семестр | К-сть годин | Група | Викладач(і) |
6 | 32 | ФеІ-31 | |
ФеІ-32 | |||
ФеІ-33 | |||
ФеІ-34 |
Опис навчальної дисципліни
Мета дисципліни зосереджена на розробці та управлінні інфраструктурою обробки та аналізу даних, формуванні вміння об’єднання даних з різних джерел та джерел даних в єдину структуру для отримання повної та зручної картини, реалізувати знайомство студента із способами створення цілісних та чистих даних, реалізацією процесів для очищення та перетворення даних з метою видалення помилок, стандартизації форматів та підготовки для подальшого аналізу, теоретичними принципами галузі інженерії даних та практичними технологіями, які найбільш затребувані в інженерії даних.
Цілі: забезпечити знайомство студентів з особливостями обробки та зберігання різних типів даних, об’єднання даних з різних джерел даних в єдину структуру для отримання повної та зручної картини. варіантами побудови сховищ даних; вивчити алгоритми попередньої обробки даних; опанувати теоретичний матеріал і практичне оволодіння сучасними графічно-інформаційними технологіями, комп’ютерними та програмними засобами створення цілісних даних, подання їх в графічній формі; вивчити методи і алгоритми обробки даних, визначити статистичні параметри даних; ознайомити з базовими концепціями обробки даних, які дозволять правильно структурувати дані для подальшого їхнього опрацювання, візуалізації і моделювання, управління програмною інфраструктурою та інтерфейсом систем обробки даних, теорією і проектуванням систем обробки даних, розробка, тестування та реалізація процесів Extract, Transform, Load (ETL), які дозволяють переносити дані з одного місця до іншого та піддавати їх обробці, вивчення інструментів для візуалізації та аналізу даних, щоб зробити.
Після завершення цього курсу студент буде використовувати сучасні програмні засоби для попередньої обробки неідеальних реальних даних, запису даних у відповідні структури та сховища даних, моделювання та інтеграції даних; реалізовувати інтерактивні візуалізації даних; проводити необхідну попередню обробку даних для отримання чистих даних; визначати тип задачі аналізу та вирішувати її адекватно обраним методом з оптимально визначеними параметрами; оцінювати
результати; робити змістовні висновки та інтерпретацію опрацювання даних, будувати ETL процеси та сховища даних
Рекомендована література
Основна література:
- Технології оброблення великих даних: конспект лекцій з дисципліни «Технології оброблення великих даних» [Електронний ресурс] : навч. посіб. для студ. спеціальності 121 «Інженерія програмного забезпечення» (освітня програма «Інженерія програмного забезпечення мультимедійних та інформаційно-пошукових систем»)/ Л.М. Олещенко; КПІ ім. Ігоря Сікорського. – Електронні текстові дані (1 файл: 5,55 Мбайт). – Київ: КПІ ім. Ігоря Сікорського, 2019. – 227 с
- Han, Jiawei. Data mining : concepts and techniques / Jiawei Han, Micheline Kamber, Jian Pei. – 3rd ed. ISBN 978-0-12-381479-1 Chapter 3. Data preprocessing Michael R. Brzustowicz Data Science with Java Practical Method for scientists and engineers /Michael R. Brzustowicz. – O’REILLY, 2017. – 311p.
- Методичні вказівки до виконання лабораторних робіт з дисципліни “Інженерія прикладних інтелектуально-орієнтованих програмних продуктів” для студентів спеціальностей 121 “Інженерія програмного забезпечення” та 122 “Комп’ютерні науки та інформаційні технології” (всіх форм навчання) / В.М. Льовкін. – Запоріжжя : ЗНТУ, 2016. – 80 с.
- Edward L.Robinson Data Analysis for Scientists and Engineers // Pricenton University Press, 2016, – P.408, ISBN 9781400883066
- Sayan M., Pratip S. Advanced Data Analytics Using Python: With Architectural Patterns, Text and Image Classification, and Optimization Techniques// APress, 2022. – 249p.
- Fabio Nelli Python Data Analytics: With Pandas, NumPy, and Matplotlib 3rd ed. Edition // Apress, 2023. – 466p.
- Glaucia Esppenchutz Data Ingestion with Python Cookbook: A practical guide to ingesting, monitoring, and identifying errors in the data ingestion process // Packt Publishing, 2023. – 414.
- J.Heyley, D.Wolf Learn Data Analysis with Python: Lessons in Coding // Apress, 2018. – 97p.
Додаткова література:
- Extract, transform, and load (ETL) // Електронний ресурс. Режим доступу: https://docs.microsoft.com/en-us/azure/architecture/data-guide/relational-data/etl
- Data Lake vs. Data Warehouse: What’s the Difference? // Електронний ресурс. Режим доступу: https://www.coursera.org/articles/data-lake-vs-data-warehouse
- Databases vs. Data Warehouses vs. Data Lakes // Електронний ресурс. Режим доступу: https://www.mongodb.com/databases/data-lake-vs-data-warehouse-vs-database
- Data Engineering: матеріали для самопідготовки// Електронний ресурс. Режим доступу: https://training.epam.ua/ua/blog/131