Бизнес-аналитика. Извлечение, преобразование и загрузка данных
Қосымшада ыңғайлырақҚосымшаны жүктеуге арналған QRRuStore · Samsung Galaxy Store
Huawei AppGallery · Xiaomi GetApps

автордың кітабын онлайн тегін оқу  Бизнес-аналитика. Извлечение, преобразование и загрузка данных

Валентин Юльевич Арьков

Бизнес-аналитика. Извлечение, преобразование и загрузка данных

Учебное пособие






12+

Оглавление

  1. Бизнес-аналитика. Извлечение, преобразование и загрузка данных
  2. Введение
  3. 1. Инструменты ETL в Microsoft Excel
  4. 2. Загрузка таблицы из Википедии
  5. 3. Загрузка таблицы дивидендов
  6. 4. Задание по загрузке таблицы из интернет
    1. 4.1. Загрузка сведений о дивидендах
    2. 4.2. Загрузка котировок Yahoo! Finance
  7. 5. Извлечение данных из файлов
    1. 5.1. Варианты заданий
    2. 5.2. Выбор акций
    3. 5.3. Загрузка файлов из папки
    4. 5.4. Дубликаты данных
    5. 5.5. Просмотр запроса
  8. 6. Анализ данных
    1. 6.1. Анализ распределения объёмов
    2. 6.2. Анализ взаимосвязи
  9. Заключение
  10. Литература

Введение

Системы бизнес-аналитики работают с различными источниками данных с помощью функций ETL (Extract-Transform-Load). Название ETL можно перевести как «извлечение, преобразование и загрузка данных». Имеется в виду загрузка в хранилище данных для дальнейшей обработки в системе бизнес-аналитики [1—5]. В простейшем случае это загрузка данных в виде одной, объединённой таблицы Excel.

Задание. Прочитайте в Википедии статью «ETL» и выясните, какие действия над данными производят на каждом из трёх этапов.


Отчёт оформляем в виде рабочей книги Excel — как и в предыдущих работах. Процедура оформления отчёта подробно описана в работе [6].

Не забывайте записывать в отчёт ответы на задания типа «выясните…». Когда вы что-то узнали, зафиксируйте это в своём произведении. Упражнения на изучение — это часть данной лабораторной работы.

При использовании данных из внешних источников нужно указывать, откуда были получены данные, каким образом и когда.

Задание. Создайте файл отчёта. Оформите титульный лист и оглавление. Сохраните файл под коротким информативным названием.


В качестве исходных данных мы будем использовать сведения об акциях. Это так называемые ЦЕННЫЕ БУМАГИ. Акцию конкретной компании иногда называют просто «бумага». Акции приобретают с разными целями. Торговля акциями, в основном, происходит на бирже.

Задание. Прочитайте в Википедии статью «Акция (финансы)» и выясните, какие права она даёт владельцу, а также какие два вида акций существуют.


В оформлении обложки использованы изображения, разработанные компанией OnlineWebFonts.

1. Инструменты ETL в Microsoft Excel

В пакете Microsoft Excel версий 2010 и 2013 функции ETL реализованы с помощью надстройки Power Query.

Power Query позволяет решать следующие задачи:

— извлечение — импорт данных из различных источников;

— преобразование — приведение данных к единому формату;

— загрузка — консолидация / объединение данных из нескольких источников в виде одной таблицы Excel.

Название Power Query можно расшифровать как «Средство из комплекта PowerBI для выполнения запросов к источникам данных». В свою очередь, PowerBI — это программный комплекс (или платформа) бизнес-аналитики (BI — Business Intelligence), включающий целый ряд отдельных компонентов.

Задание. Прочитайте в Википедии статью «Power BI» и выясните, какие компоненты входят в настольную (локальную) версию Power BI Desktop и какова стоимость этой версии.


Платформа Power BI доступна в разных вариантах. Есть версии программы, которые можно скачать и установить бесплатно. Естественно, с рядом ограничений. Но это уже позволяет познакомиться с ключевыми возможностями продукта.

Задание. Перейдите на следующий сайт:

https://powerbi.microsoft.com.

Выясните, какие версии PowerBI доступны для скачивания.


Для установки Power Query потребуется сказать эту надстройку. Заходим на страницу Центра загрузки Microsoft:

https://download.microsoft.com

Вызываем поиск:

Power Query Excel.

Получаем ссылки для скачивания (рис. 1.1).

Рис. 1.1. Power Query в Центре загрузки

Задание. Найдите страницу Power Query в Центре загрузки и выясните год выпуска этой надстройки и поддерживаемые версии Excel.


Кроме ссылок для скачивания файлов, здесь имеются пояснения по поводу инструментов загрузки данных. Переходим по следующей ссылке:

Get & Transform Data.

Выясняем, как всё это связано с надстройкой Power Query и пакетом PowerBI (рис. 1.2).

Рис. 1.2. Инструменты загрузки данных

Задание. Выясните, как связан инструментарий Get & Transform с Power BI и Power Query.


В пакете Excel версий 2016, 2019 и 365 функции ETL доступны в группе инструментов Get & Transform (рис. 1.3).

Рис. 1.3. Группа инструментов ETL

Задание. Найдите группу Get & Transform в разделе Data и изучите названия основных кнопок на ленте, а также всплывающую подсказку для кнопки Get Data.


В группе Get & Transform скрывается кнопка запуска редактора запросов Power Query Editor:

Data — Get & Transform — Get Data — Launch Power Query Editor.

Всплывающая подсказка поясняет, что Power Query позволяет нам создавать новые запросы и редактировать существующие (рис. 1.4). Значит, Power Query по-прежнему жив и здоров.

Рис. 1.4. Запуск редактора запросов

Задание. Прочитайте статью Get & Transform and Power Pivot in Excel (Получение и преобразование и Power Pivot в Excel) в Центре справки и поддержки Microsoft Office:

https://support.office.com

Обратите внимание на следующие разделы:

— What is Get & Transform?

— What is Power Pivot?

— What is Power BI?

Кратко запишите в отчёт, что удалось выяснить про три варианта инструмента ETL.

2. Загрузка таблицы из Википедии

Один из стандартных источников данных –это интернет. Из интернет-страницы можно извлечь и загрузить выбранную таблицу.

Перейдём на сайт Википедии в браузере и найдём статью «Power BI» (рис. 2.1). В тексте статьи есть таблица с описанием лицензий. Попробуем загрузить эту таблицу в Excel. Скопируем адрес выбранной страницы в буфер обмена.

Рис. 2.1. Страница сайта в интернете

Задание. Найдите таблицу по лицензиям в статье «Power BI».


Возвращаемся в Excel.

Выбираем в верхнем меню загрузку данных из интернета (рис. 2.2):

Data — Get & Transform Data — From Web.

Рис.2.2. Получение данных из интернета

В диалоговом окне From Web вставляем адрес интернет-страницы из буфера обмена (рис. 2.3). По умолчанию выбран вариант загрузки Basic. Нажимаем кнопку OK.

Рис. 2.3. Ввод адреса страницы

Задание. Вызовите загрузку данных со страницы статьи «Power BI» в Википедии.


В диалоговом окне Navigator можно увидеть список из нескольких таблиц, которые были найдены на указанной странице сайта. Выбираем таблицу по лицензированию. Рассматриваем нашу таблицу в окне предварительного просмотра

Table View.

Убеждаемся, что выбрали нужную таблицу (рис. 2.4). Нажимаем кнопку

Load.

...