автордың кітабын онлайн тегін оқу Power Query
Никита Сергеев

Тегін үзінді

Подписка подключится сразу. Нажимая на кнопку, вы соглашаетесь с подключением и Условиями.

Кітап туралы Пікірлер16 Дәйексөздер47 Қазір оқып жатыр1.7K Сөрелерде Тегін фрагмент

Шрифты предоставлены компанией «ПараТайп»

В книге собран основной функционал ETL-инструмента Power Query для решения большинства задач уровня обычных бизнес-пользователей.

Автор книги — управленческий консультант, профессионал в анализе данных. Ведущий русскоязычный инструктор на платформе онлайн-образования UDEMY в категориях бизнес и анализ данных.

«Power Query: training manual» is an independent publication and is neither affiliated with, nor authorized, sponsored, or approved by, Microsoft Corporation.

12+

ВВЕДЕНИЕ

Предисловие

Вы держите в руках уникальную книгу.

В первую очередь она уникальна тем, что написана нашим соотечественником — экспертом по анализу данных, прогностической аналитике, Data Science и AI. Это одна из первых книг «отечественного производства», раскрывающая возможности использования ETL-инструментария Power Query.

Несомненно, книга привлечет внимание аналитиков и техническим специалистов. Но ее вторая уникальность в том, что она понятная и прикладная даже для обычных бизнес-пользователей.

Книга фокусируется на работе с пользовательскими интерфейсами (вкладки, кнопки, опции) — без погружения в язык М. И обычный бизнес-пользователь офисного приложения Excel сможет сразу использовать полученные знания на практике.

В-третьих, книга покрывает пользовательский функционал Power Query, которого достаточно для решения минимум 95% решаемых бизнес-пользователями задач в части подключения к разным источникам, преобразования, загрузки данных и обновления данных.

Но даже если Вы просто интересуетесь темой анализа данных — изложенный в книге материал будет полезен с точки зрения понимания «всей этой аналитической кухни».

Увлекательного Вам чтения!

От автора

Моя деятельность уже более 20 лет связана с анализом данных — от простых математических вычислений в Excel — до разработки моделей машинного обучения и применения методов прогностической аналитики. При этом я не ИТ специалист и не инженер — я управляю проектами преобразований крупных организаций, меняю их бизнес- и операционные модели.

Но без качественного анализа данных невозможно провести ни один трансформационный проект — и неважно касается он организации, общества и т. д. Поэтому все проекты начинаются со сбора и анализа данных, поиска зависимостей и закономерностей, моделирования и прогнозирования.

Поэтому неважно какую должность Вы занимаете и какой род Вашей деятельности: в современном мире в любой профессии Вы ежедневно сталкиваетесь с цифрами и данными как минимум на уровне подготовки регулярной отчетности.

Обратите внимание на свою работу и присутствие в ней работы с данными. Скорее всего Вы лично или Ваши подчиненные запрашиваете или выгружаете данные из разных систем, сводите в одну таблицу, обрабатываете и «чистите» их, проводите необходимые вычисления, пытаетесь обобщить, провести нужные вычисления, визуализировать и т.д.. А потом еще добиваетесь вывода этого всего на уровень регулярной отчетности с регулярным (еженедельным, ежемесячным или ежеквартальным) обновлением…

И делаете это скорее всего в самых популярных инструментах работы с данными в корпоративном мире — офисном приложении Microsoft Excel или «набирающей обороты» программе Power BI.

Но чтобы начать обработку, анализ и визуализацию данных в Excel или Power BI — сначала предстоит долгий и мучительный путь выгрузки данных из корпоративных систем, баз данных, приложений и т. д. В корпорациях это зачастую требует вовлечения ИТ-специалистов или аналитиков, умеющих писать запросы на SQL. А потом еще и регулярно просить их обновить данные (или «приделать где-нибудь кнопку, которая будет выгружать обновленный отчет»).

Но все начало меняться с 2010 года, когда к Excel вышла надстройка Power Query. На сегодня она уже является полноценным ETL-инструментом: это мощная технология подключения к источникам, извлечения из них данных, преобразования в массивы и очистки для дальнейшего анализа.

Благодаря Power Query Вы даже на уровне простого бизнес-пользователя сможете без привлечения ИТ-специалистов и аналитиков:

— подключиться к источникам данных (в виде файлов и баз данных различных систем);

— настроить шаги преобразования и чистки данных;

— регулярно или по необходимости обновлять все свои таблицы, отчеты и дашборды нажатием одной клавиши мыши.

И эта книга — это Ваша возможность попробовать «на вкус и ощупь» ETL-инструмент Power Query, который позволяет загружать данные в Excel, Power BI и Analysis Services.

Естественно, вместить все в одну книгу невозможно. Но в ней отобраны самые необходимые знания для полноценной работы с Power Query и в Excel, и Power BI.

Для демонстрации ключевых возможностей программ отобраны понятные даже новичку примеры. А чтобы книга была прикладного характера — к важнейшим главам прилагаются ЛИСТЫ ПРАКТИКИ, по которым читатели могут отрабатывать основные моменты работы Power Query в Excel и Power BI.

Если после прочтения книги Вам захочется увидеть, как Power-надстройки к Excel и программа Power BI работают «вживую» с загруженными с помощью Power Query данными, а также своими руками выполнить практические упражнения — регистрируйтесь на онлайн курсы:

· Power BI — от новичка до уверенного бизнес-пользователя https://www.udemy.com/course/power-bi-v/?referralCode=595FAE61BA9F1AF8B212

· Excel Power Query и Pivot: с 0 до бизнес-пользователя https://www.udemy.com/course/excel-power-query-pivot-bi-0/?referralCode=5A78B9F54568649102C0

Даже если Вы просто взяли полистать эту книгу любопытства ради, но работа с данными совершенно не из области Вашего интереса — то книга все-равно попала в Ваши руки не зря. Наверняка у Вас есть знакомые, которым она будет полезной — поделитесь с ними информацией об этой книге.

Увлекательного Вам чтения!

Структура книги

Книга нацелена на освоение основных функционалов ETL-инструмента Power Query

Но в самом вначале книги я сначала расскажу о способах организации данных в виде таблиц, понятии массивов данных, переменных и объектах\наблюдениях, типах данных — в общем о том, с чем доведется работать в любой аналитической программе. Именно с массивами работают даже продвинутые инструменты прогностической аналитики (типа SPSS, Statistica, JASP и т.д.). Если Вы не новичок и все это прекрасно знаете — можете пропустить это раздел.

Потом мы подготовим рабочее пространство (необходимые инструменты), познакомимся с тем, что собой представляет «экосистема Power» (частью которой является Power Query) в целом и предназначение ее компонентов. И отдельно скажу о том, как это все работает вместе Если Вам это все также известно — можете смело пропускать.

После знакомства с предназначением и общей логикой работы компонентов мы более детально рассмотрим ETL-инструментарий Power Query, используемый для автоматизации процесса подключения к источникам, извлечения из них нужных данных, их чистки и преобразования — и загрузки в Excel и Power BI для анализа и визуализации, а также обновления данных нажатием одной кнопки.

В принципе вот такой достаточно простой, но интересный путь ждет готового последовать по нему читателя.

Как работать с книгой

Я слышу — и забываю,

Я вижу — и вспоминаю,

Я делаю — и понимаю.

Приписывают Конфуцию

Каждый раздел книги раздел устроен так, чтобы Вы не только ориентировались в наборе функционалов Power Query, а и легко соотносили их с решаемыми задачами в части загрузки и преобразования данных.

Тем бизнес-пользователям, кто хочет всерьез освоить работу в Power Query, а не просто прочесть «еще одну умную книгу» — настоятельно рекомендую сразу же после каждого практического раздела отрабатывать ЛИСТЫ ПРАКТИКИ.

Для этого у Вас «под рукой» должны быть:

— как минимум MS Excel с надстройкой Power Query, а в идеале программа Power BI Desktop (распространяемая в открытом доступе официальная программа Microsoft) — и по ходу работы с книгой Вы организуете себе такую рабочую среду;

— массивы данных в виде пары таблиц в Excel из Вашей профессиональной деятельности (или просто скачанные из сети интернет, или искусственно созданные Вами данные средствами Excel);

— любознательность и настойчивость в конвертировании прочитанного в прикладные знания.

Имея это, Вы сможете делать все то, о чем будет идти речь в книге собственными руками на практике. Ведь сама книга построена еще и как самоучитель — в ней описаны последовательные шаги работы и применения Power Query.

МАССИВ ДАННЫХ

Что такое массив

В этой главе речь пойдет об организации данных.

Как Вы уже знаете, для работы требуется структурированный в виде таблицы массив данных. Видов таблиц укрупнено есть два:

1) Сведенные таблицы. Этот вид используется для отчетности и построения визуализаций в программах MS Office. Пример такой таблицы с диаграммой-графиком на рис.1:

Рис.1. Сведенный отчет и его визуализация Графиком

Наглядно выглядит — но это худший вариант для обработки и анализа данных. Это, по сути, уже обработанные (сведенные, агрегированные в разных разрезах) данные. Тем не менее в бизнесе циркулируют такие данные — и Вам буде доводиться работать и с такими таблицам.

Особенно когда данные существуют только в печатном виде без исходного массива или Вам их в телефонном режиме «надиктовал» коллега\руководитель\партнер.

2) Второй вариант: массив данных. Массивом для нас является «плоская» двумерная таблица (не сведенный отчет). В такой таблице:

— по строкам идут случаи\объекты\наблюдения для нашего анализа (компания, отдел, дата замера, человек, клиент, товар и т.д.),

— по столбцам\колонкам — параметры\признаки (называются «переменные») со значениями для случаев, объектов или процессов (ФИО, название компании, ID клиента, скорость, деньги, город или страна, отдел, род войск, зарплата, пол, частота курения и т. д.).

Если взять пример той же сведенной таблицы — то в виде массива она будет выглядеть так (рис.2):

Рис.2. Массив данных

Новичков в анализе данных (тех, кто просто до этого видел готовые отчеты) такой вид таблицы может «вогнать в ступор»: на предыдущем рисунке была нормальная понятная таблица, в которой можно было разобраться и что-то понять — а это что такое?

Но на самом деле это более удобное структурирование таблицы — из нее легко получать те самые сведенные отчеты в разных разрезах (как в виде сводных таблиц, так и диаграмм). И более того — такая таблица сможет ВЗАИМОДЕЙСТВОВАТЬ с другими таблицами путем установления с ними связей по общим переменным-идентификаторам (так называемым «ключам»).

Если на этом этапе Вы еще не смогли понять важность именно такого структурирования данных — то просто пока поверьте.

А из этой главы вынесите то, что данные должны быть внесены в упорядоченную таблицу — и Вам до начала ввода данных надо эту таблицу уже представить в собственной голове. И моя рекомендация: всегда старайтесь получить массив — где по строкам указаны случаи\объекты (сотрудники, клиенты, предприятия, товары и т.д.), а по столбцам — переменные (их признаки или характеристики). Причем Power Query имеет встроенный механизм преобразования сведенных отчетов в массивы — но об этом поговорим позже.

Итак, надеюсь Вы уловили разницу между массивом данных и сведенным отчетом. И запомнили, что на выходе из Power Query должен получиться вычищенный и готовый к анализу массив данных, в котором по строкам идут объекты\наблюдения, а по столбцам — переменных\характеристики со своими значениями для каждого объекта.

Объекты (строки) в массиве

Итак, в массиве у нас по строкам идут объекты нашего анализа (еще их называют случаи или наблюдения). Это то, что мы анализируем и по чему собираем информацию. Это могут быть:

· люди

· клиенты

· посетители

· товары

· предприятия

· подразделения

· магазины

· дата замера \ получения показателя

· и т. д.

Например, если мы собираем информацию по продажам в городах — то объектами будут города.

Если по магазинам — то объектами будут магазины.

Если нас интересуют продажи по конкретным отделам в магазине — то это будут отделы.

А если интерес представляют продажи по конкретным продавцам-консультантам — то это будут ФИО конкретных продавцов-консультантов. Причем в массиве у каждого из них может присутствовать признак отдела и магазина, а также города, в котором магазин находится — и мы сможем при необходимости агрегировать\обобщить информацию о продажах и в разрезе магазина, и в разрезе отдела, и в разрезе городов.

Т.е., если Вас интересуют показатели магазинов (магазины — это объекты Вашего анализа), но Вы можете получить данные на более детализированном уровне (на уровне объектов в виде продавцов-консультантов) — то используйте максимально возможный детализированный уровень сбора информации, но содержащий нужные Вам признаки (в данном случае магазин, в котором продавец-консультант осуществлял продажу).

Это все сказано к тому, что наиболее желательно заполучить массив на максимально детализированном уровне объектов с необходимым набором признаков (переменных) для его укрупнения (обобщения, агрегации) в случае необходимости. Но об уровне детализации массива мы поговорим еще в отдельной главе.

Переменные (столбцы\колонки) в массиве

В отличии от Excel, работающего с каждой конкретной ячейкой, Power-надстройки и Power BI работают со столбцами целиком — т.е. с переменными.

Если у Вас случаи\объекты анализа — конкретные люди. То, например, цвет глаз у каждого человека будет свой. И цвет глаз — это переменная. А карие, голубые, зеленые и т. д. — это значения этой переменной у конкретного объекта.

Т.о., каждый случай\объект имеет своих характеристики, т.е., может принимать свое значение той или иной переменной.

Например, рост Вали = 1,7 метра, а Ивана 1,82. У Вали глаза голубые, у Ивана — зеленые. Валя — женщина, а Иван — мужчина. Валя живет в Омске, Иван — в Москве. Месячный доход Вали — 80.000 руб, а Ивана — 200.000 руб. Вадя ездит на отдых за границу редко — раз в несколько лет, Иван часто — несколько раз в год.

Валя и Ваня — это наши объекты/случаи/наблюдения.

Рост, цвет глаз, доход, место проживания, частота путешествий — характеристики\признаки или переменные.

См. рис. 3:

Рис.3. Объекты анализа и их признаки\переменные

Вместо Вали и Ивана могут быть предприятия, товары. А в качестве переменных — доходы, объем производства и численность персонала для предприятий, или цена и количество проданных единиц товара.

В общем, по столбцам в массиве идут переменные, которые характеризуют наши объекты — и именно с переменными ведется работа в Power-надстройках и Power BI.

И каждая переменная принимает свое значение для конкретного объекта\наблюдения (рис.4), которые могут быть разными не только с т.з. самого значения переменной (например, голубой или зеленый цвет глаз), а и с т.з. шкал измерения переменных.

Рис.4. Массив: строки (объекты), столбцы (переменные) и ячейки (значения)

А какие бывают типы шкал для записи переменных — разберем в следующей главе.

Шкалы для измерения переменных

Обратим внимание на то, что каждая переменная (колонка\столбец) имеет свое значение для того или иного случая\объекта.

И значения переменных варьируются и отличаются от случая к случаю, от объекта к объекту. К примеру, цвет глаз может быть синим или зеленым; рост 1,7 и 1,82; пол — мужской или женский; доход 80.000 или 200.000 и т. д.

Т.е., каждое значение по конкретной взятой переменной соответствует его замеру у конкретного объекта.

Но также Вы наверняка заметили, что переменные могут быть измерены в разных шкалах.

...