1. Есть описательная и аналитическая статистика. Описательная статистика «ужимает» миллионы и миллиарды цифр к какому-то компактному числу, типичному для всего миллиона цифр. Аналитика позволяет находить скрытые закономерности, которые дают нам больше понимания о реальности и как она работает, а также строить прогнозы.
2. Выборка и генеральная совокупность. Генеральная совокупность — вся целиком популяция исследуемых объектов. Выборка — выбранные из этой популяции объекты (часть генеральной совокупности). Но выборка должна быть репрезентативной — т.е., отражать генеральную совокупность.
3. Переменные — это признаки / характеристики изучаемых нами объектов (люди, животные, товар, клиенты, организации и т.д.), которые могут принимать разные значения. Доход, пол, возраст, цвет и т. д.
4. В практике стоит различать три типа шкал для измерения переменных. Номинальная: шкала наименований — город, пол, профессия и т. д. Ординальная / порядковая: отражающая степень проявления какого-либо свойства, без точных измерений — высокий-низкий; больше-меньше; I — II — III место и т. д. Интервальная: отражает размерность или масштаб каждой переменной — доход, возраст в годах, расстояние и т. д.
5. Мы выдвигаем наши предположения / суждения (как в виде мнений или домыслов, так и опыта) в виде гипотез, которые потом проверяем цифрами и аналитикой. В статистике фигурируют две гипотезы. Нулевая гипотеза (H0), гласящая что закономерностей, взаимосвязей, различий в генеральной совокупности не существует — все что мы обнаружили всего лишь нелепая случайность в нашей выборке. И альтернативная (H1), которая гласит, что обнаруженные в выборке различия нельзя объяснить случайностью: они вероятнее всего имеют место и «материальны» в генеральной совокупности.
6. Практическая статистика оперирует не вероятностью наступления события (или истинности утверждения), а вероятностью ошибиться в случае применения обнаруженной закономерности ко всей генеральной совокупности. Самым страшным и критичным в анализе считается именно обнаружить закономерности, взаимосвязи или различия, которых на самом деле в генеральной совокупности не существует.
7. Все закономерности (взаимосвязи, различия), по которым вероятность ошибки относительно их отсутствия в генеральной совокупности менее 5% (менее 0,05), считаются статистически значимыми.
8. В социально-экономической реальности Вы редко будете встречать нормальное распределение. Оно будет скорее скошено вправо или влево, или очень сжато к оси ОХ или ОY. 90% жителей страны владеют 2% капитала, 2 певца забирают 95% популярности, 99% тиража всех книг приходится на 1% авторов и т. д.