Data mining
Содержание:
- Крылатая фраза[ | код]
- Назначение
- О высоких статистических технологиях
- Связь статистики с другими дисциплинами
- Некорректная интерпретация статистических исследований[ | код]
- Практика развитых стран
- Вычислительная статистика
- Заметки Дата Сайентиста: персональный обзор языков запросов к данным
- Оценка точности технологических процессов
- Развитие представлений о статистике
- Классификация
- Методы анализа
- Балансовый метод
- Метод сравнения
- Тип финансовой устойчивости
- Метод Дюпон (DuPont)
- Экспресс-анализ финансово-экономического состояния
- Анализ финансовых показателей
- Вертикальный анализ отчетности
- Методы
- Графики
Крылатая фраза[ | код]
Основная статья: Ложь, наглая ложь и статистика
Наиболее известная (и одна из лучших) критика прикладной статистики, «Существуют три вида обмана: ложь, наглая ложь и статистика», англ. There are three kinds of lies: lies, damned lies, and statistics) традиционно приписывается премьер-министру Великобритании Бенджамину Дизраэли, после атрибуции Марка Твена в публикации «Главы моей автобиографии» (журнал North American Review 5 июля 1907 года): «Цифры обманчивы, — писал он, — я убедился в этом на собственном опыте; по этому поводу справедливо высказался Дизраэли: „Существует три вида лжи: ложь, наглая ложь и статистика“». Однако этой фразы нет в работах Дизраэли, её происхождение спорно. В 1964 году К. Уайт (англ. Colin White) предположил авторство Франсуа Мажанди (1783—1855), который сказал фразу по-французски: фр. Ainsi l’altération de la vérité qui se manifeste déjà sous la forme progressive du mensonge et du parjure, nous offre-t-elle au superlatif, la statistique («Модификация правды, которая проявляется в сравнительной степени неправды и лжесвидетельства, имеет и суперлатив, статистику»). По словам Уайта, «мир нуждался в этой фразе, и несколько человек могли бы гордиться, придумав её».
Назначение
Применение статистического анализа позволяет отображать количественные показатели в неразрывной связи с качественными. В результате исследователь может увидеть взаимодействие фактов, установить закономерности, выявить типичные признаки ситуаций, сценарии развития, обосновать прогноз.
Статистический анализ – это один из ключевых инструментов СМИ. Чаще всего его используют в деловых изданиях, таких как, например, «Ведомости», «Коммерсант», «Эксперт-профи» и пр. В них всегда публикуются «аналитические рассуждения» о валютном курсе, котировке акций, учетных ставках, инвестициях, рынке, экономике в целом.
Разумеется, чтобы результаты анализа были достоверными, постоянно проводится сбор данных.
О высоких статистических технологиях
Термин «высокие технологии» популярен в современной научно-технической литературе. Он используется для обозначения наиболее передовых технологий, опирающихся на последние достижения научно-технического прогресса. Есть такие технологии и среди технологий статистического анализа данных — как в любой интенсивно развивающейся научно-практической области. Они подробно обсуждаются в настоящем учебнике. Их роль подчеркнута тем, что термин «высокие статистические технологии» вынесен в название учебника.
Обсудим этот пока не вполне привычный термин (он был введен в статье , опубликованной в 2003 г.). Каждое из трех слов ны в соответствии с нею (а не являются т.н. эвристическими).
Термин «статистические» привычен. Статистические данные – это результаты измерений, наблюдений, испытаний, анализов, опытов, а «статистические технологии» — это технологии анализа статистических данных.
Наконец, сравнительно редко используемый применительно к статистике термин «технологии». Статистический анализ данных, как правило, включает в себя целый ряд процедур и алгоритмов, выполняемых последовательно, параллельно или по более сложной схеме. В частности, можно выделить следующие этапы:
— планирование статистического исследования;
— организация сбора необходимых статистических данных по оптимальной или рациональной программе (планирование выборки, создание организационной структуры и подбор команды статистиков, подготовка кадров, которые будут заниматься сбором данных, а также контролеров данных и т.п.);
— непосредственный сбор данных и их фиксация на тех или иных носителях (с контролем качества сбора и отбраковкой ошибочных данных по соображениям предметной области);
— первичное описание данных (расчет различных выборочных характеристик, функций распределения, непараметрических оцеей гипотезы),
— более углубленное изучение, т.е. применение различных алгоритмов многомерного статистического анализа, алгоритмов диагностики и построения классификации, статистики нечисловых и интервальных данных, анализа временных рядов и др.;
— проверка устойчивости полученных оценок и выводов относительно допустимых отклонений исходных данных и предпосылок используемых вероятностно-статистических моделей, в частности, изучение свойств оценок методом размножения выборок;
— применение полученных статистических результатов в прикладных целях (например, для диагностики конкретных материалов, построения прогнозов, выбора инвестиционного проекта из предложенных вариантов, нахождения оптимальных режима осуществления технологического процесса, подведения итогов испытаний образцов технических устройств и др.),
— составление итоговых отчетото информационный технологический процесс, другими словами, та или иная информационная технология. Статистическая информация подвергается разнообразным операциям (последовательно, параллельно или по более сложным схемам). В настоящее время об автоматизации всего процесса статистического анализа данных говорить было бы несерьезно, поскольку имеется слишком много нерешенных проблем, вызывающих дискуссии среди статистиков.
Связь статистики с другими дисциплинами
Статистика является мультидисциплиной, так как она использует методы и принципы, заимствованные из других дисциплин. Так, в качестве теоретической базы для формирования статистической науки служат знания в области социологии и экономической теории. В рамках этих дисциплин происходит изучение законов общественных явлений. Статистика помогает произвести оценку масштаба того или иного явления, а также разработать систему методов для анализа и изучения. Статистика, несомненно, связана с математикой, так как для выявления закономерностей, оценки и анализа объекта исследования требуется ряд математических операций, методов и законов, а систематизация результатов находит отражения в виде графиков и таблиц.
Некорректная интерпретация статистических исследований[ | код]
Бытует мнение, что данные статистических исследований всё чаще намеренно искажают или неправильно интерпретируют, выбирая только те данные, которые являются благоприятными для ведущего конкретное исследование. Неправильное использование статистических данных может быть как случайным, так и преднамеренным. В книге Даррелла Хаффа (1954) «Как лгать при помощи статистики» излагается ряд соображений по поводу использования и неправильного применения статистических данных. Некоторые авторы также проводят обзор статистических методов, используемых в определённых областях (например, Варн, Лазо, Рамос, и Риттер (2012)). Способы, позволяющие избежать неправильного толкования статистических данных включают в себя использование надлежащей схемы и исключение предвзятости при проведении исследований. Злоупотребление происходит тогда, когда такие выводы «заказываются» определёнными структурами, которые намеренно или бессознательно выводят на отбор предвзятых данных или проб. При этом гистограммы, как самый простой для использования и понимания (восприятия) вид диаграммы, могут быть сделаны либо с применением обычных программ для компьютера или просто нарисованы. Большинство людей не делают попыток искать ошибки или заблуждаются сами, поэтому и не видят ошибок. Таким образом, по мнению авторов, статистические данные, чтобы быть правдой, должны быть «не причёсаны» (то есть достоверные данные не должны выглядеть идеальными). Для того, чтобы полученные статистические данные оказались правдоподобными и точными, проба должна быть репрезентативной в целом.
Практика развитых стран
Статистические методы – это база, обеспечивающая создание продукции с высокими потребительскими характеристиками. Эти приемы широко используются в промышленно развитых государствах. Статистические методы — это, по сути, гаранты получения потребителями продукции, соответствующей установленным требованиям. Эффект их использования доказан практикой промышленных предприятий Японии. Именно они способствовали достижению высочайшего производственного уровня в этой стране. Многолетний опыт зарубежных стран показывает, насколько эффективны эти приемы. В частности, известно, что компания Hewlelt Packard, применяя статистические методы, смогла снизить в одном из случаев количество брака за месяц с 9 000 до 45 ед.
Вычислительная статистика
Развитие вычислительной техники во второй половине XX века оказало значительное влияние на статистику. Ранее статистические модели были представлены преимущественно линейными моделями. Увеличение быстродействия ЭВМ и разработка соответствующих численных алгоритмов послужило причиной повышенного интереса к нелинейным моделям таким, как искусственные нейронные сети, и привело к разработке сложных статистических моделей, например обобщённая линейная модель и иерархическая модель.
Получили широкое распространение вычислительные методы, основанные на повторной выборке как критерий перестановок и бутстреппинг, наряду методы как семплирование по Гиббсу позволили более доступно использовать байесовские алгоритмы. В настоящее время существует разнообразное статистическое программное обеспечение общего и специализированного назначения.
Заметки Дата Сайентиста: персональный обзор языков запросов к данным
Рассказываю из личного опыта, что где и когда пригодилось
Обзорно и тезисно, чтобы понятно было, что и куда можно копать дальше — но тут у меня исключительно субъективный личный опыт, у вас, может быть, все совсем по-другому.
Почему важно знать и уметь обращаться с языками запросов? По своей сути в Data Science есть несколько важнейших этапов работы и самый первый и важнейший (без него уж точно ничего работать не будет!) — это получение или извлечение данных. Чаще всего данные в каком-то виде где-то сидят и их нужно оттуда «достать».
Языки запросов как раз и позволяют эти самые данные извлечь! И сегодня я расскажу, о тех языках запросов, которые мне пригодились и расскажу-покажу, где и как именно — зачем оно нужно для изучения.
Всего будет три основных блока типов запросов к данным, которые мы разберем в данной статье:
- «Стандартные» языки запросов — то, что обычно понимают, когда говорят о языке запросов, как, например, реляционная алгебра или SQL.
- Скриптовые языки запросов: например, питоновские штучки pandas, numpy или shell scripting.
- Языки запросов к графам знаний и графовым базам данных.
Все написанное здесь — это просто персональный опыт, что пригодилось, с описанием ситуаций и «зачем оно было нужно» — каждый может примерить, насколько подобные ситуации могут встретиться вам и попробовать подготовиться к ним заранее, разобравшись с этими языками до того, как придется их в (срочном порядке) применять на проекте или вообще попасть на проект, где они нужны.
Оценка точности технологических процессов
После того как были выяснены форма и широта распределения на основании сопоставления с допуском, исследуют, возможно ли по данному технологическому процессу производить качественные изделия. Другими словами, появляется возможность по результатам обследования количественно оценить точность технологических процессов.
С этой целью можно использовать следующую формулу:
где — коэффициент точности технологического процесса;
— допуск изделия;
— среднее квадратическое отклонение.
Точность технологического процесса оценивают исходя из следующих критериев:
— технологический процесс точный, удовлетворительный;
— требует внимательного наблюдения;
— неудовлетворительный. В этом случае необходимо немедленно выяснить причину появления дефектных изделий и принять меры управляющего воздействия.
Рис.3. Коэффициент точности технологических процессов
Рис. 3.а — точность стабильна, поскольку имеет запас точности;
Рис. 3.б — целиком заполнено поле допуска, имеется опасение, что появятся дефектные изделия;
Рис. 3.в — по обе стороны допуска появляются дефектные изделия.
Чтобы вместе с гистограммой построить кривую нормального распределения, ее надо перевести в тот масштаб, в котором выполнены гистограмма и эмпирическая кривая.
STATISTICA может все это сделать, причем располагая только исходными данными для гистограммы.
Рис. 4. Гистограмма в STATISTICA
На графике красной линией построена подогнанная кривая нормального распределения.
Существуют различные виды распределения случайных величин: нормальное, биномиальное, распределение Пуассона и др.
Очень часто нормальное распределение используется как модель, так как многие совокупности измерений имеют распределение, приближающееся к нормальному. Условно площадь под кривой нормального распределения относительно равна единице (рис.5.).
Рис.5. Кривая нормального распределения
Сокращенно таблицу площадей под нормальной кривой можно представить табл.1.
Z | Площадь слева от Z или справа от -Z | Площадь справа от Z или слева от -Z | Площадь между | Площадь вне пределов Z |
---|---|---|---|---|
0,500 | 0,500 | 0,000 | 1,000 | |
1 | 0,8413 | 0,1587 | 0,6826 | 0,3174 |
2 | 0,9773 | 0,0227 | 0,9545 | 0,0455 |
3 | 0,9987 | 0,0013 | 0,9973 | 0,0027 |
В этой таблице представлены величины площади при средних квадратических отклонениях от до Z. Для того чтобы определить величину площади между двумя значениями Z, нужно произвести вычитание соответствующих значений, приведенных в таблице. Например, площадь между Z=-1 и Z=2 равна 0,9773 — 0,1587 = 0,8186.
Используя таблицы функции нормального распределения, можно определить величину или процент дефектных изделий.
Предположим, что технологический процесс налажен; известно, что = 0,501, = 0,022, кроме того, в соответствии с требованием нормативно-технической документации верхнее и нижнее значения равны 0,500 0,005.
Определим отклонения верхнего и нижнего допускаемых значений от средних, кратных величине:
Вероятности попадания нормально распределенной случайной величины в интервалы 0-1,82 и 0-2,52 соответственно равны 0,9656 — 0,5 = 0,4656 и 0,5 — 0,0059 = 0,4941.
Поэтому ожидается получение примерно следующих данных:
0,4656 + 0,4941 = 0,9597 = 95,97% изделий соответствует установленным требованиям;
0,500 — 0,4656 = 0,0344 = 3,44% изделий имеют размер, превышающий верхний допуск;
0,500 — 0,4941 = 0,0059 = 0,59% изделий имеют размер ниже предусмотренного нижним допуском.
Гистограммы в STATISTICA позволяют подогнать ряд распределений по данным. При построении гистограммы вы просто выбираете нужное распределение из списка.
Рис.6. Окно построения гистограмм в STATISTICA
Изложенная методика позволяет дать оценку любому технологическому процессу, позволяет количественно оценить точность процесса, определить значения параметров, выходящих за допустимые пределы.
Развитие представлений о статистике
Начало статистической практики относится примерно ко времени возникновения государства. Первой опубликованной статистической информацией можно считать глиняные таблички Шумерского царства (III — II тысячелетия до н. э.).
Сначала под статистикой понимали описание экономического и политического состояния государства или его части. Например, к 1792 году относится определение: «статистика описывает состояние государства в настоящее время или в некоторый известный момент в прошлом». И в настоящее время деятельность государственных статистических служб вполне укладывается в это определение.
Однако постепенно термин «статистика» стал использоваться более широко. По Наполеону Бонапарту, «статистика — это бюджет вещей». Тем самым статистические методы были признаны полезными не только для административного управления, но и для применения на уровне отдельного предприятия. Согласно формулировке 1833 года, «цель статистики заключается в представлении фактов в наиболее сжатой форме». Во 2-й половине XIX — начале XX веков сформировалась научная дисциплина — математическая статистика, являющаяся частью математики.
В XX веке статистику часто рассматривают прежде всего как самостоятельную научную дисциплину. Статистика есть совокупность методов и принципов, согласно которым проводится сбор, анализ, сравнение, представление и интерпретация числовых данных. В 1954 году академик АН УССР Б. В. Гнеденко дал следующее определение: «Статистика состоит из трёх разделов:
- сбор статистических сведений, то есть сведений, характеризующих отдельные единицы каких-либо массовых совокупностей;
- статистическое исследование полученных данных, заключающееся в выяснении тех закономерностей, которые могут быть установлены на основе данных массового наблюдения;
- разработка приёмов статистического наблюдения и анализа статистических данных». Последний раздел, собственно, и составляет содержание математической статистики.
Термин «статистика» употребляют ещё в двух смыслах. Во-первых, в обиходе под «статистикой» часто понимают набор количественных данных о каком-либо явлении или процессе. Во-вторых, статистикой называют функцию от результатов наблюдений, используемую для оценки характеристик и параметров распределений и проверки гипотез.
Классификация
К статистическим методам экономического анализа относятся разные приемы. Стоит сказать, их насчитывается довольно много. Однако ведущий специалист в сфере менеджмента качества в Японии К. Исикава рекомендует использовать семь основных методов:
- Диаграммы Парето.
- Группировка сведений по общим признакам.
- Контрольные карты.
- Причинно-следственные диаграммы.
- Гистограммы.
- Контрольные листки.
- Диаграммы разброса.
Руководствуясь собственным опытом в сфере менеджмента, Исикава утверждает, что 95% всех вопросов и проблем на предприятии можно решить, используя эти семь подходов.
Методы анализа
Методы анализа представляют собою инструменты, которыми пользуется аналитик для проведения финансового анализа. Аналитик должен сам решить, какие методы, и каким образом использовать. Выбор зависит от целей финансового анализа, проблем, которые необходимо решить, задач, которые стоят перед ним. Обычно выделяют такие методы, как:
- горизонтальный анализ — выявление тенденций и оценка изменения показателя в течение периода исследования;
- вертикальный анализ — изучение структуры конкретного явления, а также структурных сдвигов, что позволяет определить роль отдельных элементов в формировании конечного результата;
- метод относительных показателей (метод коэффициентов) — расчет финансовых коэффициентов ликвидности, платежеспособности, финансовой устойчивости, рентабельности, деловой активности и прочих для определения текущего финансового состояния компании;
- метод табличного и графического отображения данных — удобные способы отображения данных для упрощения аналитического процесса и быстрого ознакомления сторонних пользователей финансового анализа;
- факторный метод — изучение влияния отдельных факторов на результативный показатель;
- метод сопоставления данных (метод сравнения) — сопоставления данных различных участников рынка, например, конкурентов, для определения рыночной силы исследуемого предприятия;
- балансовый метод — увязка некоторых показателей для определения равновесия в некоторой сфере;
- метод Дюпон — изучение рентабельности и ее факторов;
- и т.д. и т.п. — количество методов финансового анализа является значительным и этот список не претендует на полноту.
Следующие статьи позволяет ознакомится с каждым из методов.
Балансовый метод
В основе балансового метода находится слово баланс, которое означает равновесие между некоторыми явлениями. Балансовый метод означает сопоставление некоторых взаимосвязанных между собою показателей для получения понимания текущего положения дел. В его основе всегда находится тесная связь между явлениями, которые должны уравновешиваться. Например, сюда можно отнести связь:
Метод сравнения
Суть метода сравнения состоит в сопоставлении данных. Это означает, что в аналитик может взять несколько значений одного показателя или несколько значений абсолютных и относительных показателей и сравнить их между собой. Этот метод может применяться во всех случаях финансового анализа: как в процессе формирования комплексной оценки финансового состояния и эффективности компании, так и при исследовании некоторого аспекта деятельности компании.
Тип финансовой устойчивости
Этот этап анализа финансового состояния предприятия позволяет определить текущий уровень финансовой устойчивости среди возможных вариантов — абсолютная финансовая устойчивость, удовлетворительная, проблемное финансовое состояние, кризисное состояние. Альтернативным способ исследования этого направления финансовой деятельности является исследование
Метод Дюпон (DuPont)
Метод Дюпон предназначит для определения факторов, которые влияли на рентабельность собственного капитала предприятия. Этого можно достичь путем декомпозиции показатели рентабельности собственного капитала на составные части. Декомпозиция означает разложение базового показателя на составные части. Уровень детализации показателя зависит от целей проведения такого анализа. Каждая из частей уравнения позволяет оценить один из аспектов деятельности компании, каждый из которых в конечном итоге определяет значение показателя рентабельности. В рисунке 1 показано, какие именно факторы можно учесть и на какие составные части можно разложить результат деятельности компании.
Экспресс-анализ финансово-экономического состояния
Существуют различные подходы к его проведению, в целом он используется для получения поверхностных представлений о финансовом и хозяйственном состоянии предприятия. При применении экспресс-анализа целесообразно кратко рассмотреть сферы финансовой и хозяйственной работы, в частности финансовую устойчивость, рентабельность
Анализ финансовых показателей
Существует много связей между различными элементами финансовой отчетности, а также между одними и теми же элементами, но в различные моменты времени. Коэффициенты (показатели) представляют собой полезный способ выражения этих связей. Они выражают одну величину по отношению к другой (обычно как долю одного элемента в другом).
Вертикальный анализ отчетности
Вертикальный анализ означает выражение финансовых данных по отношению к определенному элементу финансовой отчетности. Это значит, что все элементы формы отчетности за определенный период делятся на этот элемент.
Методы
В основе статистического анализа лежат приемы и способы сбора, обработки и обобщения сведений. В зависимости от природы методы могут быть количественными и категориальными.
При помощи первых получают метрические данные, которые по своей структуре являются непрерывными. Их можно измерить при помощи интервальной шкалы. Она представляет собой систему чисел, равные промежутки между которыми отражают периодичность значений изучаемых показателей. Также используется шкала отношений. В ней, кроме расстояния, определяется также порядок значений.
Неметрические (категориальные) данные представляют собой качественные сведения, количество уникальных категорий и значений которых ограничено. Они могут быть представлены в виде номинальных или порядковых показателей. Первые используют для нумерации объектов. Для вторых предусматривается естественный порядок.
Графики
Они используются для отображения динамики развития события. Для этого применяют фигуры, точки, линии, имеющие условные значения. Графики, с помощью которых выражаются количественные соотношения, именуются диаграммами или динамическими кривыми. Благодаря им можно наглядно увидеть динамику развития какого-то явления.
График, показывающий увеличение количества лиц, страдающих остеохондрозом, представляет собой кривую, уходящую вверх. Соответственно, по ней можно наглядно увидеть тенденцию заболеваемости. Люди, даже не прочитав текстовый материал, могут сформулировать выводы о сложившейся динамике и спрогнозировать развитие ситуации в дальнейшем.