Что показывает коэффициент эксцесса в статистике

den svyatogo valentina valentines day den vsekh vlyublennykh otpechatok ruka serdtse 99362 1280x720 Вес тела

коэффициент эксцесса

коэффициент эксцесса (Kurtosis) — в статистике — мера остроты пика в распределении случайной величины.

эксцесс характеризует распределения, в которых значения величин либо сосредоточены близко к средней величине, либо наоборот распределены далеко от нее.

положительный эксцесс (leptokurtic) — острая вершина, когда пик выше чем пик нормального распределения.

отрицательный эксцесс (platykurtic) — тупая вершина, когда пик ниде пика нормального распределения).

1eb34d

3119fe

Как правило, доходы от рынка акций распределены с положительным эксцессом.

Если мы используем распределение с положительным эксцессом, то мы недооцениваем риск очень плохого или очень хорошего сценария.

19 октября 1987 изменение S&P500 за день отстояло на 20 стандартных отклонений от среднего дневного изменения. Вероятность такого события равна нулю, если применять нормальное распределение.

Если дневные доходы распределены нормально, то вероятность события отстоящего на 4 сигмы (станд. откл.) равна 1 раз в 50 лет. Величина которая отстоит больше чем на 5 сигм — 1 раз в 7000 лет.

Исходя из этого, можно заключить, что нормальное распределение лучше описывает годовые изменения индекса S&P500, чем месячные или ежедневные.

Источник

В предыдущей теме мы обсуждали, как определить, отличается ли распределение доходности от нормального распределения из-за асимметрии.

Еще одна причина, из-за которой распределение может отличаться от нормального распределения, заключается в том, что большее количество доходов может быть сконцентрировано близко к среднему значению (более пиковое распределение) и большее количество доходов может сильнее отклоняется от среднего (у распределения более толстые хвосты).

По сравнению с нормальным распределением, такое распределение имеет большую долю незначительных отклонений от среднего дохода (больше мелких неожиданностей) и большую долю экстремально больших отклонений от среднего дохода (больше больших неожиданностей). Большинство инвесторов воспринимают большую вероятность очень больших отклонений от среднего как повышенный риск.

График, представленный ниже, иллюстрирует островершинное распределение. Оно имеет более острую вершину и более толстые хвосты, чем нормальное распределение.

Расчет коэффициента эксцесса включает в себя определение среднего отклонения от среднего, возведенного в четвертую степень, а затем деление результата на стандартное отклонение, возведенное в четвертую степень.

Эта мера не привязана к шкале. Значение эксцесса всегда положительно, потому что отклонения возведены в четвертую степень.

Для всех нормальных распределений эксцесс равен 3. Многие статистические программные пакеты рассчитывают избыточный эксцесс, как эксцесс минус 3.

Избыточный эксцесс (англ. ‘excess kurtosis’), таким образом, характеризует эксцесс относительно нормального распределения:

Формула избыточного эксцесса выборки.

Ниже приведена формула для расчета выборочного избыточного эксцесса (англ. ‘sample excess kurtosis’):

Для выборки из 100 наблюдений или больше, при нормальном распределении, избыточный эксцесс выборки равный 1.0 или больше будет считаться необычно большим.

Было обнаружено, что большинство рядов доходности акций являются островершинными. Если обратное распределение имеет положительный избыточный эксцесс (лептокуртоз) и мы используем статистические модели, которые не учитывают более толстые хвосты, мы будем недооценивать вероятность очень плохих или очень хороших результатов.

Например, доходность S&P 500 за 19 октября 1987 года составляла 20 стандартных отклонений от средней дневной доходности. Такой результат возможен при нормальном распределении, но его вероятность почти равна 0.

Если ежедневные ставки доходности взяты из нормального распределения, то

Доходность за октябрь 1987 года, скорее всего, была получена из распределения с более толстыми хвостами, чем у нормального распределения.

Если посмотреть на Таблицу 27, приведенную ранее, то в месячной доходности индекса S&P 500 наблюдается очень большой избыточный эксцесс, приблизительно 9.4. Это чрезвычайно толстый хвост по сравнению с нормальным распределением. В отличие от месячной доходности, ряд годовой доходности почти не имеет избыточного эксцесса.

Результаты по избыточному эксцессу согласуются с результатами исследований, согласно которым нормальное распределение является лучшим приближением для доходности акций США с годовым периодом владения, чем для доходности с более короткими (например, месячным) периодами владения.

Следующий пример иллюстрирует расчет избыточного эксцесса выборки для одного из двух взаимных фондов, рассмотренных ранее.

Пример расчета выборочного избыточного эксцесса доходности.

Сделав вывод о том, что годовая доходность фонда T. Rowe Price Equity Income была отрицательно ассиметрична в течение периода 2003-2012 гг., что мы можем сказать об эксцессе распределения доходности фонда?

В Таблице 28 (повторно) приводятся годовые доходы фонда.

Источник

Коэффициент эксцесса

Коэффицие́нт эксце́сса (коэффициент островершинности) в теории вероятностей — мера остроты пика распределения случайной величины.

Содержание

Определение

Пусть задана случайная величина 02129bb861061d1a052c592e2dc6b383, такая что 77987aef9c4923754cf48b2b58b9c289. Пусть 45cd013b5d64ca4fa217bde63ef2f680обозначает четвёртый центральный момент: 8215de111dd454130aaf40f4124a507b, а 499fd937587b6fa6d589eaecbc5897f8— стандартное отклонение 02129bb861061d1a052c592e2dc6b383. Тогда коэффициент эксцесса задаётся формулой:

35b6f4a968ae6d1c3b1bf93906e1c6fe.

Замечание

Свойства коэффициента эксцесса

где 55aaca54ff0f55d3d2c1211e1ec70492— коэффициенты эксцесса соответствующих случайных величин.

См. также

Смотреть что такое «Коэффициент эксцесса» в других словарях:

ЭКСЦЕССА КОЭФФИЦИЕНТ — эксцесс, скалярная характеристика островершинности графика плотности вероятности унимодального распределения, к рую используют в качестве нек рой меры отклонения рассматриваемого распределения от нормального. Э. к. определяется по формуле где… … Математическая энциклопедия

АСИММЕТРИИ КОЭФФИЦИЕНТ — наиболее употребительная мера асимметрии распределения, определяемая отношением где и второй и третий центральные моменты распределения, соответственно. Для распределений, симметричных относительно математич. ожидандания, ; в зависимости от знака … Математическая энциклопедия

Статистика (функция выборки) — У этого термина существуют и другие значения, см. Статистика (значения). Статистика (в узком смысле) это измеримая числовая функция от выборки, не зависящая от неизвестных параметров распределения. В широком смысле термин (математическая)… … Википедия

Логистическое распределение — Плотность вероятности Функция распределения … Википедия

Нормальное распределение — Плотность вероятности Зеленая лин … Википедия

Непрерывное равномерное распределение — У этого термина существуют и другие значения, см. Равномерное распределение. Непрерывное равномерное распределение Плотность вероятности Функция распределения … Википедия

Распределение Коши — Плотность вероятности … Википедия

Распределение Лапласа — Плотность вероятности … Википедия

Коши распределение — Распределение Коши Плотность вероятности Зелёная кривая соответствует стандартному распределению Коши Функция распределения Цвета находятся в соответствии с гр … Википедия

Источник

Понятие параметрических тестов, ассиметрии и эксцесса

В данной статье представлены важные категории логически выводимых статистических тестов и обсуждаются параметры описательной статистики, относящиеся к нормальному распределению.

Добро пожаловать в нашу серию статей о статистике в электротехнике. Ранее мы рассмотрели статистический анализ и описательный анализ в электротехнике, а затем обсудили среднее отклонение, стандартное отклонение и дисперсию в обработке сигналов.

Теперь мы перешли к исследованию нормального распределения в электротехнике, в частности, как понимать гистограммы, вероятность и кумулятивную функцию распределения нормально распределенных данных. Данная статья расширяет это обсуждение, касаясь параметрических тестов, асимметрии и эксцесса.

Когда нормальное распределение не выглядит нормальным

В предыдущих статьях мы рассмотрели нормальное распределение (также известное как распределение Гаусса) как идеализированное математическое распределение и как гистограмму, полученную из эмпирических данных. Если измеряемое явление характеризуется нормальным распределением значений, форма гистограммы по мере увеличения размера выборки будет всё больше похожа на колоколообразную (гауссову) кривую.

Однако это приводит нас к интересному вопросу: как мы узнаем, что явление характеризуется нормальным распределением значений?

Если у нас есть большой объем данных, мы можем просто посмотреть на гистограмму и сравнить ее с гауссовой кривой. Однако с меньшими наборами данных ситуация будет сложнее. Даже если мы анализируем базовый процесс, который действительно создает нормально распределенные данные, гистограммы, созданные из небольших наборов данных, могут оставлять место для сомнений.

0246ea97d4b6ba3141fd2c2d01b1a65c3fedc54f Рисунок 1 – Распределены ли эти данные нормально?

В данной статье мы обсудим два описательных статистических показателя (асимметрию и эксцесс), которые помогут нам определить, соответствуют ли наши данные нормальному распределению.

Однако сначала я хочу изучить связанный с этим вопрос: почему нас волнует, соответствует ли набор данных нормальному распределению?

Параметрические и непараметрические тесты

Существуют различные статистические методы, помогающие нам анализировать и интерпретировать данные, и некоторые из этих методов относятся к категории статистических выводов. Мы часто используем слово «тест», когда говорим о статистической процедуре вывода, и эти тесты могут быть параметрическими или непараметрическими.

Различие между параметрическими и непараметрическими тестами заключается в характере данных, к которым применяется тест. Когда набор данных демонстрирует распределение, которое в достаточной степени согласуется с нормальным распределением, можно использовать параметрические тесты. Когда данные не распределены нормально, мы переходим к непараметрическим тестам.

Примерами параметрических тестов являются парный t-критерий, односторонний дисперсионный анализ (ANOVA) и коэффициент корреляции Пирсона. Непараметрическими альтернативами этим критериям являются, соответственно, критерий знаковых рангов Уилкоксона, критерий Краскела–Уоллиса и ранговая корреляция Спирмена.

Почему «параметрический» и «непараметрический»?

Если вас смущает эта терминология параметрический/непараметрический, вот объяснение: параметр – это характеристика всей генеральной совокупности (совокупности значений), например, средний рост всех канадцев или стандартное отклонение выходных напряжений, генерируемых всеми микросхемами эталонного напряжения REF100 (я придумал эту модель микросхемы).

Обычно мы не можем знать параметр с уверенностью потому, что наши данные представляют собой только выборку из генеральной совокупности. Однако мы можем произвести оценку параметра, вычислив соответствующее статистическое значение на основе выборки.

Параметрические тесты основываются на предположениях, связанных с нормальностью распределения генеральной совокупности, и параметрами, которые характеризуют это распределение. Когда данные не распределены нормально, мы не можем делать такие предположения, и, следовательно, мы должны использовать непараметрические тесты.

Зачем заморачиваться с параметрическими тестами?

Если существуют непараметрические тесты и их можно применять независимо от нормальности распределения, зачем утруждать себя определением, является ли распределение нормальным? Давайте, просто применим непараметрический тест и покончим с этим!

Есть простая причина, по которой мы избегаем непараметрических тестов, когда данные достаточно нормальны: параметрические тесты, как правило, более эффективны. «Эффективность» в статистическом смысле означает, насколько эффективно тест обнаружит взаимосвязь между переменными (если эта взаимосвязь существует). Мы можем сделать любой тип тестов более эффективным, увеличив размер выборки, но для того, чтобы получить наилучшую информацию из имеющихся данных, мы по возможности используем параметрические тесты.

Оценка нормальности: асимметрия и эксцесс

Мы можем попытаться определить, демонстрируют ли эмпирические данные неопределенно нормальное распределение, просто взглянув на гистограмму. Однако, чтобы решить, является ли распределение достаточно нормальным, чтобы оправдать использование параметрических тестов, нам могут потребоваться дополнительные аналитические методы.

Асимметрия

Один из этих методов – вычислить асимметрию набора данных. Нормальное распределение идеально симметрично относительно среднего, и, таким образом, любое отклонение от идеальной симметрии указывает на некоторую степень ненормальности измеренного распределения.

На следующем рисунке представлены примеры асимметричных форм распределения.

664c4dd904fa043446b519357b94f443f7b6fa83 Рисунок 2 – Изображение положительной асимметрии, нулевой асимметрии и отрицательной асимметрии

Асимметрия может представляться положительным или отрицательным числом (или нулем). Распределения, симметричные относительно среднего значения, такие как нормальное распределение, имеют нулевую асимметрию. Распределение, которое «наклоняется» вправо, имеет отрицательную асимметрию, а распределение, которое «наклоняется» влево, имеет положительную асимметрию.

Как правило, значения асимметрии, которые находятся в пределах ±1 от асимметрии нормального распределения, указывают на достаточную нормальность для использования параметрических тестов.

Эксцесс

Мы используем эксцесс, чтобы количественно оценить тенденцию явления создавать значения, далекие от среднего. Существуют различные способы описания информации, которую эксцесс передает о наборе данных: «хвостатость» (обратите внимание, что значения, далекие от среднего, находятся в хвостах распределения), «величина хвоста» или «вес хвоста» и «островершинность» (последнее несколько проблематично, потому что эксцесс напрямую не измеряет остроту или гладкость).

Нормальное распределение имеет значение эксцесса 3. Следующая диаграмма дает общее представление о том, как эксцесс больше или меньше 3 соответствует формам ненормального распределения.

4708e75e1b79485fdd45259d4b699b9a5f151742 Рисунок 3 – Обратите внимание, что эксцесс больше или меньше 3 соответствует формам, отличным от нормального распределения.

Оранжевая кривая – нормальное распределение. Обратите внимание, что синяя кривая по сравнению с оранжевой кривой имеет большую «величину хвоста», то есть большую массу вероятности в хвостах. Эксцесс синей кривой, которая называется распределением Лапласа, равен 6. Зеленая кривая называется равномерным распределением; вы можете видеть, что хвосты отсутствуют. Эксцесс равномерного распределения равен 1,8.

Как и в случае асимметрии, общее правило состоит в том, что эксцесс в пределах ±1 от эксцесса нормального распределения указывает на достаточную нормальность.

Заключение

Конечно, о параметрических тестах, асимметрии и эксцессе можно сказать гораздо больше, но я думаю, что мы рассмотрели достаточно материала для вводной статьи. Обобщим вышесказанное:

Источник

7. Асимметрия и эксцесс эмпирического распределения

В предыдущих статьях мы познакомились с показателями центральной тенденции и вариации, и сейчас рассмотрим ещё пару характеристик статистической совокупности. Для тех, кто зашёл с поисковика и хочет изучить тему с азов, сразу ссылка на организационный урок: Математическая статистика для «чайников», там же, в конце, список всех статей курса. И до статьи 7-й – как рукой подать, после чего будет небольшой и очень приятый экзамен.

Итак, что такое асимметрия и эксцесс? Говоря простым языком, это показатели, характеризующие геометрическую форму распределения. Асимметрия характеризует меру скошенности графика влево / вправо, а эксцесс – меру его высоты.

Данные показатели рассчитываются как для эмпирических, так и для теоретических распределений, которые мы изучили в курсе теории вероятностей, и за «эталон» симметрии принято нормальное распределение:

Очевидно, что любое нормальное распределение строго симметрично относительно своего центра, следовательно, его асимметрия равна нулю. Данный график кажется пологим, но стандартное отклонение в данном примере достаточно велико (см. на синие точки) и на самом деле такая высота «гармонична». Поэтому эксцесс нормального распределения (любого) принимают за «отправную» нулевую точку.

Почему именно нормальное распределение? Потому что философское – обязательно прочитайте эту интереснейшую статью по ссылке, если ещё не успели этого сделать!

В теории вероятностей существуют строгие формулы для вычисления коэффициентов асимметрии и эксцесса (будут ниже), но на практике мне такие задачи не встречались. И поэтому я сразу перехожу к статистике и распределениям эмпирическим, т.к. здесь таких задач как раз выше крыши. С положительным эксцессом, если выразиться тематически 🙂

Начнём с асимметрии. Асимметрия характеризует меру скошенности полигона или гистограммы влево / вправо относительно самого высокого участка, и во многих случаях для «прикидки» асимметрии достаточно взглянуть на соответствующие чертежи. Так, например, посмотрим на полигон частот из Примера 8:

И, в принципе, тут всё видно – пациент скорее симметричен, чем асимметричен 🙂

Простейшим критерием симметрии является равенство средней, моды и медианы: но в жизни такого идеального совпадения, конечно, не бывает (даже тело человека немного асимметрично), и поэтому у «почти симметричных» распределений эти показатели должны располагаться очень близко друг к другу. И в самом деле, как мы вычислили в Примере 8: .

Обратите внимание, что рассматриваемые распределения имеют единственную модальную вершину, и далее речь пойдёт только о таких распределениях.

Правосторонняя асимметрия характеризуется удлинённым правым «хвостом», смотрим на гистограмму Примера 10:

Простейшим признаком правосторонней асимметрии является тот факт, что , и это неудивительно – ведь справа находится значительное количество вариант, и поэтому средняя смещена вправо. И поэтому английский статистик Карл Пирсон, который ещё не раз нас порадует своими методами, предложил следующую формулу для расчёта коэффициента асимметрии:

, где среднее квадратическое отклонение статистической совокупности. Что тоже логично, ведь у разных распределений – разный «разброс» значений и разные представления о мере асимметрии.

Левостороння асимметрия, наоборот, характеризуются удлинённым левый «хвостом» и неравенством ,…. картинки быстро не нашлось, поэтому просто разверну чертёж в графическом редакторе:

Из формулы следует, что в левостороннем случае коэффициент асимметрии отрицателен (т.к. ), а в правостороннем – положителен (), и чем больше по модулю – тем сильнее скос распределения.

Недостаток формулы Пирсона состоит в том, что она описывает лишь центральную часть распределения и практически не учитывает «периферию». И, чтобы вас томить, сразу продвинутая формула, которая охватывает все варианты, для определённости запишу её для выборочной совокупности объёма :

, где – куб стандартного выборочного отклонения, а – так называемый центральный эмпирический момент третьего порядка. Для несгруппированной статической совокупности он рассчитывается так:
( выборочная средняя),
а для сформированного вариационного ряда – так:
, где варианты дискретного ряда или середины частичных интервалов интервального ряда, а – соответствующие частоты.

Смысл знаков тот же самый: если , то распределение скошено вправо, если – то влево. При этом принята следующая условная градация: если полученное значение по модулю меньше, чем 0,25, то асимметрия незначительна, если , то умеренная, и если , то существенная.

И чем МЕНЬШЕ по модулю , тем рассматриваемое эмпирическое распределение БЛИЖЕ к нормальному распределению с параметрами .

Справочно формулы теории вероятностей: асимметрия случайной величины рассчитывается по «родственной» формуле , где – среднее квадратическое отклонение, а центральный теоретический момент 3-го порядка. Для дискретной случайной величины он рассчитывается так: , а для непрерывной – через интеграл: .

Теперь об эксцессе замолвим слово. Он характеризует высоту и очень коварный. В том смысле, что глаза будут часто обманывать. Так, например, посмотрим на чертёж Примера 7 из статьи об интервальном вариационном ряде:

Ну видно же – гистограмма и полигон серьёзно вытянуты вверх. Но это только кажется. Дело в том, что стандартное отклонение этого распределения невелико, и для сего небольшого рассеяния такая высота ДАЖЕ МАЛА. МалА – по сравнению с «эталонным» нормальным распределением с параметрами .

Поэтому аналитика и ещё раз аналитика. Коэффициент эксцесса эмпирического распределения рассчитывается по формуле:

, где центральный эмпирический момент четвёртого порядка:
– для несгруппированных данных, и
– для сформированного вариационного ряда.

Для случайных величин из тервера формула схожа: , где – для дискретной, и – для непрерывной случайной величины.

Если , то эмпирическое распределение является более высоким («островершинным») – относительно «эталонного» нормального распределения с параметрами . Если же – то более низким и пологим. И чем больше по модулю, тем «аномальнее» высота в ту или иную сторону.

В примере выше, как ни странно, , и сейчас мы убедимся в этом аналитически:

Итак, сто пачек чая из Примера 7 ( – середины интервалов):

и нам требуется вычислить коэффициенты асимметрии и эксцесса

Решение: поскольку в формулах асимметрии и эксцесса фигурирует стандартное отклонение, то сначала нужно рассчитать выборочную среднюю и дисперсию.

Вычислим произведения , их сумму и грамм – средний вес пачки чая. Дисперсию здесь сподручнее найти не по формуле, а по определению: . Для этого рассчитаем произведения и сразу :

Ловкость рук и никаких трудностей, вы удивитесь, как всё быстро:

Собственно, финальные расчёты:

здесь правильнее, конечно, отклонение поправить, но обычно этим пренебрегают.

Центральные моменты 3-го и 4-го порядков:

И, наконец, коэффициенты. Вычислим коэффициент асимметрии:
, то есть, распределение обладает существенной правосторонней асимметрией, что, кстати, хорошо было видно по чертежу.

Вычислим коэффициент эксцесса:
– вот оно как! Оказывается, распределение не то что выше, а заметно ниже, чем нормальное распределение с параметрами

Ответ:

Вот такой вот у нас получился эксекас 🙂

Помимо геометрических форм, эти коэффициенты позволяют «прикинуть», насколько близка к нормальному распределению не только выборочная, но и вся генеральная совокупность. Это одна из важнейших задач статистики, которую мы разберём в разделе Статистические гипотезы.

Ну а сейчас я предлагаю вам небольшое экзаменационное задание по первым семи урокам. Оно типично для студенческой практики – дана статистическая совокупность, и требуется выполнить много-много чего. Внимательно проверьте, всё ли вы усвоили, всё ли умеете:

В результате эксперимента получены данные, записанные в виде статистического ряда:

…это ещё ерунда 🙂

И сразу обратите внимание, что в условии речь идёт о результатах эксперимента, а значит, перед нами выборочная совокупность, т.к. теоретически опыты можно повторять бесконечное количество раз.

1) Составить интервальный вариационный ряд, состоящий из 9 равных интервалов. Видео в помощь.

3) Найти моду и медиану.

5) Вычислить коэффициенты асимметрии и эксцесса, сделать выводы.

Не тушуйтесь – я с вами! Краткое решение для сверки внизу страницы.

И на этом, как вы правильно догадались, дело не заканчивается, поэтому сохраните файл с решением! Типовая задача содержит больше пунктов, и после изучения гипотезы о законе распределения генеральной совокупности, выполняем следующие задания:

6) По найденным характеристикам сделать вывод о форме эмпирического ряда распределения.

7) Построить нормальную кривую по опытным данным на графике гистограммы.

8) Произвести оценку степени близости теоретического распределения эмпирическому ряду с помощью критерия согласия Пирсона на уровне значимости 0,05.

Пример 20. Решение:

1) По статистическим данным находим: , .
Вычислим размах вариации: ед.
По условию, выборку следует разделить на равных интервалов, таким образом, длина частичного интервала:
ед.
Разметим интервалы и подсчитаем частоты по каждому интервалу, после чего убедимся, что объём выборки . Вычислим относительные частоты и относительные накопленные частоты :

2) Построим гистограмму относительных частот:

и эмпирическую функцию распределения:

3) Моду вычислим по формуле , в данном случае:
– нижняя граница модального интервала;
– длина модального интервала;
– частота модального интервала;
– частота предыдущего интервала;
– частота следующего интервала.

Таким образом:
ед.

Медиану вычислим по формуле , в данном случае:
– объём выборочной совокупности;
половину вариант содержит интервал и – его нижняя граница;
– длина медианного интервала;
– частота медианного интервала;
– накопленная частота предыдущего интервала.

Таким образом:
ед.

4) Найдём середины интервалов, произведения и вычислим выборочную среднюю ед., после чего заполним оставшуюся часть таблицы и рассчитаем остальные показатели:

Выборочная дисперсия:
,
выборочное среднее квадратическое отклонение:
ед.,
коэффициент вариации:

5) Вычислим центральные эмпирические моменты 3-го и 4-го порядков:

коэффициент асимметрии:

и коэффициент эксцесса:

Таким образом, выборочная совокупность практически симметрична, но несколько ниже, чем нормальное распределение с параметрами .

Автор: Емелин Александр

(Переход на главную страницу)

mark Zaochnik.com – профессиональная помощь студентам

cкидкa 15% на первый зaкaз, прoмoкoд: 5530-hihi5

Источник

Комфорт
Adblock
detector