Что показывает коэффициент детерминации

kofe chashka ruki 191246 1280x720 Вес тела
Содержание
  1. Коэффициент детерминации
  2. Материал из MachineLearning.
  3. Содержание
  4. Определение и формула
  5. Интерпретация
  6. Недостатки и альтернативные показатели
  7. Скорректированный (adjusted)
  8. Обобщённый (extended)
  9. Коэффициент детерминации: обзор
  10. Что такое Коэффициент детерминации: обзор?
  11. Ключевые моменты
  12. Понимание коэффициента детерминации
  13. График коэффициента детерминации
  14. СОДЕРЖАНИЕ
  15. Определения
  16. Отношение к необъяснимой дисперсии
  17. Как объяснили дисперсию
  18. Квадрат коэффициента корреляции
  19. Интерпретация
  20. В многолинейной модели
  21. Инфляция R 2
  22. Предостережения
  23. Расширения
  24. Скорректированный R 2
  25. Коэффициент частичной детерминации
  26. Обобщение и разложение R 2
  27. R 2 в логистической регрессии
  28. Сравнение с нормой остатков
  29. История
  30. Коэффициент детерминации
  31. Что такое коэффициент детерминации?
  32. Ключевые выводы
  33. Понимание коэффициента детерминации
  34. График коэффициента детерминации
  35. Коэффициент вариации и коэффициент детерминации
  36. Понятие коэффициента вариации
  37. Эмпирический коэффициент детерминации

Коэффициент детерминации

Материал из MachineLearning.

Содержание

Определение и формула

Истинный коэффициент детерминации модели зависимости случайной величины от признаков определяется следующим образом:

где — условная (по признакам ) дисперсия зависимой переменной (дисперсия случайной ошибки модели).

В данном определении используются истинные параметры, характеризующие распределение случайных величин. Если использовать выборочную оценку значений соответствующих дисперсий, то получим формулу для выборочного коэффициента детерминации (который обычно и подразумевается под коэффициентом детерминации):

— сумма квадратов регрессионных остатков, — общая дисперсия, — соответственно, фактические и расчетные значения объясняемой переменной, — выборочное вреднее.

Необходимо подчеркнуть, что эта формула справедлива только для модели с константой, в общем случае необходимо использовать предыдущую формулу.

Интерпретация

Недостатки и альтернативные показатели

Основная проблема применения (выборочного) заключается в том, что его значение увеличивается (не уменьшается) от добавления в модель новых переменных, даже если эти переменные никакого отношения к объясняемой переменной не имеют. Поэтому сравнение моделей с разным количеством признаков с помощью коэффициента детерминации, вообще говоря, некорректно. Для этих целей можно использовать альтернативные показатели.

Скорректированный (adjusted)

Для того, чтобы была возможность сравнивать модели с разным числом признаков так, чтобы число регрессоров (признаков) не влияло на статистику обычно используется скорректированный коэффициент детерминации, в котором используются несмещённые оценки дисперсий:

который даёт штраф за дополнительно включённые признаки, где — количество наблюдений, а — количество параметров.

Данный показатель всегда меньше единицы, но теоретически может быть и меньше нуля (только при очень маленьком значении обычного коэффициента детерминации и большом количестве признаков), поэтому интерпретировать его как долю объясняемой дисперсии уже нельзя. Тем не менее, применение показателя в сравнении вполне обоснованно.

Обобщённый (extended)

Для случая регрессии без свободного члена:

При некоторой модификации также подходит для сравнения между собой регрессионных моделей, построенных с помощью: МНК, обобщённого метода наименьших квадратов (ОМНК), условного метода наименьших квадратов (УМНК), обобщённо-условного метода наименьших квадратов (ОУМНК).

Источник

Коэффициент детерминации: обзор

Что такое Коэффициент детерминации: обзор?

Коэффициент детерминации – это статистическое измерение, которое исследует, как различия в одной переменной могут быть объяснены разницей во второй переменной при прогнозировании результата данного события. Другими словами, этот коэффициент, который более известен как R-квадрат (или R 2 ), оценивает, насколько сильна линейная связь между двумя переменными, и на него в значительной степени полагаются исследователи при проведении анализа тенденций. Приведем пример его применения: этот коэффициент может включать следующий вопрос: если женщина забеременеет в определенный день, какова вероятность того, что она родит ребенка в определенный день в будущем? В этом сценарии этот показатель предназначен для расчета корреляции между двумя взаимосвязанными событиями: зачатием и рождением.

Ключевые моменты

Понимание коэффициента детерминации

Коэффициент детерминации – это измерение, используемое для объяснения того, насколько изменчивость одного фактора может быть вызвана его взаимосвязью с другим связанным фактором. Эта корреляция, известная как « степень соответствия », представлена ​​как значение от 0,0 до 1,0. Значение 1,0 указывает на идеальное соответствие и, таким образом, является высоконадежной моделью для будущих прогнозов, а значение 0,0 указывает на то, что расчет вообще не может точно моделировать данные. Но значение 0,20, например, предполагает, что 20% зависимой переменной предсказывается независимой переменной, а значение 0,50 предполагает, что 50% зависимой переменной предсказывается независимой переменной, и так далее.

График коэффициента детерминации

На графике степень соответствия измеряет расстояние между подогнанной линией и всеми точками данных, разбросанными по диаграмме. Плотный набор данных будет иметь линию регрессии, которая близка к точкам и будет иметь высокий уровень соответствия, что означает, что расстояние между линией и данными небольшое. Хотя хорошее соответствие имеет R 2, близкое к 1,0, одно только это число не может определить, смещены ли точки данных или прогнозы. Он также не сообщает аналитикам, является ли значение коэффициента детерминации действительно хорошим или плохим. Пользователь по своему усмотрению может оценить значение этой корреляции и то, как ее можно применить в контексте анализа будущих тенденций.

Источник

300px Okuns law quarterly differences.svg

220px Thiel Sen estimator.svg

Бывают случаи, когда вычислительное определение R 2 может давать отрицательные значения, в зависимости от используемого определения. Это может возникнуть, если прогнозы, которые сравниваются с соответствующими результатами, не были получены в результате процедуры подгонки модели с использованием этих данных. Даже если была использована процедура подбора модели, R 2 все еще может быть отрицательным, например, когда линейная регрессия проводится без включения точки пересечения или когда для подгонки данных используется нелинейная функция. В случаях, когда возникают отрицательные значения, среднее значение данных лучше соответствует результатам, чем значения подобранной функции, в соответствии с этим конкретным критерием.

СОДЕРЖАНИЕ

Определения

400px Coefficient of Determination.svg

у ¯ знак равно 1 п ∑ я знак равно 1 п у я <\ displaystyle <\ bar > = <\ frac <1>> \ sum _ ^ y_ > svg

тогда изменчивость набора данных может быть измерена двумя формулами сумм квадратов :

Наиболее общее определение коэффициента детерминации:

Отношение к необъяснимой дисперсии

Как объяснили дисперсию

S S res + S S рег знак равно S S малыш <\ displaystyle SS _ <\ text > + SS _ <\ text > = SS _ <\ text >> svg

См. Раздел Разбиение в общей модели OLS для вывода этого результата для одного случая, когда соотношение выполняется. Когда это отношение делает захват, приведенное выше определение R 2 эквивалентно

В этой форме R 2 выражается как отношение объясненной дисперсии (дисперсия прогнозов модели, которая является SS reg / n ) к общей дисперсии (выборочная дисперсия зависимой переменной, которая равна SS tot / n ).

Этот набор условий является важным и имеет ряд последствий для свойств подобранных остатков и смоделированных значений. В частности, в этих условиях:

Квадрат коэффициента корреляции

Его не следует путать с коэффициентом корреляции между двумя оценками, определяемым как

где ковариация между двумя оценками коэффициентов, а также их стандартные отклонения получаются из ковариационной матрицы оценок коэффициентов.

Интерпретация

Значения R 2 вне диапазона от 0 до 1 могут возникать, когда модель соответствует данным хуже, чем горизонтальная гиперплоскость. Это могло произойти, если была выбрана неправильная модель или по ошибке были применены бессмысленные ограничения. Если используется уравнение 1 Кволсета (это уравнение используется наиболее часто), R 2 может быть меньше нуля. Если используется уравнение 2 Квалсета, R 2 может быть больше единицы.

В многолинейной модели

Рассмотрим линейную модель с более чем одной независимой переменной вида

Инфляция R 2

Предостережения

Расширения

Скорректированный R 2

Принцип, лежащий в основе скорректированной статистики R 2, можно увидеть, переписав обычное R 2 как

Коэффициент частичной детерминации

Коэффициент частичной детерминации можно определить как долю вариации, которая не может быть объяснена в сокращенной модели, но может быть объяснена предикторами, указанными в полной (er) модели. Этот коэффициент используется для понимания того, могут ли один или несколько дополнительных предикторов быть полезными в более полностью определенной регрессионной модели.

Расчет для частичного R 2 является относительно простым после того, как две модели оценки и генерации ANOVA таблиц для них. Расчет для частичного R 2 IS

который аналогичен обычному коэффициенту детерминации:

Обобщение и разложение R 2

Как объяснялось выше, эвристика выбора модели, такая как скорректированный критерий и F-тест, проверяет, достаточно ли увеличивается общая сумма, чтобы определить, следует ли добавить в модель новый регрессор. Если к модели добавлен регрессор, который сильно коррелирован с другими регрессорами, которые уже были включены, то итоговое значение вряд ли увеличится, даже если новый регрессор является актуальным. В результате вышеупомянутая эвристика будет игнорировать соответствующие регрессоры, когда взаимная корреляция высока. р 2 <\ displaystyle R ^ <2>> svgр 2 <\ displaystyle R ^ <2>> svgр 2 <\ displaystyle R ^ <2>> svg

220px Geometric R squared .svg

р ⊗ знак равно ( Икс ′ у

R 2 в логистической регрессии

Нагелькерке отметил, что он обладает следующими свойствами:

Сравнение с нормой остатков

Иногда для указания степени соответствия используется норма остатков. Этот член рассчитывается как квадратный корень из суммы квадратов остатков :

Оба R 2 и норма невязки имеют свои относительные преимущества. Для анализа методом наименьших квадратов R 2 изменяется от 0 до 1, при этом более крупные числа указывают на лучшее соответствие, а 1 представляет собой идеальное соответствие. Норма остатков варьируется от 0 до бесконечности, при этом меньшие числа указывают на лучшее соответствие, а ноль указывает на идеальное соответствие. Одним из преимуществ и недостатков R 2 является то, что этот член нормализует значение. Если все значения y i умножить на константу, норма остатков также изменится на эту константу, но R 2 останется прежним. В качестве базового примера для линейного метода наименьших квадратов, подходящего к набору данных: S S малыш <\ displaystyle SS _ <\ text >> svg

R 2 = 0,998, а норма остатков = 0,302. Если все значения y умножаются на 1000 (например, при изменении префикса SI ), то R 2 остается прежним, но норма остатков = 302.

История

Создание коэффициента детерминации было приписано генетику Сьюоллу Райту и впервые было опубликовано в 1921 году.

Источник

Коэффициент детерминации

Что такое коэффициент детерминации?

Коэффициент детерминации – это статистическое измерение, которое исследует, как различия в одной переменной могут быть объяснены разницей во второй переменной при прогнозировании исхода данного события. Другими словами, этот коэффициент, более известный как R-квадрат (или R 2 ), оценивает, насколько сильна линейная связь между двумя переменными, и на него сильно полагаются исследователи при проведении анализа тенденций. Приведем пример его применения: этот коэффициент может включать в себя следующий вопрос: если женщина забеременеет в определенный день, какова вероятность того, что она родит ребенка в определенный день в будущем? В этом сценарии этот показатель предназначен для расчета корреляции между двумя взаимосвязанными событиями: зачатием и рождением.

Ключевые выводы

Понимание коэффициента детерминации

Коэффициент детерминации – это измерение, используемое для объяснения того, насколько изменчивость одного фактора может быть вызвана его взаимосвязью с другим связанным фактором. Эта корреляция, известная как « степень соответствия », представлена ​​как значение от 0,0 до 1,0. Значение 1,0 указывает на идеальное соответствие и, таким образом, является высоконадежной моделью для будущих прогнозов, а значение 0,0 указывает на то, что расчет вообще не может точно смоделировать данные. Но значение 0,20, например, предполагает, что 20% зависимой переменной предсказывается независимой переменной, тогда как значение 0,50 предполагает, что 50% зависимой переменной предсказывается независимой переменной, и так далее.

График коэффициента детерминации

На графике степень соответствия измеряет расстояние между подогнанной линией и всеми точками данных, которые разбросаны по диаграмме. Плотный набор данных будет иметь линию регрессии, которая близка к точкам и будет иметь высокий уровень соответствия, что означает, что расстояние между линией и данными невелико. Хотя хорошее соответствие имеет R 2, близкое к 1,0, само по себе это число не может определить, смещены ли точки данных или прогнозы. Он также не сообщает аналитикам, является ли значение коэффициента детерминации изначально хорошим или плохим. Пользователь по своему усмотрению может оценить значение этой корреляции и то, как ее можно применить в контексте анализа будущих тенденций.

Источник

Коэффициент вариации и коэффициент детерминации

Понятие коэффициента вариации

Коэффициент вариации — это отношение среднего квадратического отклонения к средней арифметической, выраженное в процентах. Он применяется для сравнений колеблемости одного и того же признака в нескольких совокупностях с различным средним арифметическим.

Расчет коэффициента осуществляется по формуле:

k variatsii

Коэффициент вариации используют не только для сравнительной оценки единиц совокупности, но и также для характеристики однородности совокупности. Совокупность считается однородной, если коэффициент вариации не превышает 33%.

Пример решения задачи на нахождение коэффициента вариации Вы можете посмотреть здесь

Вариация признака определяется различными факторами, часть этих факторов можно выделить, если статистическую совокупность разделить на группы по определенному признаку. Тогда, наряду с изучением вариации признака по совокупности в целом, можно изучить вариацию для каждой из составляющих ее группы и между этими группами. В простом случае, когда совокупность разделена на группы по одному фактору, изучение вариации достигается посредством вычисления и анализа трех видов дисперсий: общей, межгрупповой и внутригрупповой.

Эмпирический коэффициент детерминации

Эмпирический коэффициент детерминации широко применяется в статистическом анализе и является показателем, представляющим долю межгруппопой дисперсии в дисперсии результативного признака и характеризует силу влияния группировочного признака на образование общей вариации. Он может быть рассчитан по формуле:

k determinatsii

Коэффициент детерминации показывает долю вариации результативного признака у под влиянием факторного признака х, он связан с коэффициентом корреляции квадратичной зависимостью. При отсутствии связи эмпирический коэффициент детерминации равен нулю, а при функциональной связи — единице.

Например, когда изучается зависимость производительности труда рабочих от их квалификации коэффициент детерминации равен 0,7, то на 70% вариация производительности труда рабочих обусловлена различиями в их квалификации и на 30% — влиянием прочих факторов.

Если связь функциональная, то корреляционное отношение равняется единице. В таком случае дисперсия групповых средних равна общей дисперсии, т.е. внутригрупповой вариации нет. Это значит, что группировочный признак полностью определяет вариацию результативного признака.

Чем ближе значение корреляционного отношения к единице, тем сильнее и ближе к функциональной зависимости связь между признаками. Для качественной оценки силы связи на основе показателя эмпирического коэффициента корреляции можно использовать соотношение Чэддока.

Источник

Комфорт
Adblock
detector