Формула коэффициента корреляции пирсона

Пример расчета коэффициента корреляции Пирсона

Например, нам необходимо определить взаимосвязь двух переменных агрессивности и IQ у школьников по полученным данным тестирования.

Данные сведем в одну таблицу:

Данные по агрессивности ( ) Данные по IQ ( )
1 24 100
2 27 115
3 26 117
4 21 119
5 20 134
6 31 94
7 26 105
8 22 103
9 20 111
10 18 124
11 30 122
12 29 109
13 24 110
14 26 86

1. Вычисляем суму значений и

3. Вычисляем для каждого испытуемого отклонения от среднего арифметического для и

1 0,6 10,6
2 -2,4 -4,4
3 -1,4 -6,4
4 3,6 -8,4
5 4,6 -23,4
6 -6,4 16,6
7 -1,4 5,6
8 2,6 7,6
9 4,6 -0,4
10 6,6 -13,4
11 -5,4 -11,4
12 -4,4 1,6
13 0,6 0,6
14 -1,4 24,6

4.Затем мы возводим в квадрат каждое отклонение:

1 0,36 112,36
2 5,76 19,36
3 1,96 40,96
4 12,96 70,56
5 21,16 547,56
6 40,96 275,56
7 1,96 31,36
8 6,76 57,79
9 21,16 0,16
10 43,56 179,56
11 29,16 129,96
12 19,36 2,56
13 0,36 0,36
14 1,96 605,16

5. Потом рассчитываем сумма квадратов отклонений: и

6. Рассчитываем для каждого наблюдения произведение разности среднего арифметического и значения

1 6,36
2 10,56
3 8,96
4 -30,24
5 -107,64
6 -106,24
7 -7,84
8 19,76
9 -1,84
10 -88,44
11 61,56
12 -7,04
13 0,36
14 -34,44

7. Рассчитываем сумму

9. Вывод: В соответствии с таблицей значений величин коэффициента корреляции делаем вывод о том, что это слабая по силе отрицательная корреляция.

Источник

Линейный коэффициент корреляции Пирсона

Обнаружение взаимосвязей между явлениями – одна из главных задач статистического анализа. На то есть две причины. Первая. Если известно, что один процесс зависит от другого, то на первый можно оказывать влияние через второй. Вторая. Даже если причинно-следственная связь отсутствует, то по изменению одного показателя можно предсказать изменение другого.

Взаимосвязь двух переменных проявляется в совместной вариации: при изменении одного показателя имеет место тенденция изменения другого. Такая взаимосвязь называется корреляцией, а раздел статистики, который занимается взаимосвязями – корреляционный анализ.

Корреляция – это, простыми словами, взаимосвязанное изменение показателей. Она характеризуется направлением, формой и теснотой. Ниже представлены примеры корреляционной связи.

lazy placeholder

Далее будет рассматриваться только линейная корреляция. На диаграмме рассеяния (график корреляции) изображена взаимосвязь двух переменных X и Y. Пунктиром показаны средние.

lazy placeholder

При положительном отклонении X от своей средней, Y также в большинстве случаев отклоняется в положительную сторону от своей средней. Для X меньше среднего, Y, как правило, тоже ниже среднего. Это прямая или положительная корреляция. Бывает обратная или отрицательная корреляция, когда положительное отклонение от средней X ассоциируется с отрицательным отклонением от средней Y или наоборот.

Линейность корреляции проявляется в том, что точки расположены вдоль прямой линии. Положительный или отрицательный наклон такой линии определяется направлением взаимосвязи.

Крайне важная характеристика корреляции – теснота. Чем теснее взаимосвязь, тем ближе к прямой точки на диаграмме. Как же ее измерить?

Складывать отклонения каждого показателя от своей средней нет смысла, получим нуль. Похожая проблема встречалась при измерении вариации, а точнее дисперсии. Там эту проблему обходят через возведение каждого отклонения в квадрат.

lazy placeholder

Квадрат отклонения от средней измеряет вариацию показателя как бы относительно самого себя. Если второй множитель в числителе заменить на отклонение от средней второго показателя, то получится совместная вариация двух переменных, которая называется ковариацией.

lazy placeholder

Чем больше пар имеют одинаковый знак отклонения от средней, тем больше сумма в числителе (произведение двух отрицательных чисел также дает положительное число). Большая положительная ковариация говорит о прямой взаимосвязи между переменными. Обратная взаимосвязь дает отрицательную ковариацию. Если количество совпадающих по знаку отклонений примерно равно количеству не совпадающих, то ковариация стремится к нулю, что говорит об отсутствии линейной взаимосвязи.

Таким образом, чем больше по модулю ковариация, тем теснее линейная взаимосвязь. Однако значение ковариации зависит от масштаба данных, поэтому невозможно сравнивать корреляцию для разных переменных. Можно определить только направление по знаку. Для получения стандартизованной величины тесноты взаимосвязи нужно избавиться от единиц измерения путем деления ковариации на произведение стандартных отклонений обеих переменных. В итоге получится формула коэффициента корреляции Пирсона.

lazy placeholder

Показатель имеет полное название линейный коэффициент корреляции Пирсона или просто коэффициент корреляции.

lazy placeholder

Таким образом, ковариация и корреляция отражают тесноту линейной взаимосвязи. Последняя используется намного чаще, т.к. является относительным показателем и не имеет единиц измерения.

lazy placeholder

Линейная функция является моделью взаимосвязи между X иY и показывает ожидаемое значение Y при заданном X. Коэффициент детерминации – это соотношение дисперсии ожидаемых Y (точек на прямой линии) к общей дисперсии Y, или доля объясненной вариации Y. При r = 0,1 r 2 = 0,01 или 1%, при r = 0,5 r 2 = 0,25 или 25%.

Выборочный коэффициент корреляции

Коэффициент корреляции обычно рассчитывают по выборке. Значит, у аналитика в распоряжении не истинное значение, а оценка, которая всегда ошибочна. Если выборка была репрезентативной, то истинное значение коэффициента корреляции находится где-то относительно недалеко от оценки. Насколько далеко, можно определить через доверительные интервалы.

Согласно Центральное Предельной Теореме распределение оценки любого показателя стремится к нормальному с ростом выборки. Но есть проблемка. Распределение коэффициента корреляции вблизи придельных значений не является симметричным. Ниже пример распределения при истинном коэффициенте корреляции ρ = 0,86.

lazy placeholder

В общем рассчитывать на свойства нормального распределения нельзя. Поэтому Фишер предложил провести преобразование выборочного коэффициента корреляции по формуле:

lazy placeholder

Распределение z для тех же r имеет следующий вид.

lazy placeholder

Намного ближе к нормальному. Стандартная ошибка z равна:

lazy placeholder

Далее исходя из свойств нормального распределения несложно найти верхнюю и нижнюю границы доверительного интервала для z. Определим квантиль стандартного нормального распределения для заданной доверительной вероятности, т.е. количество стандартных отклонений от центра распределения.

lazy placeholder

lazy placeholder

lazy placeholder

Теперь обратным преобразованием Фишера из z вернемся к r.
Нижняя граница r:

lazy placeholder

lazy placeholder

Это была теоретическая часть. Переходим к практике расчетов.

Как посчитать коэффициент корреляции в Excel

Корреляционный анализ в Excel лучше начинать с визуализации.

lazy placeholder

На диаграмме видна взаимосвязь двух переменных. Рассчитаем коэффициент парной корреляции с помощью функции Excel КОРРЕЛ. В аргументах нужно указать два диапазона.

lazy placeholder

Коэффициент корреляции 0,88 показывает довольно тесную взаимосвязь между двумя показателями. Но это лишь оценка, поэтому переходим к интервальному оцениванию.

Расчет доверительного интервала для коэффициента корреляции в Excel

В Эксель нет готовых функций для расчета доверительного интервала коэффициента корреляции, как для средней арифметической. Поэтому план такой:

— Делаем преобразование Фишера для r.
— На основе нормальной модели рассчитываем доверительный интервал для z.
— Делаем обратное преобразование Фишера из z в r.

Удивительно, но для преобразования Фишера в Excel есть специальная функция ФИШЕР.

lazy placeholder

Стандартная ошибка z легко подсчитывается с помощью формулы.

lazy placeholder

Используя функцию НОРМ.СТ.ОБР, определим квантиль нормального распределения. Доверительную вероятность возьмем 95%.

lazy placeholder

Значение 1,96 хорошо известно любому опытному аналитику. В пределах ±1,96σ от средней находится 95% нормально распределенных величин.

Используя z, стандартную ошибку и квантиль, легко определим доверительные границы z.

lazy placeholder

Последний шаг – обратное преобразование Фишера из z назад в r с помощью функции Excel ФИШЕРОБР. Получим доверительный интервал коэффициента корреляции.

lazy placeholder

Нижняя граница 95%-го доверительного интервала коэффициента корреляции – 0,724, верхняя граница – 0,953.

Надо пояснить, что значит значимая корреляция. Коэффициент корреляции статистически значим, если его доверительный интервал не включает 0, то есть истинное значение по генеральной совокупности наверняка имеет тот же знак, что и выборочная оценка.

Несколько важных замечаний

1. Коэффициент корреляции Пирсона чувствителен к выбросам. Одно аномальное значение может существенно исказить коэффициент. Поэтому перед проведением анализа следует проверить и при необходимости удалить выбросы. Другой вариант – перейти к ранговому коэффициенту корреляции Спирмена. Рассчитывается также, только не по исходным значениям, а по их рангам (пример показан в ролике под статьей).

2. Синоним корреляции – это взаимосвязь или совместная вариация. Поэтому наличие корреляции (r ≠ 0) еще не означает причинно-следственную связь между переменными. Вполне возможно, что совместная вариация обусловлена влиянием третьей переменной. Совместное изменение переменных без причинно-следственной связи называется ложная корреляция.

3. Отсутствие линейной корреляции (r = 0) не означает отсутствие взаимосвязи. Она может быть нелинейной. Частично эту проблему решает ранговая корреляция Спирмена, которая показывает совместный рост или снижение рангов, независимо от формы взаимосвязи.

В видео показан расчет коэффициента корреляции Пирсона с доверительными интервалами, ранговый коэффициент корреляции Спирмена.

Источник

Формула коэффициента корреляции пирсона

Линейный корреляционный анализ позволяет установить прямые связи между переменными величинами по их абсолютным значениям. Формула расчета коэффициента корреляции построена таким образом, что если связь между признаками имеет линейный характер, коэффициент Пирсона точно устанавливает тесноту этой связи. Поэтому он называется также коэффициентом линейной корреляции Пирсона.

В общем виде формула для подсчета коэффициента корреляции такова:

— значения, принимаемые переменой Y,

Расчет коэффициента корреляции Пирсона предполагает, что переменные и распределены нормально.

Используя данную формулу, решим следующую задачу:

Для решения данной задачи представим исходные данные в виде табл. 12, в которой введены дополнительные столбцы, необходимые для расчета по формуле

В табл. 12 даны индивидуальные значения переменных X и Y, построчные произведения переменных X и Y, квадраты переменных всех индивидуальных значений переменных X и Y, а также суммы всех вышеперечисленных величин.

№ испытуемых X Y X Y X X Y Y
Среднее время решения наглядно-образных заданий Среднее время решения вербальных заданий
1 19 17 323 361 289
2 32 7 224 1024 49
3 33 17 561 1089 289
4 44 28 1232 1936 784
5 28 27 756 784 729
6 35 31 1085 1225 961
7 39 20 780 1521 400
8 39 17 663 1521 289
9 44 35 1540 1936 1225
10 44 43 1892 1936 1849
11 24 10 240 576 100
12 37 28 1036 1369 784
13 29 13 377 841 169
14 40 43 1720 1600 1849
15 42 45 1890 1764 2025
16 32 24 768 1024 5760
17 48 45 2160 2304 2025
18 42 26 1092 1764 676
19 33 16 528 1089 256
20 47 26 1222 2209 676
Сумма 731 518 20089 27873 16000

Рассчитываем эмпирическую величину коэффициента корреляции по формуле:

Определяем критические значения для полученного коэффициента корреляции по табл. 19 приложения 6.

Отметим, что в табл. 19 приложения 6 величины критических значений коэффициентов линейной корреляции Пирсона даны по абсолютной величине. Следовательно, при получении как положительного, так и отрицательного коэффициента корреляции по формуле оценка уровня значимости этого коэффициента проводится по той же таблице приложения без учета знака, а знак добавляется для дальнейшей интерпретации характера связи между переменными X и Y.

Строим соответствующую «ось значимости»:

Для применения коэффициента корреляции Пирсона, необходимо соблюдать следующие условия:

Сравниваемые переменные должны быть получены в интервальной шкале или шкале отношений.

Распределения переменных X и Y должны быть близки к нормальному.

Число варьирующих признаков в сравниваемых переменных X и Y должно быть одинаковым.

Источник

Комфорт
Adblock
detector