- Коэффициент Пирсона
- Что такое коэффициент Пирсона?
- Понимание коэффициента Пирсона
- Ключевые выводы
- Преимущества коэффициента Пирсона
- Кем был Карл Пирсон?
- Краткий обзор
- Линейный коэффициент корреляции Пирсона
- Выборочный коэффициент корреляции
- Как посчитать коэффициент корреляции в Excel
- Расчет доверительного интервала для коэффициента корреляции в Excel
- Несколько важных замечаний
- СОДЕРЖАНИЕ
- Именование и история
- Определение
- Для населения
- Для образца
- Практические вопросы
- Математические свойства
- Интерпретация
- Геометрическая интерпретация
- Интерпретация величины корреляции
- Вывод
- Использование теста перестановки
- Использование бутстрапа
- Тестирование с использованием t- распределения Стьюдента
- Используя точное распределение
- Использование точного распределения достоверности
- Использование преобразования Фишера
- Регрессионный анализ методом наименьших квадратов
- Чувствительность к распределению данных
- Существование
- Размер образца
- Надежность
- Варианты
- Скорректированный коэффициент корреляции
- Коэффициент корреляции Пирсона
- Расчёт коэффициента корреляции Пирсона
- Анализ результатов расчета коэффициента корреляции Пирсона
- Основы анализа данных
- Корреляционный анализ
- Коэффициент корреляции Пирсона
Коэффициент Пирсона
Что такое коэффициент Пирсона?
Коэффициент Пирсона – это тип коэффициента корреляции, который представляет взаимосвязь между двумя переменными, которые измеряются в одном интервале или шкале отношений. Коэффициент Пирсона – это мера силы связи между двумя непрерывными переменными.
Понимание коэффициента Пирсона
Ключевые выводы
Преимущества коэффициента Пирсона
Для инвестора, желающего диверсифицировать портфель, может быть полезен коэффициент Пирсона. Расчеты на основе диаграмм разброса исторической доходности между парами активов, такими как акции-облигации, акции-товары, облигации-недвижимость и т. Д., Или более конкретных активов, таких как акции с большой капитализацией, акции с малой капитализацией и долговые обязательства. акции развивающихся рынков – будут производить коэффициенты Пирсона, чтобы помочь инвестору составить портфель на основе параметров риска и доходности. Однако обратите внимание, что коэффициент Пирсона измеряет корреляцию, а не причинно-следственную связь, что означает, что одна переменная привела к результату другой переменной. Если акции компаний с большой и малой капитализацией имеют коэффициент 0,8, неизвестно, что вызвало относительно высокую силу ассоциации.
Кем был Карл Пирсон?
Карл Пирсон (1857-1936) был английским академиком и внес значительный вклад в области математики и статистики. Он считается главным основателем современной статистики и защитником евгеники. Помимо одноименного коэффициента, Пирсон известен, среди прочего, концепциями критерия хи-квадрат и p-значения, а также разработкой линейной регрессии и классификации распределений. В 1911 году Пирсон основал первый в мире университетский статистический факультет – Департамент прикладной статистики Университетского колледжа Лондона.
Краткий обзор
В 1901 году Пирсон основал первый журнал современной статистики под названием «Биометрика».
Линейный коэффициент корреляции Пирсона
Обнаружение взаимосвязей между явлениями – одна из главных задач статистического анализа. На то есть две причины. Первая. Если известно, что один процесс зависит от другого, то на первый можно оказывать влияние через второй. Вторая. Даже если причинно-следственная связь отсутствует, то по изменению одного показателя можно предсказать изменение другого.
Взаимосвязь двух переменных проявляется в совместной вариации: при изменении одного показателя имеет место тенденция изменения другого. Такая взаимосвязь называется корреляцией, а раздел статистики, который занимается взаимосвязями – корреляционный анализ.
Корреляция – это, простыми словами, взаимосвязанное изменение показателей. Она характеризуется направлением, формой и теснотой. Ниже представлены примеры корреляционной связи.
Далее будет рассматриваться только линейная корреляция. На диаграмме рассеяния (график корреляции) изображена взаимосвязь двух переменных X и Y. Пунктиром показаны средние.
При положительном отклонении X от своей средней, Y также в большинстве случаев отклоняется в положительную сторону от своей средней. Для X меньше среднего, Y, как правило, тоже ниже среднего. Это прямая или положительная корреляция. Бывает обратная или отрицательная корреляция, когда положительное отклонение от средней X ассоциируется с отрицательным отклонением от средней Y или наоборот.
Линейность корреляции проявляется в том, что точки расположены вдоль прямой линии. Положительный или отрицательный наклон такой линии определяется направлением взаимосвязи.
Крайне важная характеристика корреляции – теснота. Чем теснее взаимосвязь, тем ближе к прямой точки на диаграмме. Как же ее измерить?
Складывать отклонения каждого показателя от своей средней нет смысла, получим нуль. Похожая проблема встречалась при измерении вариации, а точнее дисперсии. Там эту проблему обходят через возведение каждого отклонения в квадрат.
Квадрат отклонения от средней измеряет вариацию показателя как бы относительно самого себя. Если второй множитель в числителе заменить на отклонение от средней второго показателя, то получится совместная вариация двух переменных, которая называется ковариацией.
Чем больше пар имеют одинаковый знак отклонения от средней, тем больше сумма в числителе (произведение двух отрицательных чисел также дает положительное число). Большая положительная ковариация говорит о прямой взаимосвязи между переменными. Обратная взаимосвязь дает отрицательную ковариацию. Если количество совпадающих по знаку отклонений примерно равно количеству не совпадающих, то ковариация стремится к нулю, что говорит об отсутствии линейной взаимосвязи.
Таким образом, чем больше по модулю ковариация, тем теснее линейная взаимосвязь. Однако значение ковариации зависит от масштаба данных, поэтому невозможно сравнивать корреляцию для разных переменных. Можно определить только направление по знаку. Для получения стандартизованной величины тесноты взаимосвязи нужно избавиться от единиц измерения путем деления ковариации на произведение стандартных отклонений обеих переменных. В итоге получится формула коэффициента корреляции Пирсона.
Показатель имеет полное название линейный коэффициент корреляции Пирсона или просто коэффициент корреляции.
Таким образом, ковариация и корреляция отражают тесноту линейной взаимосвязи. Последняя используется намного чаще, т.к. является относительным показателем и не имеет единиц измерения.
Линейная функция является моделью взаимосвязи между X иY и показывает ожидаемое значение Y при заданном X. Коэффициент детерминации – это соотношение дисперсии ожидаемых Y (точек на прямой линии) к общей дисперсии Y, или доля объясненной вариации Y. При r = 0,1 r 2 = 0,01 или 1%, при r = 0,5 r 2 = 0,25 или 25%.
Выборочный коэффициент корреляции
Коэффициент корреляции обычно рассчитывают по выборке. Значит, у аналитика в распоряжении не истинное значение, а оценка, которая всегда ошибочна. Если выборка была репрезентативной, то истинное значение коэффициента корреляции находится где-то относительно недалеко от оценки. Насколько далеко, можно определить через доверительные интервалы.
Согласно Центральное Предельной Теореме распределение оценки любого показателя стремится к нормальному с ростом выборки. Но есть проблемка. Распределение коэффициента корреляции вблизи придельных значений не является симметричным. Ниже пример распределения при истинном коэффициенте корреляции ρ = 0,86.
В общем рассчитывать на свойства нормального распределения нельзя. Поэтому Фишер предложил провести преобразование выборочного коэффициента корреляции по формуле:
Распределение z для тех же r имеет следующий вид.
Намного ближе к нормальному. Стандартная ошибка z равна:
Далее исходя из свойств нормального распределения несложно найти верхнюю и нижнюю границы доверительного интервала для z. Определим квантиль стандартного нормального распределения для заданной доверительной вероятности, т.е. количество стандартных отклонений от центра распределения.
Теперь обратным преобразованием Фишера из z вернемся к r.
Нижняя граница r:
Это была теоретическая часть. Переходим к практике расчетов.
Как посчитать коэффициент корреляции в Excel
Корреляционный анализ в Excel лучше начинать с визуализации.
На диаграмме видна взаимосвязь двух переменных. Рассчитаем коэффициент парной корреляции с помощью функции Excel КОРРЕЛ. В аргументах нужно указать два диапазона.
Коэффициент корреляции 0,88 показывает довольно тесную взаимосвязь между двумя показателями. Но это лишь оценка, поэтому переходим к интервальному оцениванию.
Расчет доверительного интервала для коэффициента корреляции в Excel
В Эксель нет готовых функций для расчета доверительного интервала коэффициента корреляции, как для средней арифметической. Поэтому план такой:
— Делаем преобразование Фишера для r.
— На основе нормальной модели рассчитываем доверительный интервал для z.
— Делаем обратное преобразование Фишера из z в r.
Удивительно, но для преобразования Фишера в Excel есть специальная функция ФИШЕР.
Стандартная ошибка z легко подсчитывается с помощью формулы.
Используя функцию НОРМ.СТ.ОБР, определим квантиль нормального распределения. Доверительную вероятность возьмем 95%.
Значение 1,96 хорошо известно любому опытному аналитику. В пределах ±1,96σ от средней находится 95% нормально распределенных величин.
Используя z, стандартную ошибку и квантиль, легко определим доверительные границы z.
Последний шаг – обратное преобразование Фишера из z назад в r с помощью функции Excel ФИШЕРОБР. Получим доверительный интервал коэффициента корреляции.
Нижняя граница 95%-го доверительного интервала коэффициента корреляции – 0,724, верхняя граница – 0,953.
Надо пояснить, что значит значимая корреляция. Коэффициент корреляции статистически значим, если его доверительный интервал не включает 0, то есть истинное значение по генеральной совокупности наверняка имеет тот же знак, что и выборочная оценка.
Несколько важных замечаний
1. Коэффициент корреляции Пирсона чувствителен к выбросам. Одно аномальное значение может существенно исказить коэффициент. Поэтому перед проведением анализа следует проверить и при необходимости удалить выбросы. Другой вариант – перейти к ранговому коэффициенту корреляции Спирмена. Рассчитывается также, только не по исходным значениям, а по их рангам (пример показан в ролике под статьей).
2. Синоним корреляции – это взаимосвязь или совместная вариация. Поэтому наличие корреляции (r ≠ 0) еще не означает причинно-следственную связь между переменными. Вполне возможно, что совместная вариация обусловлена влиянием третьей переменной. Совместное изменение переменных без причинно-следственной связи называется ложная корреляция.
3. Отсутствие линейной корреляции (r = 0) не означает отсутствие взаимосвязи. Она может быть нелинейной. Частично эту проблему решает ранговая корреляция Спирмена, которая показывает совместный рост или снижение рангов, независимо от формы взаимосвязи.
В видео показан расчет коэффициента корреляции Пирсона с доверительными интервалами, ранговый коэффициент корреляции Спирмена.
СОДЕРЖАНИЕ
Именование и история
Определение
Для населения
Для образца
Перестановка дает нам следующую формулу : р Икс у <\ displaystyle r_
<\ sqrt
Повторная перестановка дает нам следующую формулу : р Икс у <\ displaystyle r_
<\ sqrt <\ sum y_ ^ <2>-n <\ bar
Эквивалентное выражение дает формулу для среднего произведения стандартных оценок следующим образом: р Икс у <\ displaystyle r_
Практические вопросы
В условиях сильного шума извлечение коэффициента корреляции между двумя наборами стохастических переменных нетривиально, в частности, когда канонический корреляционный анализ сообщает о ухудшенных значениях корреляции из-за сильного влияния шума. Обобщение подхода дано в другом месте.
Математические свойства
Интерпретация
Роджерс и Ничевандер каталогизировали тринадцать способов интерпретации корреляции или ее простых функций:
Геометрическая интерпретация
При обычной процедуре нахождения угла θ между двумя векторами (см. Скалярное произведение ) нецентрированный коэффициент корреляции равен:
Интерпретация величины корреляции
Несколько авторов предложили рекомендации по интерпретации коэффициента корреляции. Однако все эти критерии в некотором смысле произвольны. Интерпретация коэффициента корреляции зависит от контекста и целей. Корреляция 0,8 может быть очень низкой, если кто-то проверяет физический закон с использованием высококачественных инструментов, но может считаться очень высокой в социальных науках, где может быть больший вклад усложняющих факторов.
Вывод
Статистический вывод, основанный на коэффициенте корреляции Пирсона, часто фокусируется на одной из следующих двух целей:
Ниже мы обсудим методы достижения одной или обеих этих целей.
Использование теста перестановки
Перестановочные тесты обеспечивают прямой подход к выполнению проверки гипотез и построению доверительных интервалов. Проверка перестановки коэффициента корреляции Пирсона включает следующие два этапа:
Использование бутстрапа
Тестирование с использованием t- распределения Стьюдента
В качестве альтернативы можно использовать асимптотические подходы с большой выборкой.
В другой ранней статье представлены графики и таблицы для общих значений ρ для малых размеров выборки, а также обсуждаются вычислительные подходы.
В случае, когда базовые переменные не являются нормальными, выборочное распределение коэффициента корреляции Пирсона следует t- распределению Стьюдента, но степени свободы уменьшаются.
Используя точное распределение
Использование точного распределения достоверности
Использование преобразования Фишера
Используя аппроксимацию, z-показатель равен
Обратное преобразование Фишера возвращает интервал к шкале корреляции.
Например, предположим, что мы наблюдаем r = 0,3 с размером выборки n = 50, и мы хотим получить 95% доверительный интервал для ρ. Преобразованное значение составляет arctanh ( r ) = 0,30952, поэтому доверительный интервал на преобразованной шкале равен 0,30952 ± 1,96 / √ 47 или (0,023624, 0,595415). Возврат к шкале корреляции дает (0,024, 0,534).
Регрессионный анализ методом наименьших квадратов
Два слагаемых выше представляют собой долю дисперсии в Y, которая объясняется X (справа) и не объясняется X (слева).
В приведенном выше выводе тот факт, что
можно доказать, заметив, что частные производные остаточной суммы квадратов ( RSS ) по β 0 и β 1 равны 0 в модели наименьших квадратов, где
В конце концов, уравнение можно записать как:
Чувствительность к распределению данных
Существование
Размер образца
Надежность
Статистический вывод для коэффициента корреляции Пирсона чувствителен к распределению данных. Точные тесты и асимптотические тесты, основанные на преобразовании Фишера, могут применяться, если данные приблизительно нормально распределены, но в противном случае могут вводить в заблуждение. В некоторых ситуациях бутстрап может применяться для построения доверительных интервалов, а тесты перестановки могут применяться для выполнения тестов гипотез. Эти непараметрические подходы могут дать более значимые результаты в некоторых ситуациях, когда двумерная нормальность не выполняется. Однако стандартные версии этих подходов полагаются на возможность обмена данными, что означает отсутствие упорядочения или группировки анализируемых пар данных, которые могли бы повлиять на поведение оценки корреляции.
Варианты
Вариации коэффициента корреляции можно рассчитывать для разных целей. Вот несколько примеров.
Скорректированный коэффициент корреляции
Уникальная несмещенная оценка минимальной дисперсии r adj определяется как
Коэффициент корреляции Пирсона
Коэффициент корреляции Пирсона в курсовых, дипломных и магистерских работах по психологии используется для выявления взаимосвязи двух переменных, измеренных на одной и той же выборке. Это могут быть как психологические показатели (тревожность, самооценка, самоактуализация, осмысленность жизни), так и не психологические (успешность учебной деятельности, возраст, стаж).
Для вычисления коэффициента корреляции Пирсона необходимо иметь:
Далее, используя данные из этой сводной таблицы результатов психодиагностики можно проверить гипотезу о том, есть ли между эффективностью сотрудников и рефлективностью взаимосвязь. Для решения этой задачи и проверки гипотезы можно использовать коэффициент корреляции Пирсона.
В выпускных квалификационных работах по психологии чаще всего не проводится проверка нормальности распределения показателей, поэтому следует использовать коэффициент корреляции рангов Спимрмена. В то же время, если выборка испытуемых в дипломе по психологии достаточно большая (более 100 человек), можно использовать коэффициент корреляции Пирсона.
Расчёт коэффициента корреляции Пирсона
Вычислить коэффициент корреляции Пирсона можно вручную, а можно рассчитать при помощи статистических программ.
Например, для каждого испытуемого рассчитываются разности между его показателем по эффективности и рефлексивности и средним значением. Далее эти разности перемножаются для каждого испытуемого и суммируются для всей выборки.
Анализ результатов расчета коэффициента корреляции Пирсона
Значение коэффициента корреляции Пирсона может располагаться в диапазоне значений от 1- до 1.
Положительные значения свидетельствуют о прямой взаимосвязи между показателями. Например, чем выше рефлексивность, тем выше эффективность деятельности. Это справедливо для профессий, где внимание к внутренней жизни помогает делу. Например, для психотерапевтов для проведения успешной работы с клиентами важно постоянно анализировать собственные переживания. Поэтому в группе практических психологов взаимосвязь между эффективностью и рефлексивностью, с большой долей вероятности, оказалась бы положительной.
Важно определить не только знак (направление) взаимосвязи, но и уровень ее значимости – силу связи между показателями. Чем выше численное значение коэффициента корреляции Пирсона по абсолютному значению (без учета знака), тем выше степень взаимосвязи между показателями.
Надеюсь, эта статья поможет вам написать работу по психологии самостоятельно. Если понадобится помощь, обращайтесь (все виды работ по психологии; статистические расчеты). Заказать
Основы анализа данных
Корреляционный анализ
Коэффициент корреляции Пирсона
Показатель тесноты связи между двумя признаками определяется по формуле линейного коэффициента корреляции :
Варианты связи, характеризующие наличие или отсутствие линейной связи между признаками:
В качестве примера возьмем набор данных А (таблица 8.1). Необходимо определить наличие линейной связи между признаками x и y.
Для графического представления связи двух переменных использована система координат с осями, соответствующими переменным x и y. Построенный график, называемый диаграммой рассеивания, показан на рис. 8.2. Данная диаграмма показывает, что низкие значения переменной x соответствуют низким значениям переменной y, высокие значения переменной x соответствуют высоким значениям переменной y. Этот пример демонстрирует наличие явной связи.
Таким образом, мы можем установить зависимость между переменными x и y. Рассчитаем коэффициент корреляции Пирсона между двумя массивами (x и y) при помощи функции MS Excel ПИРСОН(массив1;массив2). В результате получаем значение коэффициент корреляции равный 0,998364, т.е. связь между переменными x и y является весьма высокой. Используя пакет анализа MS Excel и инструмент анализа «Корреляция», можем построить корреляционную матрицу.
Любая зависимость между переменными обладает двумя важными свойствами: величиной и надежностью. Чем сильнее зависимость между двумя переменными, тем больше величина зависимости и тем легче предсказать значение одной переменной по значению другой переменной. Величину зависимости легче измерить, чем надежность.
Надежность зависимости не менее важна, чем ее величина. Это свойство связано с представительностью исследуемой выборки. Надежность зависимости характеризует, насколько вероятно, что эта зависимость будет снова найдена на других данных.
С ростом величины зависимости переменных ее надежность обычно возрастает.