- Корреляция случайных величин
- Содержание
- Вычисление [ править ]
- Корреляция и взаимосвязь величин [ править ]
- Свойства корреляции [ править ]
- Примеры [ править ]
- Определение корреляции по диаграмме [ править ]
- Определение корреляции по таблице [ править ]
- Лекция 12. Корреляция. Условные законы распределения
- Зміст
- Корреляционный момент
- Коэффициент корреляции и его свойства
- Условные законы распределения дискретной двумерной случайной величины
- Условные числовые характеристики случайных величин
- Ковариация
- Корреляция
- 2.5. Корреляция случайных величин
- Коэффициент корреляции случайных величин
Корреляция случайных величин
Определение: |
Среднеквадратичным отклонением (англ. standart deviation) [math]\sigma_<\eta>[/math] называется величина, равная квадратному корню из дисперсии случайной величины [math]\eta[/math] [math]\sigma_<\eta>=\sqrt |
Содержание
Вычисление [ править ]
Заметим, что [math]\sigma_ <\xi>= \sqrt
Корреляция и взаимосвязь величин [ править ]
Значительная корреляция между случайными величинами всегда означает, что присутствует некая взаимосвязь между значениями конкретной выборки, но при другой выборке связь вполне может отсутствовать. Поэтому при нахождении взаимосвязи не нужно делать поспешных выводов о причинно-следственном характере величин, а следует рассмотреть наиболее полную выборку, чтобы делать какие-либо выводы. Коэффициенты корреляции устанавливают лишь статистические взаимосвязи, но не более того.
Свойства корреляции [ править ]
Но обратное неверно:
Примеры [ править ]
В общем смысле корреляция — это зависимость между случайными величинами, когда изменение одной влечет изменение распределения другой.
Определение корреляции по диаграмме [ править ]
Определение корреляции по таблице [ править ]
Рассмотрим [math]2[/math] случайные величины: курс акций нефтедобывающей компании ( [math]X[/math] ) и цены на нефть ( [math]Y[/math] ).
X | [math]2003,6[/math] | [math]2013,2[/math] | [math]2007,6[/math] | [math]2007,4[/math] | [math]2039,9[/math] | [math]2025[/math] | [math]2007[/math] | [math]2017[/math] | [math]2015,6[/math] | [math]2011[/math] |
---|---|---|---|---|---|---|---|---|---|---|
Y | [math]108,4[/math] | [math]107,96[/math] | [math]108,88[/math] | [math]110,44[/math] | [math]110,2[/math] | [math]108,97[/math] | [math]109,15[/math] | [math]108,8[/math] | [math]111,2[/math] | [math]110,23[/math] |
Для упрощения вычислений определим [math]X[/math] и [math]Y[/math] как равновероятные случайные величины. Тогда их математическое ожидание и дисперсию легко посчитать:
Лекция 12. Корреляция. Условные законы распределения
Сайт: | Навчальний сайт ХНАДУ |
Курс: | Теорія ймовірностей та математична статистика (2Е) |
Книга: | Лекция 12. Корреляция. Условные законы распределения |
Зміст
Корреляционный момент
Пусть Х и Y – дискретные случайные величины (СВ) с математическими ожиданиями M(X) и M(Y), причем Х принимает значения x1, …, xk, а Y – значения y1, …, ym. Пусть pij = P
Определение. Корреляционным моментом дискретных СВ Х и У называется число
Корреляционный момент MXY характеризует связь между величинами Х и У. Если Х и У – независимые величины, то корреляционный момент MXY равен нулю. Если же MXY ≠ 0, то величины Х и У зависимы.
Коэффициент корреляции и его свойства
Определение. Коэффициентом корреляции rxy случайных величин Х и У называется число
где MXY – корреляционный момент величин Х и У; D(X), D(Y) – их дисперсии.
Коэффициент корреляции, как и корреляционный момент, характеризует связь между величинами Х и У. Но, в отличие от последнего, он есть безразмерная величина (число), поэтому он имеет преимущество в том, что не зависит от единиц измерения.
Коэффициент корреляции двух независимых случайных величин равен нулю.
Условные законы распределения дискретной двумерной случайной величины
Пусть Х и Y – дискретные случайные величины (СВ), причем Х принимает значения x1, …, xk, а Y – значения y1, …, ym. Пусть pij = P
а при условии X = xi – условный закон распределения
Пример. Дан закон распределения двумерной случайной величины:
Условные числовые характеристики случайных величин
Эти условные характеристики (математическое ожидание, дисперсия и т. д.) отличаются от соответствующих безусловных только тем, что в их определении подставляется условная вероятность вместо безусловной. Например, определение условного математического ожидания следующее.
Определение. Условным математическим ожиданием дискретной случайной величины Y при X = x (х – определенное возможное значение Х) называется произведение всех возможных значений Y на их условные вероятности:
Условное математическое ожидание M(Y/X = x) является функцией от х.
Пример. Найти условное математическое ожидание составляющей Y при X = x1 = 1 для дискретной двумерной случайной величины, заданной таблицей:
Аналогично определяются условная дисперсия и условные моменты системы случайных величин.
Ковариация
которая может быть получена из первой формулы, используя свойства математического ожидания. Перечислим основные свойства ковариации.
1. Ковариация случайной величины с самой собой есть ее дисперсия.
2. Ковариация симметрична.
$$cov\left(X,\ Y\right)=cov\left(Y,\ X\right).$$
4. Постоянный множитель можно выносить за знак ковариации.
$$cov\left(cX,\ Y\right)=cov\left(X,\ cY\right)=c\cdot cov\left(X,\ Y\right).$$
5. Ковариация не изменится, если к одной из случайных величин (или двум сразу) прибавить постоянную величину:
$$cov\left(X+c,\ Y\right)=cov\left(X,\ Y+c\right)=cov\left(X+x,\ Y+c\right)=cov\left(X,\ Y\right).$$
9. Дисперсия суммы (разности) случайных величин равна сумме их дисперсий плюс (минус) удвоенная ковариация этих случайных величин:
$$D\left(X\pm Y\right)=D\left(X\right)+D\left(Y\right)\pm 2cov\left(X,\ Y\right).$$
$$M\left(X\right)=\sum^n_
$$M\left(Y\right)=\sum^n_
$$M\left(XY\right)=\sum_
Корреляция
Перечислим основные свойства коэффициента корреляции.
При копировании материала с сайта, обратная ссылка обязательна!
2.5. Корреляция случайных величин
Прямое токование термина Корреляция — стохастическая, вероятная, возможная Связь между двумя (парная) или несколькими (множественная) случайными величинами.
Выше говорилось о том, что если для двух СВ (X И Y) имеет место равенство P(XY) =P(X) P(Y), то величины X И Y считаются независимыми. Ну, а если это не так!?
Ведь всегда важен вопрос — а Как сильно зависит одна СВ от другой? И дело в не присущем людям стремлении анализировать что-либо обязательно в числовом измерении. Уже понятно, что системный анализ означает непрерывные выЧИСЛЕния, что использование компьютера вынуждает нас работать с числами, а не понятиями.
Для числовой оценки возможной связи между двумя случайными величинами: Y(со средним My И среднеквадратичным отклонением Sy) и — X (со средним Mx и среднеквадратичным отклонением Sx) принято использовать так называемый Коэффициент корреляции
Rxy= .
Если коэффициент корреляции равен нулю, то X и Y называют Некоррелированными. Считать их независимыми обычно нет оснований — оказывается, что существуют такие, как правило — нелинейные связи величин, при которых Rxy = 0, хотя величины зависят друг от друга. Обратное всегда верно — если величины Независимы, то Rxy = 0. Но, если модуль Rxy = 1, то есть все основания предполагать наличие Линейной связи между Y и X. Именно поэтому часто говорят о Линейной корреляции при использовании такого способа оценки связи между СВ.
Отметим еще один способ оценки корреляционной связи двух случайных величин — если просуммировать произведения отклонений каждой из них от своего среднего значения, то полученную величину —
Или Ковариацию величин X и Y Отличает от коэффициента корреляции два показателя: Во-первых, Усреднение (деление на число наблюдений или пар X, Y) и, во-вторых, Нормирование путем деления на соответствующие среднеквадратичные отклонения.
Такая оценка связей между случайными величинами в сложной системе является одним из начальных этапов системного анализа, поэтому уже здесь во всей остроте встает вопрос о доверии к выводу о наличии или отсутствии связей между двумя СВ.
В современных методах системного анализа обычно поступают так. По найденному значению R вычисляют вспомогательную величину:
И вопрос о доверии к коэффициенту корреляции сводят к доверительным интервалам для случайной величины W, которые определяются стандартными таблицами или формулами.
В отдельных случаях системного анализа приходится решать вопрос о связях нескольких (более 2) случайных величин или вопрос о Множественной корреляции.
Rxy. z =
И, наконец, можно поставить вопрос — а какова связь между данной СВ и совокупностью остальных? Ответ на такие вопросы дают коэффициенты Множественной Корреляции Rx. yz, Ry. zx, Rz. xy, формулы для вычисления которых построены по тем же принципам — учету связи одной из величин со всеми остальными в совокупности.
Достаточно понять главное — если при формальном описании элемента сложной системы, совокупности таких элементов в виде подсистемы или, наконец, системы в целом, мы рассматриваем Связи между отдельными ее частями, — то степень тесноты этой связи в виде влияния одной СВ на другую можно и нужно оценивать на уровне корреляции.
В заключение заметим еще одно — во всех случаях системного анализа на корреляционном уровне обе случайные величины при парной корреляции или все при множественной считаются «равноправными» — т. е. речь идет о взаимном влиянии СВ друг на друга.
Коэффициент корреляции случайных величин
Определение. Коэффициентом корреляции между случайными величинами x и h называется число
Отметим, что E(x — Еx)(h — Еh) = cou(x,h)— называется ковариацией случайных величин x и h. Она характеризует меру линейной связи между случайными величинами.
Если cou(x,h) = 0, то говорят, что случайные величины x и h некоррелируемые.
Рассмотримсвойствакоэффициента корреляции.
Это свойство следует непосредственно из определения, поскольку
Следует из свойства 1, поскольку для независимых случайных величин x и h справедливо E(x × h) = Ex × Eh
Замечание 1. Обратное не верно!
Докажем сначала достаточность. Пусть P(x = ah + b) = 1, тогда
Докажем теперь необходимость. При доказательстве свойства 3 нами было получено следующее равенство
По свойству 2 дисперсии получаем, что
посколькуD(x1 — h1) = 0. Отсюда P(x = ah + b) = 1, где
По свойству 2 дисперсии получаем, что
поскольку D(x1 + h1) = 0. Отсюда, P(x = ah + b) = 1, где
Замечание 2. Чем сильнее связь между случайными величинами, тем больше и величина коэффициента корреляции. При (x, h) ¹ 0 этот показатель характеризует не только наличие связи между x и h, но и её степень. При положительной (или прямой) связи, когда большим значениям одной случайной величины соответствуют большие значения другой, коэффициент корреляции больше нуля. А при отрицательной (или обратной) связи, когда большим значениям одной случайной величины соответствуют меньшие значения другой, коэффициент корреляции меньше нуля. Недостатком
(x, h) является то, что он характеризует только линейные связи. При наличии нелинейной связи следует использовать другие показатели связи.
Пример 2. Изготавливаемые в цехе втулки сортируются по отклонению их внутреннего диаметра от номинального размера на четыре группы со значениями 0,01; 0,02; 0,03; 0,04 мм, по овальности на четыре группы со значениями 0,002; 0,004; 0,006; 0,008 мм. Совместное распределение отклонений диаметра (x) и овальности (h) втулок задано таблицей:
Вычислим коэффициент корреляции между x и h.
Найдем сначала частные распределения случайных величин x и h. Согласно 2.4.2, например,
Р(x = 0, 01) = 0, 01 + 0, 03 + 0, 04 + 0, 02 = 0,10
и т.д. (остальные вычисления проведите самостоятельно) получим следующую таблицу распределения случайной величины x :
также таблицу распределения случайной величины h:
Теперь вычислим математические ожидания и дисперсии случайных величин x и h:
Остается вычислить величину Е(x × h):
Е(x × h) = 0,01 × 0,002 × 0,01 + 0,04 × 0,008 × 0,02 = 0,0001274.