Всего на сайте:
148 тыс. 196 статей

Главная | Статистика

Парная корреляция  Просмотрен 149

Практическое занятие 7

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

1. Парная корреляция. 1

2. Множественная корреляция. 26

 

 

Парная корреляция

 

При парной корреляции устанавливают зависимость меж­ду двумя признаками, один из которых является факторным, другой - результатив­ным. Связь между ними может иметь различный характер. Поэтому важно правильно установить форму связи между признаками и в соответствии с этим по­добрать математическое уравнение, выражающее эту связь.

Вопрос о форме связи можно решить несколькими спосо­бами: на основе логического анализа, по данным статистичес­кой группировки или графическим способом. При парной корреляции предпочтителен последний способ, так как он позволяет выявить не только характер связи, но дает пред­ставление о степени связи.

После того, как определен вид уравнения связи, необхо­димо найти числовые значения его параметров. При вычисле­нии параметров применяют различные методы: метод наи­меньших квадратов, метод средних, метод наименьшего пре­дельного уклонения и др. Наиболее распространенным явля­ется метод наименьших квадратов. При его использовании находят такие значения параметров уравнения регрессии, при которых сумма квадратов отклонений фактических данных от расчетных является минимальной:

,

где y – фактическое значение результативного признака;

- расчетное значение результативного признака.

Для этого решают систему нормальных уравнений, кото­рые строятся следующим образом.

Исходное уравнение пере­множают сначала на коэффициент при первом неизвестном и полученные данные суммируют. Затем исходное уравнение перемножают на коэффициент при втором неизвестном, полу­ченные данные также суммируют и т. д.

Рассмотрим, как получается система нормальных уравне­ний для уравнения линейной регрессии .

В данном уравнении коэффициент при первом неизвестном а0 равен 1. Следовательно, исходное уравнение после перемножения сохраняет прежний вид:

,

а после суммирования

.

Коэффициент при втором неизвестном a1 равен x. Умно­жая на него все члены исходного уравнения, получим:

,

а после суммирования

.

Значения , , и рассчитывают по данным на­блюдения, а неизвестные параметры a0 и a1 - путем решения системы уравнений:

Правила получения системы нормальных уравнений распространяются на все виды уравнений регрессии. После того, как определены параметры уравнения регрес­сии, необходимо его оценить, то есть проверить, насколько оно соответствует изучаемой совокупности и как тесно связан результативный признак с фактором, обусловливающим его уровень. Для этого сравнивают вариацию значений результа­тивного признака, рассчитанных по уравнению регрессии, то есть зависящих от факторного признака, с вариацией факти­ческих (исходных) значений результативного признака. Чем ближе первая вариация будет ко второй, тем в большей сте­пени уравнение регрессии отражает связь между признаками, тем теснее они связаны.

Показатель, характеризующий отношение вариаций рас­четных и исходных значений результативного признака, на­зывают индексом корреляции. Его рассчитывают по формуле:

,

где I – индекс корреляции;

- общая дисперсия результативного признака (средний квадрат отклонений фактических значений у от средней );

- факторная дисперсия результативного признака, рассчитанного по уравнению регрессии (средний квадрат отклонений расчетных значений от средней );

n – численность совокупности.

Индекс корреляции изменяется в пределах от 0 до 1. Он показывает, что чем ближе его значение к 1, тем сильнее связь между признаками, и тем лучше уравнение регрессии описывает взаимосвязь между признаками. При индексе кор­реляции равном 1 взаимосвязь между признаками является функциональной.

Если же индекс корреляции равен 0, то связь между признаками отсутствует.

Поскольку факторная дисперсия показывает вариацию результативного признака, зависящую от факторного призна­ка, то можно рассчитать остаточную дисперсию, показываю­щую вариацию других неучтенных факторов. Она равна раз­нице между общей и факторной дисперсиями:

,

где - остаточная дисперсия.

Остаточная дисперсия показывает вариацию фактических значений результативного признака относительно расчетных значений, то есть колеблемость фактических значений относи­тельно линии регрессии. Чем меньше будет эта колеблемость, тем в большей степени уравнение регрессии отражает связь между признаками.

Формула индекса корреляции, рассчитанного на основе ос­таточной и общей дисперсий, имеет вид:

.

Для линейной регрессии индекс корреляции называют коэффициентом корреляции. Формула его при парной корре­ляции после преобразования имеет вид:

,

где r – коэффициент корреляции;

- средние значения факторного и результативного признаков;

- среднее значение произведений факторного и результативного признаков;

- средние квадратические отклонения факторного и результативного признаков.

В отличие от индекса корреляции коэффициент корреля­ции показывает не только тесноту связи, но и ее направление, поскольку меняется в пределах от −1 до +1. Если коэффи­циент корреляции положительный, то связь между призна­ками прямая (прямо пропорциональная), если отрицательный, то связь обратная (обратно пропорциональная).

Квадраты индекса корреляции и коэффициента корреля­ции называют соответственно индексом детерминации (I2) и коэффициентом детерминации (r2). Индекс детерминации и коэффициент детерминации показывают, какая доля общей вариации результативного признака определяется изучаемым фактором.

Так как надежность изучения связей в значительной сте­пени зависит от количества сопоставляемых данных, необхо­димо измерять существенность полученного уравнения регрес­сии и индекса (коэффициента) корреляции. Показатели кор­реляции, исчисленные для ограниченной по объему совокуп­ности, могут быть искажены действием случайных факторов.

Существенность индекса (коэффициента) корреляции, а, следовательно, всего уравнения регрессии, может быть оцене­на с помощью дисперсионного анализа (F-критерия Фишера). При этом сравнивают факторную и остаточную дисперсии с учетом числа степеней свободы вариации. F-критерий в данном случае рассчиты­вают по формуле:

,

где - выборочная факторная дисперсия;

- выборочная остаточная дисперсия;

n – численность выборочной совокупности;

k – число параметров в уравнении регрессии.

Значение F-критерия можно получить также, используя значения индекса или коэффициента корреляции:

; .

Полученное значение F-критерия сравнивают с табличным значением. При этом для факторной дисперсии число степеней свободы вариации составляет , а для остаточной дисперсии Если фактическое значе­ние F-критерия больше табличного, следовательно, связь между признаками достоверна и уравнение регрессии в пол­ной мере отражает эту связь. Если фактическое значение F-критерия меньше табличного, то можно сделать вывод, что связь между признаками носит случайный характер.

Для оценки значимости индекса (коэффициента) корреля­ции и уравнения регрессии также используют t-критерий Стьюдента, который для больших выборок рассчитывают по формулам:

Для малых выборок формулы имеют вид:

Также, как при дисперсионном анализе, фактическое зна­чение t-критерия сравнивают с табличным с учетом числа степеней свободы вариации n = n - k. Если фактическое значение t-критерия больше табличного, то связь достоверна, если меньше, то связь несущественна.

Рассмотрим методику корреляционного анализа для пар­ной корреляции.

Пример 1. По выборочным данным получены сведения о среднегодовом удое коров и расходе кормов на голову (табл. 7.1).


Т а б л и ц а 7.1

Предыдущая статья:Статья 18. Порядок введения в действие настоящего Закона Следующая статья:Среднегодовой удой коровы и расход кормов на корову
page speed (0.1933 sec, direct)