Всего на сайте:
210 тыс. 306 статей

Главная | Экономика

Парная регрессия и корреляция  Просмотрен 185

Регрессией называется зависимость среднего значения какой-либо случайной величины от некоторой другой величины или от нескольких величин . В зависимости от количества факторов, включенных в уравнение регрессии, различают парную (простую) и множественную регрессии.

Парная регрессия определяется уравнением связи двух переменных и :

,

где - зависимая, объясняемая переменная (результативный признак), - независимая, объясняющая переменная (признак-фактор).

Различают линейные и нелинейные регрессии. Линейная регрессия представляется следующим соотношением:

.

Нелинейные регрессии делятся на два класса:

· регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам;

· регрессии, нелинейные по оцениваемым параметрам.

Регрессии, нелинейные по объясняющим переменным. Например:

· полиномы разных степеней: ;

· равносторонняя гипербола: .

Регрессии, нелинейные по оцениваемым параметрам. Например:

· степенная: ;

· показательная: ;

· экспоненциальная: .

Величина - отклонение (возмущение, ошибка, остаток), которая может принимать как положительные, так и отрицательные значения. Данная величина должна присутствовать в уравнении регрессии по нескольким причинам:

· множество показателей, незначительно влияющих на величину , не включаются в уравнение (например, из-за отсутствия данных наблюдений);

· практически невозможно избежать некоторого вида ошибок измерений, по крайней мере, у одной переменной уравнения;

· теоретическое уравнение регрессии может отличаться от построенной зависимости (например, действительная взаимосвязь может быть нелинейной, тогда как была построена линейная зависимость между переменными);

· помимо рассматриваемых величин на исследуемую величину могут оказывать влияние и случайные факторы;

· попытки обобщить влияние субъективного фактора (человеческого поведения) в экономических объектах (процессах) приводит к необходимости учитывать некоторую неопределенность, чисто случайную вариацию изучаемых показателей.

В парной регрессии при выборе вида математической функции могут быть использованы следующие подходы:

· аналитический;

· графический;

· экспериментальный.

Аналитический подход основывается на анализе априорной информации о содержательной экономической сущности исследуемой функциональной зависимости .

Графический подход предусматривает отображение в декартовой системе координат точек с координатами , определяемыми заданной пространственной выборкой. Построенная «точечная» диаграмма называется диаграммой рассеяния, или полем корреляции. Затем на основе визуального анализа расположения точек принимается решение о типе функциональной зависимости .

Из-за наличия случайной составляющей значения имеют определенный разброс, однако не следует подбирать зависимость , проходящую через все точки (тем самым возмущение было бы включено в функцию ). Необходимо, чтобы кривая в «равной близости» проходила около точек, образующих поле корреляции.

При изучении зависимости между двумя признаками графический метод подбора вида уравнения регрессии, основанный на поле корреляции, достаточно нагляден.

Основные типы кривых, используемые при количественной оценке связей, представлены на рисунке 1.

Рисунок 1 - Основные типы кривых, используемые при количественной оценке связей между двумя переменными

 

Экспериментальный метод выбора уравнения регрессии, обычно предусматривающий компьютерную обработку информации, осуществляется путем сравнения величины остаточной дисперсии , рассчитанной при разных видах функциональной зависимости .

Построение уравнения регрессии сводится к оценке ее параметров. В качестве одного из возможных методов оценки параметров уравнения регрессии может использоваться метод наименьших модулей (МНМ):

.

Однако более полезной с точки зрения практических результатов является оценка параметров регрессий, линейных по параметрам, с помощью метода наименьших квадратов (МНК). Он позволяет получить такие оценки параметров и , при которых сумма квадратов отклонений фактических значений результативного признака от теоретических минимальна:

.

Из курса математического анализа известно, что поиска минимума функции, надо вычислить частные производные по каждому из параметров и и затем приравнять их к нулю. Обозначив через , для линейной парной регрессии можно записать:

Полученную выше систему уравнений необходимо решить относительно параметров и . Из первого уравнения системы получаем следующее выражение для параметра :

.

Подставляя во второе уравнение выражение для параметра , получаем выражение для :

.

.

,

где - ковариация признаков и ; - дисперсия признака .

Ковариация - числовая характеристика совместного распределения двух случайных величин, равная математическому ожиданию произведения отклонений этих случайных величин от их математических ожиданий.

Дисперсия - характеристика случайной величины, определяемая как математическое ожидание квадрата отклонения случайной величины от ее математического ожидания.

Математическое ожидание - сумма произведений значений случайной величины на соответствующие вероятности.

Параметр называется коэффициентом регрессии. Его величина показывает среднее изменение результата с изменением фактора на одну единицу.

Формально, - это значение при . Если признак-фактор не может иметь нулевого значения, то данная трактовка свободного члена не имеет смысла, т.е. параметр может не иметь экономического содержания.

Тесноту связи изучаемых явлений оценивают с помощью линейного коэффициента парной корреляции и индекса корреляции . Линейный коэффициент парной корреляции определяется как

.

Для линейной регрессии , причем, если коэффициент регрессии , то ; если , то . Чем ближе абсолютное значение к единице, тем сильнее линейная связь между факторами (при имеем строгую функциональную зависимость).

Теснота линейной связи между переменными может быть оценена на основании шкалы Чеддока:

Теснота связи Значение коэффициента корреляции ( ) при наличии  
прямой связи обратной связи  
слабая 0,1-0,3 (-0,3)-(-0,1)
умеренная 0,3-0,5 (-0,5)-(-0,3)
заметная 0,5-0,7 (-0,7)-(-0,5)
высокая 0,7-0,9 (-0,9)-(-0,7)
весьма высокая 0,9-1 (-1)-(-0,9)

 

Положительное значение коэффициента корреляции говорит о положительной связи между переменными и , когда с ростом одной из переменных другая тоже растет. Отрицательное значение коэффициента корреляции означает, что с ростом одной из переменных другая убывает, с убыванием одной из переменных другая растет.

Индекс корреляции для нелинейной регрессии принимает значения в интервале , причем, чем ближе его значение к единице, тем теснее связь рассматриваемых признаков и тем более надежно найденное уравнение регрессии:

.

Средний коэффициент эластичности показывает, на сколько процентов в среднем по совокупности изменится результат от своей средней величины при изменении фактора на 1% от своего среднего значения:

.

 

Предыдущая статья:Эконометрика Следующая статья:Оценка качества модели парной линейной регрессии
page speed (0.0261 sec, direct)