Фрагмент для ознакомления
2
1. По территориям Сибирского федерального округа известны данные за отчетный год:
Построить поле корреляции и сформулировать гипотезу о форме связи показателей. Оценить тесноту связи с помощью показателей корреляции и детерминации. Рассчитать параметры уравнения линейной регрессии. Оценить качество построенного уравнения линейной регрессии с помощью средней ошибки аппроксимации.
Решение.
1. Поле корреляции
На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит экспоненциальный характер.
Экспоненциальное уравнение регрессии имеет вид y = a*ebx
Оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = a*ebx + ε, где ei – наблюдаемые значения (оценки) ошибок εi, a и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.
Здесь ε - случайная ошибка (отклонение, возмущение).
Причины существования случайной ошибки:
1. Невключение в регрессионную модель значимых объясняющих переменных;
2. Агрегирование переменных. Например, функция суммарного потребления – это попытка общего выражения совокупности решений отдельных индивидов о расходах. Это лишь аппроксимация отдельных соотношений, которые имеют разные параметры.
3. Неправильное описание структуры модели;
4. Неправильная функциональная спецификация;
5. Ошибки измерения.
Так как отклонения εi для каждого конкретного наблюдения i – случайны и их значения в выборке неизвестны, то:
1) по наблюдениям xi и yi можно получить только оценки параметров α и β
2) Оценками параметров α и β регрессионной модели являются соответственно величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке;
После линеаризации получим: ln(y) = ln(a) + bx
Для оценки параметров α и β - используют МНК (метод наименьших квадратов).
Метод наименьших квадратов дает наилучшие (состоятельные, эффективные и несмещенные) оценки параметров уравнения регрессии. Но только в том случае, если выполняются определенные предпосылки относительно случайного члена (ε) и независимой переменной (x).
Формально критерий МНК можно записать так:
S = ∑(yi - y*i)2 → min
Система нормальных уравнений.
a·n + b·∑x = ∑y
a·∑x + b·∑x2 = ∑y·x
Для расчета параметров регрессии построим расчетную таблицу (табл. 1)
Для наших данных система уравнений имеет вид
12a + 271441·b = 115.895
271441·a + 6287178321·b = 2632070.946
Домножим уравнение (1) системы на (-22620.083), получим систему, которую решим методом алгебраического сложения.
-271441a -6140017949.603 b = -2621544.741
271441*a + 6287178321*b = 2632070.946
Получаем:
147160371.397*b = 10526.205
Откуда b = 7.2E-5
Теперь найдем коэффициент «a» из уравнения (1):
12a + 271441*b = 115.895
12a + 271441*7.2E-5 = 115.895
12a = 96.479
a = 8.0399
Получаем эмпирические коэффициенты регрессии: b = 7.2E-5, a = 8.0399
Уравнение регрессии (эмпирическое уравнение регрессии):
y = e8.0398981531853e7.2E-5x = 3102.29722e7.2E-5x
Эмпирические коэффициенты регрессии a и b являются лишь оценками теоретических коэффициентов βi, а само уравнение отражает лишь общую тенденцию в поведении рассматриваемых переменных.
1. Параметры уравнения регрессии.
Выборочные средние.
Выборочные дисперсии:
Среднеквадратическое отклонение
Коэффициент корреляции b можно находить по формуле, не решая систему непосредственно:
1.3. Коэффициент эластичности.
Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.
Для этих целей вычисляются коэффициенты эластичности и бета - коэффициенты.
Средний коэффициент эластичности E показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения.
Коэффициент эластичности находится по формуле:
E = 22620.083(7.2E-5) = 1.618
В нашем примере коэффициент эластичности больше 1. Следовательно, при изменении Х на 1%, Y изменится более чем на 1%. Другими словами - Х существенно влияет на Y.
Бета – коэффициент
Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:
Т.е. увеличение x на величину среднеквадратического отклонения Sx приведет к увеличению среднего значения Y на 96.7% среднеквадратичного отклонения Sy.
1.4. Ошибка аппроксимации.
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации. Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:
Ошибка аппроксимации в пределах 5%-7% свидетельствует о хорошем подборе уравнения регрессии к исходным данным.
В среднем, расчетные значения отклоняются от фактических на 5.32%. Поскольку ошибка меньше 7%, то данное уравнение можно использовать в качестве регрессии.
1.5. Эмпирическое корреляционное отношение.
Эмпирическое корреляционное отношение вычисляется для всех форм связи и служит для измерение тесноты зависимости. Изменяется в пределах [0;1].