Фрагмент для ознакомления
2
Оценка качества модели:
Проверяются R2 (Коэффициент детерминации), Нормированный R2 (Скорректированный коэффициент детерминации), остатки на автокорреляцию и нормальность распределения.
R² показывает, какую долю вариации зависимой переменной (цены акций) объясняет модель. Нормированный R2 учитывает количество независимых переменных в модели. Если в модель добавить много ненужных переменных, обычный R2 может расти, но нормированный R2 снизится, сигнализируя о снижении качества модели. Если нормированный R2 отрицательный, то модель считается неадекватной. Чем ближе нормированный R2 к 1, тем лучше модель объясняет данные, учитывая сложность.
Для оценки регрессионной модели используются критерии Стьюдента и Фишера. Критерий Стьюдента (t-статистика) используется для проверки значимости отдельных коэффициентов регрессионной модели:
t=βi/(SE(βi)) (3)
где βi — оценка коэффициента регрессии,
SE(βi) — стандартная ошибка соответствующего коэффициента.
Гипотезы:
H₀: Коэффициент βi=0 (параметр уравнения незначим).
H₁: Коэффициент βi≠0 (параметр уравнения значим).
Проверка: вычисляют t-статистику для каждого коэффициента, сравниваем с критическим значением tкритич. при заданном уровне значимости (α) и степенях свободы (n−k−1, где n – количество наблюдений, k – число параметров уравнения). Если ∣t∣ >tкритич. то коэффициент значим. Значимые коэффициенты оставляют в модели. Остальные удаляют или интерпретируют с осторожностью.
Критерий Фишера (F-статистика) используется для проверки общей значимости модели:
F= (ESS/k)/(RSS/(n-k-1)) (4)
где ESS (Explained Sum of Squares) – сумма квадратов объяснённой регрессией вариации,
RSS (Residual Sum of Squares) – сумма квадратов остатков,
k — количество переменных,
n — количество наблюдений.
Гипотезы:
H₀: все коэффициенты регрессии равны нулю (β1=β2=...=βk=0)
H₁: по крайней мере один коэффициент регрессии значим.
Проверка: вычисляется F-статистика, сравнивается с критическим значением Fкритич. из таблицы распределения Фишера при уровнях значимости α и степенях свободы (k, n−k−1). Если F> Fкритич модель значима, то она объясняет хотя бы часть вариации зависимой переменной. Если модель незначима, стоит пересмотреть переменные или форму модели.
Итак, t-статистика показывает, какие переменные оказывают значимое влияние на зависимую переменную. F-статистика оценивает адекватность всей модели. Эти критерии дополняют друг друга и дают комплексную оценку качества модели.
Прогнозирование. Адекватная трендовая модель используется для прогнозирования будущих значений.
Задача: Найти коэффициенты моделей:
y = a + b*x
y = a*хb
y = a + b*x + c*x2
Сравнить их МНК и с помощью лучшей модели:
А) (прогнозирование) найти у в точке х=800.
Б) (управление) подобрать х, чтобы у было примерно 10000
№ Регион Сибирского федерального округа Валовой региональный продукт, млн руб. (y) Среднегодовая численность занятых в экономике, тыс. чел. (x)
1 Республика Алтай 33089,9 89,4
2 Республика Бурятия 177692,0 417,6
3 Республика Тыва 41749,2 102,8
4 Республика Хакасия 143534,2 232,6
5 Алтайский край 410824,6 1075,0
6 Забайкальский край 229782,0 487,0
7 Красноярский край 1256674,5 1424,8
8 Иркутская область 796587,0 1135,0
9 Кемеровская область 668311,9 1303,2
10 Новосибирская область 821415,0 1352,4
11 Омская область 553242,7 945,5
12 Томская область 402546,0 495,7
Отсортируем исходную таблицу по возрастанию х:
Валовой региональный продукт, млн руб. (y) Среднегодовая численность занятых в экономике, тыс. чел. (x)
33089,9 89,4
41749,2 102,8
143534,2 232,6
177692 417,6
229782 487
402546 495,7
553242,7 945,5
410824,6 1075
796587 1135
668311,9 1303,2
821415 1352,4
1256674,5 1424,8
Строим график y(x):
Выдвигаем гипотезу о наличии прямой линейной зависимости между y и x.
1.1 Модель линейной регрессии имеет вид:
y=a+b⋅xy
где y — это валовой региональный продукт,
x — среднегодовая численность занятых в экономике.
Рассчитаем коэффициенты с помощью excel (регрессия):
Таким образом, линейная модель имеет вид:
y = -50837.64 + 678.24х
коэффициент корреляции (берем из Excel «Регрессия»):
Коэффициент корреляции — это Множественный R, который равен 0,916.
Он измеряет силу и направление линейной связи между переменными. В данном случае, его значение близкое к 1, что указывает на сильную положительную линейную зависимость между переменными.
Строим график, фактических и расчётных значений Y по линейной модели: