СМЫСЛ

Онлайн помощь студентам

Оставить заявку

Задать вопрос

Вы можете уточнить интересующие вопросы любым удобным для Вас способом

Mail

Модели с бинарными зависимыми переменными в EViews.

Статья с подробным разбором.

Оценка пробит модели (Probit-model)
Оценка логит модели (logit-model)
Выбор лучшей модели
Категориальные регрессионные статистики. Categorical Regressor Stats
Goodness-of-fit-test. Оценка соответствия модели данным, тесты Хосмера-Лемешоу и Эндрюса
Предельные эффекты
Таблица «Ожидание-Прогнозирование (Классификация)». Expectation-Prediction
Ошибки 1-го и 2-го рода. TPR и FPR
Кривая ROC

Используются данные, содержащиеся в файле: https://t.me/smys_l/155

Оценка Пробит-Модели (Probit-model)
Оценим пробит-модель для вероятности выжить на Титанике (survived) в зависимости от класса (pclass), пассажирского тарифа (fare), пола пассажира (sex), возраста пассажира (age).

Пробит-модель.

Выделяем правой кнопкой мыши переменные и открываем диалоговое окно «as Equation»

Выбор группы переменных

В открывшимся окне выбираем метод BINARY, и ставим галочку напротив Probit.

Диалоговое окно «as Equation»

Получим:

Dependent Variable: SURVIVED
Method: ML - Binary Probit (Newton-Raphson / Marquardt steps)
Date: 03/10/26 Time: 15:47
Sample: 1 1309
Included observations: 1045
Convergence achieved after 4 iterations
Coefficient covariance computed using observed Hessian
Variable	Coefficient	Std. Error	z-Statistic	Prob.
SEX	1.478363	0.094826	15.59032	0.0000
PCLASS	-0.621890	0.072440	-8.584847	0.0000
FARE	0.000500	0.001034	0.483577	0.6287
AGE	-0.018925	0.003577	-5.290121	0.0000
C	1.098761	0.246685	4.454113	0.0000
McFadden R-squared	0.302971	Mean dependent var		0.408612
S.D. dependent var	0.491813	S.E. of regression		0.388903
Akaike info criterion	0.952440	Sum squared resid		157.2952
Schwarz criterion	0.976133	Log likelihood		-492.6500
Hannan-Quinn criter.	0.961426	Deviance		985.3000
Restr. deviance	1413.571	Restr. log likelihood		-706.7853
LR statistic	428.2706	Avg. log likelihood		-0.471435
Prob(LR statistic)	0.000000
Obs with Dep=0	618	Total obs		1045
Obs with Dep=1	427

Пробит-модель

Для данного метода даются показатели:
•Log likelihood—максимальное значение функции логарифмической правдоподобности.
•Avg. log likelihood —логарифмическое правдоподобие, деленное на количество наблюдений.
•Restr. log likelihood—максимальное значение логарифмической функции правдоподобия, когда все коэффициенты наклона ограничены нулем.
•LR statistic - cтатистика отношения правдоподобия (LR) проверяет совместную нулевую гипотезу о том, что все коэффициенты наклона, кроме константы, равны нулю.
•Probability(LR stat)— это p -значение статистики критерия отношения правдоподобия. При нулевой гипотезе статистика критерия отношения правдоподобия асимптотически распределена как переменная со степенями свободы, равными числу проверяемых ограничений.
•McFadden R-squared— это индекс отношения правдоподобия. Как следует из названия, это аналог коэффициента, используемого в моделях линейной регрессии. Он обладает свойством всегда находиться в диапазоне от нуля до единицы.
Представим модель как уравнение:

Представим как уравнение

Estimation Equation:
=========================
I_SURVIVED = C(1)*SEX + C(2)*PCLASS + C(3)*FARE + C(4)*AGE + C(5)

Forecasting Equation:
=========================
SURVIVED = 1-@CNORM(-(C(1)*SEX + C(2)*PCLASS + C(3)*FARE + C(4)*AGE + C(5)))

Substituted Coefficients:
=========================
SURVIVED = 1-@CNORM(-(1.47836277683*SEX - 0.62189021156*PCLASS + 0.000500203158005*FARE - 0.0189253114419*AGE + 1.09876127313))
В Eviews функция @CNORM – это стандартное нормальное кумулятивное распределение

Нормальное кумулятивное распределение

F(-Z), где Z = 1.47836277683*SEX - 0.62189021156*PCLASS + 0.000500203158005*FARE - 0.0189253114419*AGE + 1.09876127313.
SURVIVED = 1 – F(-Z)

Оценка Логит-Модели (Logit-model)
Оценим логит-модель для вероятности выжить на Титанике (survived) в зависимости от класса (pclass), пассажирского тарифа (fare), пола пассажира (sex), возраста пассажира (age).

Логит-модель

В окне Equation Estimation выбираем метод BINARY, и ставим галочку напротив Logit.

Диалоговое окно «as Equation»

Получим:

Dependent Variable: SURVIVED
Method: ML - Binary Logit (Newton-Raphson / Marquardt steps)
Date: 03/05/26 Time: 14:03
Sample: 1 1309
Included observations: 1045
Convergence achieved after 5 iterations
Coefficient covariance computed using observed Hessian
Variable	Coefficient	Std. Error	z-Statistic	Prob.
SEX	2.489989	0.166989	14.91109	0.0000
PCLASS	-1.107984	0.128504	-8.622206	0.0000
FARE	0.000661	0.001724	0.383599	0.7013
AGE	-0.033687	0.006298	-5.348933	0.0000
C	2.010986	0.423492	4.748581	0.0000
McFadden R-squared	0.304734	Mean dependent var		0.408612
S.D. dependent var	0.491813	S.E. of regression		0.388118
Akaike info criterion	0.950055	Sum squared resid		156.6612
Schwarz criterion	0.973747	Log likelihood		-491.4036
Hannan-Quinn criter.	0.959040	Deviance		982.8071
Restr. deviance	1413.571	Restr. log likelihood		-706.7853
LR statistic	430.7634	Avg. log likelihood		-0.470243
Prob(LR statistic)	0.000000
Obs with Dep=0	618	Total obs		1045
Obs with Dep=1	427

Логит-Модель

Представим модель как уравнение:
Estimation Equation:
=========================
I_SURVIVED = C(1)*SEX + C(2)*PCLASS + C(3)*FARE + C(4)*AGE + C(5)

Forecasting Equation:
=========================
SURVIVED = 1-@CLOGISTIC(-(C(1)*SEX + C(2)*PCLASS + C(3)*FARE + C(4)*AGE + C(5)))

Substituted Coefficients:
=========================
SURVIVED = 1-@CLOGISTIC(-(2.48998929717*SEX - 1.10798402787*PCLASS + 0.00066141866714*FARE - 0.0336871200926*AGE + 2.01098580313))

В Eviews функция @ CLOGISTIC – это логистическое кумулятивное распределение. (Z = 2.48998929717*SEX - 1.10798402787*PCLASS + 0.00066141866714*FARE - 0.0336871200926*AGE + 2.01098580313)

Логистическое кумулятивное распределение

Выбор лучшей модели
В обоих моделях все коэффициенты значимы за исключением коэффициента при переменной FARE. P-value для z-статистики в обоих моделях выше 0,05.
Probability(LR stat) в обеих моделях меньше 0,05. Можем признать обе модели значимыми.
Выбор сделаем в пользу логит-модели, так как у неё выше значение LR statistic и McFadden R-squared.

Категориальные регрессорные статистики. Categorical Regressor Stats
Выбираем View - Categorical Regressor Stats.

Выбираем View - Categorical Regressor Stats

Здесь будут отображаться среднее значение и стандартное отклонение для каждой зависимой переменной. Значения вычисляются для всей выборки, а также для выборки с разбивкой по значению зависимой переменной.
Получим:

Categorical Descriptive Statistics for Explanatory Variables

Видим существенное отличие средних по значениям зависимой переменной для пола (SEX), пассажирского тарифа (FARE), класса (PCLASS). Однако переменная FARE не является статистически значимой. Предположим, что переменные SEX и PCLASS оказывают значительное влияние на зависимую.

Goodness-of-Fit Tests Оценка соответствия модели данным, тесты Хосмера-Лемешоу и Эндрюса
Выбираем View - Goodness-of-Fit Tests.

Выбираем View - Goodness-of-Fit Tests

Здесь будем выполнять два теста на соответствие модели данным: Хосмера-Лемешоу и Эндрюса. Идея этих тестов заключается в сравнении ожидаемых значений, полученных в результате моделирования, с фактическими значениями по группам. Если эти различия «значительны», мы отклоняем модель как недостаточно соответствующую данным.
Далее появится окно:

Goodness-of-Fit Tests

Выбираем группировку Хосмера-Лемешоу. Альтернативный вариант – это группировка по сериям, для этого указывается ряд, на основании которого будет осуществляться группировка.
Задаём правило группировки – по квартилям, количество квартилей задаём 10. Будем формировать группировку на основе децилей.
Выбираем опцию «случайно распределять совпадающие значения(randomize ties)» случайным образом распределяет совпадающие значения между соседними группами, чтобы сбалансировать количество наблюдений в каждой группе.
Получим:

Goodness-of-Fit Evaluation for Binary Specification

По обоим тестам Prob намного меньше 0,05, следовательно отклоняем нулевую гипотезу. Т. е. различия ожидаемых значений, полученных в результате моделирования, с фактическими значениями по группам значительны. Данные тесты не подтвердили соответствие модели данным.

Предельные эффекты
Предельные эффекты от объясняемых переменных определяются из соотношения:

Формула предельных эффектов

Где f(-Z) – функция плотности вероятности логистического распределения.

Функция плотности вероятности логистического распределения

Сначала нам необходимо рассчитать прогнозные значения линейного индекса Z.
В EViews можно осуществлять прогноз как стандартной зависимой переменной, так и линейного индекса.
Для расчёта прогнозных значений линейного индекса Z в окне модели выбираем Forecast, в появившимся окне выбираем Index, обозначаем переменную как Z.

Прогноз линейного индекса

Нажимая Ок, получаем прогнозные значения линейного индекса Z.
Далее пользуемся функцией EViews: @dlogistic - логистическая плотность вероятности.

Формула логистической плотности вероятности

Задаём в командной строке: @DLOGISTIC(-z)*c(1)

Командная строка

Нажимаем Enter и получаем предельные эффекты для переменной SEX
Присвоим имя этому ряду p_sex

Присвоим имя этому ряду p_sex

Аналогично получаем предельные эффекты для других независимых переменных:
p_pclass – предельный эффект класса пассажира, команда: @DLOGISTIC(-z)*c(2);
p_fare – предельный эффект пассажирского тарифа, команда: @DLOGISTIC(-z)*c(3);
p_age – предельный эффект возраста пассажира, команда: @DLOGISTIC(-z)*c(4).
Построим диаграмму зависимости значений предельных эффектов от величины линейного индекса Z. Открываем группу этих переменных:

Открываем группу предельных эффектов

В полученной группе выбираем View – Graph

Выбираем View – Graph

Далее выбираем Scatter

Выбираем Scatter

Получим графики предельных эффектов для всех объясняющих переменных.

Графики предельных эффектов для всех объясняющих переменных

Видим, что максимальный предельный эффект соответствует нулевому значению линейного индекса Z. Наибольший предельный эффект даёт переменная SEX, при Z=0 предельный эффект равен 0,64. Это означает что при Z близком к нулю вероятность выжить для мужчин увеличивается на 0,64.
Вторым по значимости является предельный эффект от класса PCLASS. Значение предельного эффекта отрицательное. При Z=0 предельный эффект равен -0,26. Это означает что при Z близком к нулю вероятность выжить для пассажира худшего (большего по величине на единицу) класса уменьшается на 0,26.
Предельные эффекты переменных возраста (AGE) и пассажирского тарифа (FARE) незначительны.

Таблица «Ожидание-Прогнозирование (Классификация)». Expectation-Prediction. Ошибки 1-го и 2-го рода. TPR и FPR.
Для построения таблицы ожидаемого значения прогнозирования выбираем в окне модели: View- Expectation-Prediction Evaluation

Expectation-Prediction Evaluation

Далее задаётся пороговое значение вероятности С, при котором будем классифицировать событие в сторону «0» или «1». По умолчанию задаётся С=0,5. Т. е. если расчётное значение выше 0,5, то классифицируем «1», если ниже – «0».

Prediction Evaluation

Получаем таблицу

Expectation-Prediction Evaluation for Binary Specification

В левой верхней таблице мы классифицируем рассчитанные по модели наблюдения, которые выше или ниже заданного порогового значения. В правой верхней таблице классифицируются вероятности, рассчитанные только по константе уравнения, без учета переменных.

Рассмотрим верхнюю таблицу	Estimated Equation			Constant Probability
	Dep=0	Dep=1	Total	Dep=0	Dep=1	Total
P(Dep=1)<=C	523	126	649	618	427	1045
P(Dep=1)>C	95	301	396	0	0	0
Total	618	427	1045	618	427	1045
Correct	523	301	824	618	0	618
% Correct	84.63	70.49	78.85	100.00	0.00	59.14
% Incorrect	15.37	29.51	21.15	0.00	100.00	40.86
Total Gain*	-15.37	70.49	19.71
Percent Gain**	NA	70.49	48.24

Зелёным в таблице выделено значение истинно положительных результатов TPR= 301/427*100% = 70,49%.
Красным выделено доля ложноположительных результатов FPR = 95/618*100% = 15,37%.
Доля ошибки первого рода по всем наблюдениям (ложноположительное заключение): 95/1045*100% = 9,09%.
Доля ошибки второго рода по всем наблюдениям (ложноотрицательное заключение): 126/1045*100% = 12,06%.
Модель при заданном пороговом значении вероятности отсечения 0,5 правильно предсказывает «1» в 70,49% случаев и правильно предсказывает «0» в 84,63% случаев
Увеличение числа правильных прогнозов, полученных при переходе от правой верхней таблицы к левой, служит мерой прогностической способности вашей модели. Правая модель по сравнению с левой (только константа) улучшает прогнозы для случая «1» на 70,49 процентных пункта, но показывает худшие результаты для случая «0» на -15,37 процентных пункта. В целом, правое уравнение на 19,71 процентных пункта лучше прогнозирует ответы, чем модель с постоянной вероятностью.

В нижней части окна с уравнением отображаются аналогичные результаты прогнозирования, основанные на расчетах ожидаемых значений.

Кривая ROC
Кривая ROC представляет собой множество точек с координатами (FPR; TPR) рассчитанных при уровне вероятности отсечения С в пределах от 0 до 1. В EViews данная кривая не строится автоматически.
FPR = 1 – Specifity; TPR = Sensitivity.
Чувствительность (Sensitivity) – доля правильно идентифицированных 1,
Специфичность (Specifity) – доля правильно идентифицированных 0.
Для построения кривой ROC задаём при построении Expectation-Prediction Evaluation значения от 0 до 1. С шагом 0,1.
Для С=0 получим: FPR = 100%; TPR = 100%.

	Estimated Equation			Constant Probability
	Dep=0	Dep=1	Total	Dep=0	Dep=1	Total
P(Dep=1)<=C	0	0	0	0	0	0
P(Dep=1)>C	618	427	1045	618	427	1045
Total	618	427	1045	618	427	1045
Correct	0	427	427	0	427	427
% Correct	0.00	100.00	40.86	0.00	100.00	40.86
% Incorrect	100.00	0.00	59.14	100.00	0.00	59.14

Для С=0,1 получим: FPR = 78,48%; TPR = 91,45%.

	Estimated Equation			Constant Probability
	Dep=0	Dep=1	Total	Dep=0	Dep=1	Total
P(Dep=1)<=C	133	22	155	0	0	0
P(Dep=1)>C	485	405	890	618	427	1045
Total	618	427	1045	618	427	1045
Correct	133	405	538	0	427	427
% Correct	21.52	94.85	51.48	0.00	100.00	40.86
% Incorrect	78.48	5.15	48.52	100.00	0.00	59.14

Аналогично задаём следующие вероятности и результаты заносим в таблицу.

C	FPR	TPR
0	1	1
0,1	0,7848	0,9485
0,2	0,4644	0,8618
0,3	0,2945	0,822
0,4	0,2136	0,7752
0,5	0,1537	0,7049
0,6	0,0922	0,6347
0,7	0,0453	0,5269
0,8	0,0162	0,3911
0,9	0,0049	0,1756
1	0	0

По полученным данным строим кривую ROC.

ROC-кривая

AUC — это площадь под ROC-кривой. Площадь под случайным блужданием равна 0,5.
В нашем случае AUC>0,5, так как кривая ROC находится выше случайного блуждания. Следовательно, полученное уравнение не относится к процессу случайного блуждания. Его прогностическая способность лучше случайного угадывания результата.

Файлы с данными и с решением:
https://t.me/smys_l/155
https://t.me/smys_l/153?single

Заявка на услуги

Укажите наиболее удобный для ВАС способ связи
и с Вами свяжутся в ближайшее время

Нажимая на кнопку, Вы соглашаетесь на обработку персональных данных в соответствии с Условиями.