Задать вопрос
Вы можете уточнить интересующие вопросы любым удобным для Вас способом
VK
Telegram
Mail
WhatsApp

Модели с бинарными зависимыми переменными в EViews.

Статья с подробным разбором.
Оценка Пробит-Модели (Probit-model)
Оценим пробит-модель для вероятности выжить на Титанике (survived) в зависимости от класса (pclass), пассажирского тарифа (fare), пола пассажира (sex), возраста пассажира (age).
Пробит-модель.
Выделяем правой кнопкой мыши переменные и открываем диалоговое окно «as Equation»
Выбор группы переменных
В открывшимся окне выбираем метод BINARY, и ставим галочку напротив Probit.
Диалоговое окно «as Equation»
Получим:

Dependent Variable: SURVIVED

 

 

Method: ML - Binary Probit (Newton-Raphson / Marquardt steps)

Date: 03/10/26  Time: 15:47

 

 

Sample: 1 1309

 

 

 

Included observations: 1045

 

 

Convergence achieved after 4 iterations

 

Coefficient covariance computed using observed Hessian

Variable

Coefficient

Std. Error

z-Statistic

Prob.  

SEX

1.478363

0.094826

15.59032

0.0000

PCLASS

-0.621890

0.072440

-8.584847

0.0000

FARE

0.000500

0.001034

0.483577

0.6287

AGE

-0.018925

0.003577

-5.290121

0.0000

C

1.098761

0.246685

4.454113

0.0000

McFadden R-squared

0.302971

    Mean dependent var

0.408612

S.D. dependent var

0.491813

    S.E. of regression

0.388903

Akaike info criterion

0.952440

    Sum squared resid

157.2952

Schwarz criterion

0.976133

    Log likelihood

-492.6500

Hannan-Quinn criter.

0.961426

    Deviance

985.3000

Restr. deviance

1413.571

    Restr. log likelihood

-706.7853

LR statistic

428.2706

    Avg. log likelihood

-0.471435

Prob(LR statistic)

0.000000

 

 

 

Obs with Dep=0

618

     Total obs

1045

Obs with Dep=1

427

 

 

 

Пробит-модель
Для данного метода даются показатели:
•Log likelihood—максимальное значение функции логарифмической правдоподобности.
•Avg. log likelihood —логарифмическое правдоподобие, деленное на количество наблюдений.
•Restr. log likelihood—максимальное значение логарифмической функции правдоподобия, когда все коэффициенты наклона ограничены нулем.
•LR statistic - cтатистика отношения правдоподобия (LR) проверяет совместную нулевую гипотезу о том, что все коэффициенты наклона, кроме константы, равны нулю.
Probability(LR stat)— это p -значение статистики критерия отношения правдоподобия. При нулевой гипотезе статистика критерия отношения правдоподобия асимптотически распределена как переменная со степенями свободы, равными числу проверяемых ограничений.
•McFadden R-squared— это индекс отношения правдоподобия. Как следует из названия, это аналог коэффициента, используемого в моделях линейной регрессии. Он обладает свойством всегда находиться в диапазоне от нуля до единицы.
Представим модель как уравнение:
Представим как уравнение
Estimation Equation:
=========================
I_SURVIVED = C(1)*SEX + C(2)*PCLASS + C(3)*FARE + C(4)*AGE + C(5)
 
Forecasting Equation:
=========================
SURVIVED = 1-@CNORM(-(C(1)*SEX + C(2)*PCLASS + C(3)*FARE + C(4)*AGE + C(5)))
 
Substituted Coefficients:
=========================
SURVIVED = 1-@CNORM(-(1.47836277683*SEX - 0.62189021156*PCLASS + 0.000500203158005*FARE - 0.0189253114419*AGE + 1.09876127313))
В Eviews функция @CNORM – это стандартное нормальное кумулятивное распределение
Нормальное кумулятивное распределение
F(-Z), где Z = 1.47836277683*SEX - 0.62189021156*PCLASS + 0.000500203158005*FARE - 0.0189253114419*AGE + 1.09876127313.
SURVIVED = 1 – F(-Z)
Оценка Логит-Модели (Logit-model)
Оценим логит-модель для вероятности выжить на Титанике (survived) в зависимости от класса (pclass), пассажирского тарифа (fare), пола пассажира (sex), возраста пассажира (age).
Логит-модель
В окне Equation Estimation выбираем метод BINARY, и ставим галочку напротив Logit.
Диалоговое окно «as Equation»
Получим:

Dependent Variable: SURVIVED

 

 

Method: ML - Binary Logit (Newton-Raphson / Marquardt steps)

Date: 03/05/26  Time: 14:03

 

 

Sample: 1 1309

 

 

 

Included observations: 1045

 

 

Convergence achieved after 5 iterations

 

Coefficient covariance computed using observed Hessian

Variable

Coefficient

Std. Error

z-Statistic

Prob.  

SEX

2.489989

0.166989

14.91109

0.0000

PCLASS

-1.107984

0.128504

-8.622206

0.0000

FARE

0.000661

0.001724

0.383599

0.7013

AGE

-0.033687

0.006298

-5.348933

0.0000

C

2.010986

0.423492

4.748581

0.0000

McFadden R-squared

0.304734

    Mean dependent var

0.408612

S.D. dependent var

0.491813

    S.E. of regression

0.388118

Akaike info criterion

0.950055

    Sum squared resid

156.6612

Schwarz criterion

0.973747

    Log likelihood

-491.4036

Hannan-Quinn criter.

0.959040

    Deviance

982.8071

Restr. deviance

1413.571

    Restr. log likelihood

-706.7853

LR statistic

430.7634

    Avg. log likelihood

-0.470243

Prob(LR statistic)

0.000000

 

 

 

Obs with Dep=0

618

     Total obs

1045

Obs with Dep=1

427

 

 

 

Логит-Модель
Представим модель как уравнение:
Estimation Equation:
=========================
I_SURVIVED = C(1)*SEX + C(2)*PCLASS + C(3)*FARE + C(4)*AGE + C(5)
 
Forecasting Equation:
=========================
SURVIVED = 1-@CLOGISTIC(-(C(1)*SEX + C(2)*PCLASS + C(3)*FARE + C(4)*AGE + C(5)))
 
Substituted Coefficients:
=========================
SURVIVED = 1-@CLOGISTIC(-(2.48998929717*SEX - 1.10798402787*PCLASS + 0.00066141866714*FARE - 0.0336871200926*AGE + 2.01098580313))
 
В Eviews функция @ CLOGISTIC – это логистическое кумулятивное распределение. (Z = 2.48998929717*SEX - 1.10798402787*PCLASS + 0.00066141866714*FARE - 0.0336871200926*AGE + 2.01098580313)
Логистическое кумулятивное распределение
Выбор лучшей модели
В обоих моделях все коэффициенты значимы за исключением коэффициента при переменной FARE. P-value для z-статистики в обоих моделях выше 0,05.
Probability(LR stat) в обеих моделях меньше 0,05. Можем признать обе модели значимыми.
Выбор сделаем в пользу логит-модели, так как у неё выше значение LR statistic и McFadden R-squared.
Категориальные регрессорные статистики. Categorical Regressor Stats
Выбираем View - Categorical Regressor Stats.
Выбираем View - Categorical Regressor Stats
Здесь будут отображаться среднее значение и стандартное отклонение для каждой зависимой переменной. Значения вычисляются для всей выборки, а также для выборки с разбивкой по значению зависимой переменной.
Получим:
Categorical Descriptive Statistics for Explanatory Variables

Видим существенное отличие средних по значениям зависимой переменной для пола (SEX), пассажирского тарифа (FARE), класса (PCLASS). Однако переменная FARE не является статистически значимой. Предположим, что переменные SEX и PCLASS оказывают значительное влияние на зависимую.
Goodness-of-Fit Tests Оценка соответствия модели данным, тесты Хосмера-Лемешоу и Эндрюса
Выбираем View - Goodness-of-Fit Tests.
Выбираем View - Goodness-of-Fit Tests
Здесь будем выполнять два теста на соответствие модели данным: Хосмера-Лемешоу и Эндрюса. Идея этих тестов заключается в сравнении ожидаемых значений, полученных в результате моделирования, с фактическими значениями по группам. Если эти различия «значительны», мы отклоняем модель как недостаточно соответствующую данным.
Далее появится окно:
Goodness-of-Fit Tests
Выбираем группировку Хосмера-Лемешоу. Альтернативный вариант – это группировка по сериям, для этого указывается ряд, на основании которого будет осуществляться группировка.
Задаём правило группировки – по квартилям, количество квартилей задаём 10. Будем формировать группировку на основе децилей.
Выбираем опцию «случайно распределять совпадающие значения(randomize ties)» случайным образом распределяет совпадающие значения между соседними группами, чтобы сбалансировать количество наблюдений в каждой группе.
Получим:
Goodness-of-Fit Evaluation for Binary Specification

По обоим тестам Prob намного меньше 0,05, следовательно отклоняем нулевую гипотезу. Т. е. различия ожидаемых значений, полученных в результате моделирования, с фактическими значениями по группам значительны. Данные тесты не подтвердили соответствие модели данным.
Предельные эффекты
Предельные эффекты от объясняемых переменных определяются из соотношения:
Формула предельных эффектов
Где f(-Z) – функция плотности вероятности логистического распределения.
Функция плотности вероятности логистического распределения
Сначала нам необходимо рассчитать прогнозные значения линейного индекса Z.
В EViews можно осуществлять прогноз как стандартной зависимой переменной, так и линейного индекса.
Для расчёта прогнозных значений линейного индекса Z в окне модели выбираем Forecast, в появившимся окне выбираем Index, обозначаем переменную как Z.
Прогноз линейного индекса
Нажимая Ок, получаем прогнозные значения линейного индекса Z.
Далее пользуемся функцией EViews: @dlogistic - логистическая плотность вероятности.
Формула логистической плотности вероятности
Задаём в командной строке: @DLOGISTIC(-z)*c(1)
Командная строка
Нажимаем Enter и получаем предельные эффекты для переменной SEX
Присвоим имя этому ряду p_sex
Присвоим имя этому ряду p_sex
Аналогично получаем предельные эффекты для других независимых переменных:
p_pclass – предельный эффект класса пассажира, команда: @DLOGISTIC(-z)*c(2);
p_fare – предельный эффект пассажирского тарифа, команда: @DLOGISTIC(-z)*c(3);
p_age – предельный эффект возраста пассажира, команда: @DLOGISTIC(-z)*c(4).
Построим диаграмму зависимости значений предельных эффектов от величины линейного индекса Z. Открываем группу этих переменных:
Открываем группу предельных эффектов
В полученной группе выбираем View – Graph
Выбираем View – Graph
Далее выбираем Scatter
Выбираем Scatter
Получим графики предельных эффектов для всех объясняющих переменных.
Графики предельных эффектов для всех объясняющих переменных
Видим, что максимальный предельный эффект соответствует нулевому значению линейного индекса Z. Наибольший предельный эффект даёт переменная SEX, при Z=0 предельный эффект равен 0,64. Это означает что при Z близком к нулю вероятность выжить для мужчин увеличивается на 0,64.
Вторым по значимости является предельный эффект от класса PCLASS. Значение предельного эффекта отрицательное. При Z=0 предельный эффект равен -0,26. Это означает что при Z близком к нулю вероятность выжить для пассажира худшего (большего по величине на единицу) класса уменьшается на 0,26.
Предельные эффекты переменных возраста (AGE) и пассажирского тарифа (FARE) незначительны.
Таблица «Ожидание-Прогнозирование (Классификация)». Expectation-Prediction. Ошибки 1-го и 2-го рода. TPR и FPR.
Для построения таблицы ожидаемого значения прогнозирования выбираем в окне модели: View- Expectation-Prediction Evaluation
Expectation-Prediction Evaluation
Далее задаётся пороговое значение вероятности С, при котором будем классифицировать событие в сторону «0» или «1». По умолчанию задаётся С=0,5. Т. е. если расчётное значение выше 0,5, то классифицируем «1», если ниже – «0».
Prediction Evaluation
Получаем таблицу
Expectation-Prediction Evaluation for Binary Specification

В левой верхней таблице мы классифицируем рассчитанные по модели наблюдения, которые выше или ниже заданного порогового значения. В правой верхней таблице классифицируются вероятности, рассчитанные только по константе уравнения, без учета переменных.

Рассмотрим верхнюю таблицу

           Estimated Equation

           Constant Probability

 

Dep=0

Dep=1

Total

Dep=0

Dep=1

Total

P(Dep=1)<=C

523

126

649

618

427

1045

P(Dep=1)>C

95

301

396

0

0

0

Total

618

427

1045

618

427

1045

Correct

523

301

824

618

0

618

% Correct

84.63

70.49

78.85

100.00

0.00

59.14

% Incorrect

15.37

29.51

21.15

0.00

100.00

40.86

Total Gain*

-15.37

70.49

19.71

 

 

 

Percent Gain**

NA

70.49

48.24

 

 

 


Зелёным в таблице выделено значение истинно положительных результатов TPR= 301/427*100% = 70,49%.
Красным выделено доля ложноположительных результатов FPR = 95/618*100% = 15,37%.
Доля ошибки первого рода по всем наблюдениям (ложноположительное заключение): 95/1045*100% = 9,09%.
Доля ошибки второго рода по всем наблюдениям (ложноотрицательное заключение): 126/1045*100% = 12,06%.
Модель при заданном пороговом значении вероятности отсечения 0,5 правильно предсказывает «1» в 70,49% случаев и правильно предсказывает «0» в 84,63% случаев
Увеличение числа правильных прогнозов, полученных при переходе от правой верхней таблицы к левой, служит мерой прогностической способности вашей модели. Правая модель по сравнению с левой (только константа) улучшает прогнозы для случая «1» на 70,49 процентных пункта, но показывает худшие результаты для случая «0» на -15,37 процентных пункта. В целом, правое уравнение на 19,71 процентных пункта лучше прогнозирует ответы, чем модель с постоянной вероятностью.

В нижней части окна с уравнением отображаются аналогичные результаты прогнозирования, основанные на расчетах ожидаемых значений.
Кривая ROC
Кривая ROC представляет собой множество точек с координатами (FPR; TPR) рассчитанных при уровне вероятности отсечения С в пределах от 0 до 1. В EViews данная кривая не строится автоматически.
FPR = 1 – Specifity; TPR = Sensitivity.
Чувствительность (Sensitivity) – доля правильно идентифицированных 1,
Специфичность (Specifity) – доля правильно идентифицированных 0.
Для построения кривой ROC задаём при построении Expectation-Prediction Evaluation значения от 0 до 1. С шагом 0,1.
Для С=0 получим: FPR = 100%; TPR = 100%.

 

           Estimated Equation

           Constant Probability

 

Dep=0

Dep=1

Total

Dep=0

Dep=1

Total

P(Dep=1)<=C

0

0

0

0

0

0

P(Dep=1)>C

618

427

1045

618

427

1045

Total

618

427

1045

618

427

1045

Correct

0

427

427

0

427

427

% Correct

0.00

100.00

40.86

0.00

100.00

40.86

% Incorrect

100.00

0.00

59.14

100.00

0.00

59.14


Для С=0,1 получим: FPR = 78,48%; TPR = 91,45%.

 

           Estimated Equation

           Constant Probability

 

Dep=0

Dep=1

Total

Dep=0

Dep=1

Total

P(Dep=1)<=C

133

22

155

0

0

0

P(Dep=1)>C

485

405

890

618

427

1045

Total

618

427

1045

618

427

1045

Correct

133

405

538

0

427

427

% Correct

21.52

94.85

51.48

0.00

100.00

40.86

% Incorrect

78.48

5.15

48.52

100.00

0.00

59.14

 
Аналогично задаём следующие вероятности и результаты заносим в таблицу.

C

FPR

TPR

0

1

1

0,1

0,7848

0,9485

0,2

0,4644

0,8618

0,3

0,2945

0,822

0,4

0,2136

0,7752

0,5

0,1537

0,7049

0,6

0,0922

0,6347

0,7

0,0453

0,5269

0,8

0,0162

0,3911

0,9

0,0049

0,1756

1

0

0

По полученным данным строим кривую ROC.
ROC-кривая
AUC — это площадь под ROC-кривой. Площадь под случайным блужданием равна 0,5.
В нашем случае AUC>0,5, так как кривая ROC находится выше случайного блуждания. Следовательно, полученное уравнение не относится к процессу случайного блуждания. Его прогностическая способность лучше случайного угадывания результата.
Файлы с данными и с решением:
https://t.me/smys_l/155
https://t.me/smys_l/153?single
Заявка на услуги
Укажите наиболее удобный для ВАС способ связи
и с Вами свяжутся в ближайшее время
Загрузить свой файл
Нажимая на кнопку, Вы соглашаетесь на обработку персональных данных в соответствии с Условиями.
Made on
Tilda