『Stataで計量経済学入門（第二版）』練習問題の解答

第4章

data_reg_shingaku2.dtaには以下のような変数が含まれている。

university：人口10万人当たりの大学数
income：1世帯当たり一ヵ月間の実収入
density：可住地面積1平方キロメートル当たりの人口密度
pop：人口（単位：100万）
retailing：小売業の事業所数（単位：1千）

(1)データセットにある各変数間の相関係数を調べよ。

. corr shingaku university income density pop retailing
(obs=47)

             | shingaku univer~y   income  density      pop retail~g
-------------+------------------------------------------------------
    shingaku |   1.0000
  university |   0.4298   1.0000
      income |   0.3839  -0.1378   1.0000
     density |   0.5215   0.2828   0.1196   1.0000
         pop |   0.4150   0.2493   0.0260   0.8391   1.0000
   retailing |   0.4290   0.2988   0.0055   0.8622   0.9877   1.0000

pop（人口）とdensity（人口密度）が0.8391、popとretailing（小売業者数）が0.9877と高い相関を持っていることが分かる。

(2)「shingaku（大学・短大への進学率）」を被説明変数として、説明変数として考えられるその他の変数を用いて重回帰分析を行い、多重共線性についても検討せよ。

回帰分析をしたあとでVIFを出力し、さらに結果を保存しておく。

. reg shingaku university income density pop retailing

      Source |       SS       df       MS              Number of obs =      47
-------------+------------------------------           F(  5,    41) =    8.43
       Model |  1176.42691     5  235.285382           Prob > F      =  0.0000
    Residual |   1144.8828    41  27.9239708           R-squared     =  0.5068
-------------+------------------------------           Adj R-squared =  0.4466
       Total |  2321.30972    46  50.4632547           Root MSE      =  5.2843

------------------------------------------------------------------------------
    shingaku |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
  university |    12.6327   3.917224     3.22   0.002     4.721703    20.54369
      income |   .0443032   .0132179     3.35   0.002     .0176091    .0709973
     density |   .0016358   .0009459     1.73   0.091    -.0002745     .003546
         pop |   .8856481   2.623102     0.34   0.737    -4.411813    6.183109
   retailing |  -.1033041   .3027157    -0.34   0.735    -.7146508    .5080427
       _cons |   16.25867   7.748805     2.10   0.042     .6096367     31.9077
------------------------------------------------------------------------------

. estat vif

    Variable |       VIF       1/VIF  
-------------+----------------------
   retailing |     55.55    0.018001
         pop |     46.94    0.021304
     density |      4.27    0.233971
  university |      1.23    0.813579
      income |      1.10    0.907287
-------------+----------------------
    Mean VIF |     21.82

. estimates store m0

retailing（小売業者数）とpop（人口）のVIFが高い値を示しており、多重共線性の問題があることが伺われる。両者との相関係数が高かったdensity（人口密度）を含めてこれらを除いたいくつかのモデルを推定し、結果を保存して比較する。

. reg shingaku university income density pop

      Source |       SS       df       MS              Number of obs =      47
-------------+------------------------------           F(  4,    42) =   10.73
       Model |  1173.17498     4  293.293744           Prob > F      =  0.0000
    Residual |  1148.13474    42  27.3365414           R-squared     =  0.5054
-------------+------------------------------           Adj R-squared =  0.4583
       Total |  2321.30972    46  50.4632547           Root MSE      =  5.2284

------------------------------------------------------------------------------
    shingaku |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
  university |   12.24066   3.705387     3.30   0.002     4.762891    19.71844
      income |   .0450952    .012875     3.50   0.001     .0191124    .0710779
     density |   .0015073   .0008586     1.76   0.086    -.0002254    .0032401
         pop |   .0239629   .7030473     0.03   0.973    -1.394844     1.44277
       _cons |    15.8287   7.564839     2.09   0.042     .5622376    31.09517
------------------------------------------------------------------------------

. estimates store m1

. reg shingaku university income density retailing

      Source |       SS       df       MS              Number of obs =      47
-------------+------------------------------           F(  4,    42) =   10.73
       Model |  1173.24367     4  293.310918           Prob > F      =  0.0000
    Residual |  1148.06604    42  27.3349058           R-squared     =  0.5054
-------------+------------------------------           Adj R-squared =  0.4583
       Total |  2321.30972    46  50.4632547           Root MSE      =  5.2283

------------------------------------------------------------------------------
    shingaku |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
  university |   12.25867   3.717479     3.30   0.002     4.756496    19.76085
      income |   .0448959   .0129619     3.46   0.001     .0187378    .0710541
     density |   .0015794   .0009211     1.71   0.094    -.0002796    .0034383
   retailing |  -.0049183   .0811318    -0.06   0.952     -.168649    .1588124
       _cons |   16.00415   7.630273     2.10   0.042     .6056341    31.40266
------------------------------------------------------------------------------

. estimates store m2

. reg shingaku university income pop retailing

      Source |       SS       df       MS              Number of obs =      47
-------------+------------------------------           F(  4,    42) =    9.34
       Model |  1092.91598     4  273.228994           Prob > F      =  0.0000
    Residual |  1228.39374    42    29.24747           R-squared     =  0.4708
-------------+------------------------------           Adj R-squared =  0.4204
       Total |  2321.30972    46  50.4632547           Root MSE      =  5.4081

------------------------------------------------------------------------------
    shingaku |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
  university |   12.85996   4.006724     3.21   0.003      4.77406    20.94585
      income |   .0501286   .0130809     3.83   0.000     .0237304    .0765269
         pop |   .0842441   2.642319     0.03   0.975    -5.248172     5.41666
   retailing |    .104977   .2842306     0.37   0.714    -.4686235    .6785775
       _cons |   12.17547   7.553197     1.61   0.114    -3.067493    27.41844
------------------------------------------------------------------------------

. est store m3

. reg shingaku university income density

      Source |       SS       df       MS              Number of obs =      47
-------------+------------------------------           F(  3,    43) =   14.65
       Model |  1173.14322     3  391.047739           Prob > F      =  0.0000
    Residual |   1148.1665    43  26.7015465           R-squared     =  0.5054
-------------+------------------------------           Adj R-squared =  0.4709
       Total |  2321.30972    46  50.4632547           Root MSE      =  5.1674

------------------------------------------------------------------------------
    shingaku |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
  university |   12.24042   3.662091     3.34   0.002     4.855111    19.62573
      income |   .0450356   .0126069     3.57   0.001     .0196114    .0704598
     density |   .0015316   .0004731     3.24   0.002     .0005776    .0024857
       _cons |   15.88585   7.290539     2.18   0.035     1.183073    30.58862
------------------------------------------------------------------------------

. est store m4

. estimates table *, b(%9.3fc) star stat(N r2)

--------------------------------------------------------------------------
    Variable |      m0             m1             m2             m3       
-------------+------------------------------------------------------------
  university |    12.633**       12.241**       12.259**       12.860**   
      income |     0.044**        0.045**        0.045**        0.050***  
     density |     0.002          0.002          0.002                    
         pop |     0.886          0.024                         0.084     
   retailing |    -0.103                        -0.005          0.105     
       _cons |    16.259*        15.829*        16.004*        12.175     
-------------+------------------------------------------------------------
           N |        47             47             47             47     
          r2 |     0.507          0.505          0.505          0.471     
--------------------------------------------------------------------------
                                  legend: * p<0.05; ** p<0.01; *** p<0.001

-----------------------------
    Variable |      m4       
-------------+---------------
  university |    12.240**   
      income |     0.045***  
     density |     0.002**   
         pop |               
   retailing |               
       _cons |    15.886*    
-------------+---------------
           N |        47     
          r2 |     0.505     
-----------------------------
legend: * p<0.05; ** p<0.01; *** p<0.001

popとretailingの両者を除いたモデル（m4）でのみ、density変数が1%水準で有意になる。ここでは表示していないが、3つのうち2つを除外すると、残りの一つが有意になる。こういう場合は各変数の効果をデータから判断することが難しいので、理論的に意味のある解釈が成立する変数を残す、といった判断も考えられるだろう。

第5章

問題：本章のデータts.dtaを用い，完全失業率uerの対数系列について，1変量時系列モデルによる分析をする．

(1) 単位根の検定を行え．

データを読み込み，完全失業率の対数系列luerを作成する．

. use data_ts.dta
. gen luer=ln(uer)

コレログラムを確認すると以下のようになる．

. corrgram luer
                                          -1       0       1 -1       0       1

                                          -1       0       1 -1       0       1
 LAG       AC       PAC      Q     Prob>Q  [Autocorrelation]  [Partial Autocor]
-------------------------------------------------------------------------------
1        0.9444   0.9971   53.556  0.0000          |-------           |------- 
2        0.8896  -0.3513   101.94  0.0000          |-------         --|        
3        0.8426   0.2502   146.16  0.0000          |------            |--      
4        0.7835  -0.3074    185.1  0.0000          |------          --|        
5        0.7070   0.0483   217.43  0.0000          |-----             |        
6        0.6331   0.1343   243.86  0.0000          |-----             |-       
7        0.5601   0.1463   264.96  0.0000          |----              |-       
8        0.4809  -0.0270   280.83  0.0000          |---               |        
9        0.4037   0.0465   292.24  0.0000          |---               |        
10       0.3292  -0.1146      300  0.0000          |--                |        
11       0.2588   0.2599   304.89  0.0000          |--                |--      
12       0.1951  -0.1548   307.74  0.0000          |-                -|        
13       0.1434   0.1409   309.31  0.0000          |-                 |-       
14       0.0972   0.1026   310.05  0.0000          |                  |        
15       0.0673   0.3164   310.41  0.0000          |                  |--      
16       0.0490  -0.0011   310.61  0.0000          |                  |        
17       0.0295  -0.2925   310.68  0.0000          |                --|        
18       0.0100  -0.0963   310.69  0.0000          |                  |        
19      -0.0042   0.1662   310.69  0.0000          |                  |-       
20      -0.0156   0.2984   310.71  0.0000          |                  |--      
21      -0.0407   0.2328   310.87  0.0000          |                  |-       
22      -0.0725   0.2050   311.37  0.0000          |                  |-       
23      -0.1045   0.3477   312.45  0.0000          |                  |--      
24      -0.1417  -0.1969    314.5  0.0000         -|                 -|        
25      -0.1787   0.3178   317.86  0.0000         -|                  |--      
26      -0.2136   0.4011    322.8  0.0000         -|                  |---

単位根検定の結果は以下である．

. dfgls luer
 
DF-GLS for luer                                          Number of obs =    46
Maxlag = 10 chosen by Schwert criterion
 
               DF-GLS tau      1% Critical       5% Critical      10% Critical
  [lags]     Test Statistic        Value             Value             Value
------------------------------------------------------------------------------
    10           -1.166           -3.743            -2.701            -2.414
    9            -1.657           -3.743            -2.754            -2.470
    8            -1.429           -3.743            -2.812            -2.528
    7            -1.401           -3.743            -2.871            -2.587
    6            -1.212           -3.743            -2.931            -2.645
    5            -1.253           -3.743            -2.991            -2.702
    4            -1.554           -3.743            -3.048            -2.756
    3            -1.859           -3.743            -3.101            -2.805
    2            -1.380           -3.743            -3.148            -2.849
    1            -1.591           -3.743            -3.189            -2.886
 
Opt Lag (Ng-Perron seq t) =  3 with RMSE  .0850891
Min SC   = -4.645961 at lag  1 with RMSE  .0901562
Min MAIC = -4.649544 at lag  1 with RMSE  .0901562

以上からレベルの対数完全失業率には単位根があることがわかる．

(2) モデル選択を行い，最適なモデルで推定を行え．

単位根を解消するために1次の差分系列で推定を行うが，ここでモデル選択を行う．

最初に自己相関を見ると1次のラグで95％信頼区間から出ているが，それ以上のラグについては信頼区間内に入っている．

. ac d.luer

偏自己相関については，1次と3次のほか，高次のラグでいくつか95％信頼区間から出ている．ここでは3次のラグまで考慮する．

. pac d.luer

以上の結果から，3つのモデルについて比較する．

. quietly arima luer, arima(3, 1, 1)
. estimates store arima1
. quietly arima luer, arima(2, 1, 1)
. estimates store arima2
. quietly arima luer, arima(1, 1, 1)
. estimates store arima3
. estimates stats arima1 arima2 arima3

-----------------------------------------------------------------------------
       Model |    Obs    ll(null)   ll(model)     df          AIC         BIC
-------------+---------------------------------------------------------------
      arima1 |     56           .    52.17249      6    -92.34499   -80.19288
      arima2 |     56           .    52.16101      5    -94.32201   -84.19525
      arima3 |     56           .    52.08476      4    -96.16953   -88.06812
-----------------------------------------------------------------------------
               Note:  N=Obs used in calculating BIC; see [R] BIC note

AIC，BICの結果からarima(1, 1, 1)が選択される．推定結果は以下のとおり．

. estimates replay arima3

----------------------------------------------------------------------------------
Model arima3
----------------------------------------------------------------------------------

ARIMA regression

Sample:  1954 - 2009                            Number of obs      =        56
                                                Wald chi2(2)       =    120.36
Log likelihood =  52.08476                      Prob > chi2        =    0.0000

------------------------------------------------------------------------------
             |                 OPG
      D.luer |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
luer         |
       _cons |   .0199033   .0183233     1.09   0.277    -.0160097    .0558163
-------------+----------------------------------------------------------------
ARMA         |
          ar |
         L1. |  -.3330407   .1462926    -2.28   0.023     -.619769   -.0463125
             |
          ma |
         L1. |   1.128159   .1316987     8.57   0.000     .8700342    1.386284
-------------+----------------------------------------------------------------
      /sigma |   .0838974   .0129742     6.47   0.000     .0584684    .1093264
------------------------------------------------------------------------------

(3) (2)の推定結果を使って2040年までの予測を行え．

サンプルを2040年分まで作成する．

. set obs 88
obs was 57, now 88

. replace year=[_n+1952]
(31 real changes made)

予測を行い，実現値と予測値をグラフに表示する．

. tsline luer pluer

第6章

問題：本章で使用したデータ(data_cat.dta)を用いて，booksを被説明変数，educを説明変数として順序ロジスティック回帰を行う．

(1) 推定した結果の解釈を行え．

はじめにtabulateコマンドでbooksの分布を確認しておくとよいだろう．

. tabulate books

      books |      Freq.     Percent        Cum.
------------+-----------------------------------
          1 |        664       50.73       50.73
          2 |        420       32.09       82.81
          3 |        225       17.19      100.00
------------+-----------------------------------
      Total |      1,309      100.00

次に順序ロジスティック回帰を実行する．

. ologit books i.educ

Iteration 0:   log likelihood = -1324.3286  
Iteration 1:   log likelihood = -1261.6634  
Iteration 2:   log likelihood = -1261.1503  
Iteration 3:   log likelihood =   -1261.15  
Iteration 4:   log likelihood =   -1261.15  

Ordered logistic regression                       Number of obs   =       1309
                                                  LR chi2(2)      =     126.36
                                                  Prob > chi2     =     0.0000
Log likelihood =   -1261.15                       Pseudo R2       =     0.0477

------------------------------------------------------------------------------
       books |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
        educ |
          2  |   .7341558   .1456046     5.04   0.000     .4487761    1.019536
          3  |     1.4786      .1366    10.82   0.000     1.210869    1.746331
-------------+----------------------------------------------------------------
       /cut1 |   .4351751   .0702629                      .2974623    .5728879
       /cut2 |   2.109665   .0940615                      1.925308    2.294022
------------------------------------------------------------------------------

（Version 10以前のStataだとコマンドの最初にxiプリフィクスをつける．）

短大卒の人は「１ヶ月の間に本を読まない」と「本を１から３冊読む」のうち，「本を１から３冊読む」と回答するオッヅが高卒の人に比べて約2（=exp(734)）倍であることがわかる．

モデルを比較のために保存しておく．

. quietly fitstat, saving(mod1)

(2) (1)のモデルの結果を保存せよ．次に，lninc2を付加したモデルを実行し，結果を保存せよ．二つのモデルの適合度を比較せよ．

lninc2を入れたモデルを作成し．結果をはじめのモデルと比較する．

. ologit books i.educ lninc2

Iteration 0:   log likelihood = -1324.3286  
Iteration 1:   log likelihood = -1254.3796  
Iteration 2:   log likelihood = -1253.8127  
Iteration 3:   log likelihood = -1253.8123  
Iteration 4:   log likelihood = -1253.8123  

Ordered logistic regression                       Number of obs   =       1309
                                                  LR chi2(3)      =     141.03
                                                  Prob > chi2     =     0.0000
Log likelihood = -1253.8123                       Pseudo R2       =     0.0532

------------------------------------------------------------------------------
       books |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
        educ |
          2  |   .6235433   .1487022     4.19   0.000     .3320924    .9149941
          3  |   1.341758    .141133     9.51   0.000     1.065142    1.618373
             |
      lninc2 |   .4311248   .1135051     3.80   0.000     .2086588    .6535907
-------------+----------------------------------------------------------------
       /cut1 |   6.049088   1.481274                      3.145844    8.952331
       /cut2 |   7.735795   1.486973                      4.821382    10.65021
------------------------------------------------------------------------------

. fitstat, using(mod1)

Measures of Fit for ologit of books

                               Current             Saved        Difference
Model:                          ologit            ologit
N:                                1309              1309                 0
Log-Lik Intercept Only       -1324.329         -1324.329             0.000
Log-Lik Full Model           -1253.812         -1261.150             7.338
D                             2507.625(1303)    2522.300(1304)      14.675(1)
LR                             141.033(3)        126.357(2)         14.675(1)
Prob > LR                        0.000             0.000             0.000
McFadden's R2                    0.053             0.048             0.006
McFadden's Adj R2                0.049             0.044             0.005
ML (Cox-Snell) R2                0.102             0.092             0.010
Cragg-Uhler(Nagelkerke) R2       0.118             0.106             0.012
McKelvey & Zavoina's R2          0.108             0.097             0.011
Variance of y*                   3.687             3.642             0.045
Variance of error                3.290             3.290             0.000
Count R2                         0.542             0.540             0.002
Adj Count R2                     0.070             0.067             0.003
AIC                              1.925             1.935            -0.010
AIC*n                         2519.625          2532.300           -12.675
BIC                          -6844.031         -6836.532            -7.498
BIC'                          -119.502          -112.003            -7.498
BIC used by Stata             2543.510          2551.008            -7.498
AIC used by Stata             2517.625          2530.300           -12.675

Difference of    7.498 in BIC' provides strong support for current model.

Note: p-value for difference in LR is only valid if models are nested.

fitstatの結果に示されるとおり，lninc2を含むモデルの方が適切である．学歴を考慮しても，収入の高い人の方が，読書量が多いグループに入る傾向があることがこのモデルから示唆される．

第7章

問題：data_ldv_practice.dtaは病院への通院回数（月あたり）のデータである．通院回数について，以下のモデルを用いて推定を行う．

(1) ポワソン回帰(poisson)で推定し，モデルのフィットを確認せよ．

推定に先だって通院回数（dcvis）の分布を確認しておくと，0回が最も比率が高く，2回までで全体の70％近くを占めていることがわかる．

. tabulate dcvis

  number of |
     doctor |
     visits |      Freq.     Percent        Cum.
------------+-----------------------------------
          0 |        353       35.30       35.30
          1 |        219       21.90       57.20
          2 |        114       11.40       68.60
          3 |         74        7.40       76.00
          4 |         68        6.80       82.80
          5 |         46        4.60       87.40
          6 |         32        3.20       90.60
          7 |         31        3.10       93.70
          8 |         25        2.50       96.20
          9 |         18        1.80       98.00
         10 |         12        1.20       99.20
         11 |          8        0.80      100.00
------------+-----------------------------------
      Total |      1,000      100.00

ポワソン回帰の推定結果は以下のとおり．

. poisson dcvis age female married inc, nolog

Poisson regression                                Number of obs   =       1000
                                                  LR chi2(4)      =     264.97
                                                  Prob > chi2     =     0.0000
Log likelihood = -2311.3335                       Pseudo R2       =     0.0542

------------------------------------------------------------------------------
       dcvis |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         age |   .0166808   .0021309     7.83   0.000     .0125044    .0208572
      female |    .539967   .0452597    11.93   0.000     .4512597    .6286743
     married |   .1633433   .0473191     3.45   0.001     .0705995     .256087
         inc |   .0003811   .0000628     6.07   0.000     .0002581    .0005042
       _cons |  -.4763869   .1005565    -4.74   0.000     -.673474   -.2792999
------------------------------------------------------------------------------

. estat gof

         Goodness-of-fit chi2  =  2792.746
         Prob > chi2(995)      =    0.0000

モデルのフィットを確認したところ上に示されるように，ポワソン回帰モデルは適切ではないことが示された．この推定結果をpregで保存する．

. estimates store preg

(2) 負の2項回帰(nb1，nb2)で推定せよ．

次に負の二項回帰モデルによる推定を行う．最初に，NB2の結果を示す．

. nbreg dcvis age female married inc, nolog

Negative binomial regression                      Number of obs   =       1000
                                                  LR chi2(4)      =      86.36
Dispersion     = mean                             Prob > chi2     =     0.0000
Log likelihood = -1921.3426                       Pseudo R2       =     0.0220

------------------------------------------------------------------------------
       dcvis |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         age |   .0189164   .0038799     4.88   0.000     .0113119     .026521
      female |   .5878782   .0810392     7.25   0.000     .4290444    .7467121
     married |   .1803937   .0850096     2.12   0.034     .0137778    .3470095
         inc |   .0004693    .000134     3.50   0.000     .0002067     .000732
       _cons |  -.6402029   .1805987    -3.54   0.000    -.9941699   -.2862359
-------------+----------------------------------------------------------------
    /lnalpha |   .0488437   .0769593                     -.1019937    .1996811
-------------+----------------------------------------------------------------
       alpha |   1.050056   .0808115                      .9030353    1.221013
------------------------------------------------------------------------------
Likelihood-ratio test of alpha=0:  chibar2(01) =  779.98 Prob>=chibar2 = 0.000

推定結果をnb2に残す．

. estimates store nb2

続いてNB1の推定結果である．

. nbreg dcvis age female married inc, dispersion(constant) nolog

Negative binomial regression                      Number of obs   =       1000
                                                  LR chi2(4)      =     124.74
Dispersion     = constant                         Prob > chi2     =     0.0000
Log likelihood = -1902.1541                       Pseudo R2       =     0.0317

------------------------------------------------------------------------------
       dcvis |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         age |   .0178084   .0034775     5.12   0.000     .0109927    .0246242
      female |   .5846776   .0731212     8.00   0.000     .4413627    .7279925
     married |   .1247276   .0753394     1.66   0.098    -.0229348    .2723901
         inc |   .0004848   .0000956     5.07   0.000     .0002975    .0006722
       _cons |  -.5665201   .1604945    -3.53   0.000    -.8810836   -.2519566
-------------+----------------------------------------------------------------
    /lndelta |   .8243906   .0853159                      .6571745    .9916067
-------------+----------------------------------------------------------------
       delta |   2.280491   .1945621                      1.929333    2.695562
------------------------------------------------------------------------------
Likelihood-ratio test of delta=0:  chibar2(01) =  818.36 Prob>=chibar2 = 0.000

推定結果をnb1として残す．

. estimates store nb1

(3) 上で推定した3つのモデルを比較せよ．

3つのモデルの推定係数およびモデル統計量を以下に示した．

. estimates table preg nb2 nb1, star stats(ll aic bic)

--------------------------------------------------------------
    Variable |     preg             nb2             nb1       
-------------+------------------------------------------------
dcvis        |
         age |  .01668078***    .01891641***    .01780844***  
      female |  .53996702***    .58787823***     .5846776***  
     married |  .16334326***    .18039367*      .12472763     
         inc |  .00038113***    .00046935***    .00048484***  
       _cons | -.47638693***   -.64020291***   -.56652012***  
-------------+------------------------------------------------
lnalpha      |
       _cons |                  .04884372                     
-------------+------------------------------------------------
lndelta      |
       _cons |                                  .82439061***  
-------------+------------------------------------------------
Statistics   |                                                
          ll | -2311.3335      -1921.3426      -1902.1541     
         aic |  4632.6671       3854.6853       3816.3081     
         bic |  4657.2058       3884.1318       3845.7547     
--------------------------------------------------------------
                      legend: * p<0.05; ** p<0.01; *** p<0.001

対数尤度，AIC，BICのいずれもNB1が最も適切であることを示している．係数の有意性については，いずれのモデルも同じ結果を示している．NB1の結果から，平均値での年齢の限界効果を確認する．

. quietly nbreg dcvis age female married inc, dispersion(constant) nolog

. margins, dydx(age) atmeans

Conditional marginal effects                      Number of obs   =       1000
Model VCE    : OIM

Expression   : Predicted number of events, predict()
dy/dx w.r.t. : age
at           : age             =      40.872 (mean)
               female          =        .475 (mean)
               married         =        .655 (mean)
               inc             =    351.2612 (mean)

------------------------------------------------------------------------------
             |            Delta-method
             |      dy/dx   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         age |    .035543    .006887     5.16   0.000     .0220448    .0490412
------------------------------------------------------------------------------

年齢が10歳上昇した場合，通院回数が0.355（0.0355×10）回，増加することがわかる．

第8章

(1) 本章で使用したdata_xt_2.dtaを使い，2000～2007年すべての調査期間に回答したサンプルに限定し，業種別(occ1～occ9)に賃金（対数値：lwage）の推移を図示せよ．

全年度（2000～2007年）回答しているかどうかを判断するために，idごとに何年に回答があるかを示す変数(sum_d)をあらかじめ作る．また，occ1～occ9のダミーを一つにまとめた変数(occ)もつくっておく．

. gen d=1

. sort id year

. by id : egen sum_d=sum(d)

. gen occ=.
(3515 missing values generated)

. forvalues i =1(1)9 {
  replace occ=`i' if occ`i'==1
  }
(363 real changes made)
(322 real changes made)
(189 real changes made)
(378 real changes made)
(721 real changes made)
(706 real changes made)
(329 real changes made)
(59 real changes made)
(448 real changes made)

. xtset id year
       panel variable:  id (unbalanced)
        time variable:  year, 2000 to 2007
                delta:  1 unit

. xtgraph lwage if sum_d==8, av(mean) group(occ)

(2) 以下の説明変数群を用いて，賃金関数を3つの線形回帰モデル（プーリング推計, 固定効果推計，変量効果推定）で推計しなさい（レファレンス変数として, occ9[職種]， d07[調査年]を用いる）．説明変数群：educ exper expersq union d01-d06 occ1-occ8

. quietly reg lwage educ exper expersq union d01-d06 occ1-occ8

. estimates store PL

. quietly xtreg lwage educ exper expersq union d01-d06 occ1-occ8, fe

. estimates store FE

. quietly xtreg lwage educ exper expersq union d01-d06 occ1-occ8, re

. estimates store RE

. estimates table PL FE RE, stat(N) star

--------------------------------------------------------------
    Variable |      PL              FE              RE        
-------------+------------------------------------------------
        educ |  .08857238***    (omitted)       .09494866***  
       exper |  .09429149***    .13975001***    .12954507***  
     expersq | -.00311575***    -.0055037***   -.00501305***  
       union |  .19572994***    .09909261***    .12220483***  
         d01 |  .00801284         .016029       .01226658     
         d02 |  -.0080259      -.01586619      -.01585324     
         d03 | -.02331957      -.04769533*     -.04440843     
         d04 | -.02597335      -.05744433*     -.05193071*    
         d05 | -.01137255      -.05106687*     -.04324729     
         d06 |  .00376287      -.03506508      -.02713294     
        occ1 |  .29146005***    .06171286       .12748243***  
        occ2 |  .25675664***    .02363906       .09079543*    
        occ3 |   .2148385***   -.03772692       .03335481     
        occ4 |  .14089617***   -.04700733       .00711674     
        occ5 |  .20834739***   -.01733444        .0495672     
        occ6 |  .15403759***   -.02412722        .0308353     
        occ7 |  .08142965*     -.03152133        .0062851     
        occ8 | -.11783606       -.0582498       -.0704941     
       _cons |  -.0612237       1.0170361***   -.11233344     
-------------+------------------------------------------------
           N |       3515            3515            3515     
--------------------------------------------------------------
                      legend: * p<0.05; ** p<0.01; *** p<0.001

(3) 検定の結果，どのモデルが採択されるか答えよ．

まずプーリング・モデルと固定効果モデルの結果を比較する．

. xtreg lwage educ exper expersq union d01-d06 occ1-occ8, fe
note: educ omitted because of collinearity
（中略）
F test that all u_i=0:     F(544, 2953) =     6.09           Prob > F = 0.0000

「個別効果がない(u_i=0)」という帰無仮説が棄却されたため，固定効果が採用された．

次にプーリング・モデルと変量効果モデルの結果を比較する．

. quietly xtreg lwage educ exper expersq union d01-d06 occ1-occ8, re

. xttest0

Breusch and Pagan Lagrangian multiplier test for random effects

        lwage[id,t] = Xb + u[id] + e[id,t]

        Estimated results:
                         |       Var     sd = sqrt(Var)
                ---------+-----------------------------
                   lwage |    .290275       .5387718
                       e |   .1317872       .3630251
                       u |   .1102739       .3320751

        Test:   Var(u) = 0
                              chi2(1) =  1920.11
                          Prob > chi2 =     0.0000

「個体間分散がない(Var(u))=0」という帰無仮説が棄却されたため，変量効果モデルが採用された．

最後に固定効果モデルと変量効果モデルを比較する．

. quietly xtreg lwage educ exper expersq union d01-d06 occ1-occ8, re

. hausman FE

                 ---- Coefficients ----
             |      (b)          (B)            (b-B)     sqrt(diag(V_b-V_B))
             |       FE           .          Difference          S.E.
-------------+----------------------------------------------------------------
       exper |      .13975     .1295451        .0102049        .0034182
     expersq |   -.0055037     -.005013       -.0004907        .0002558
       union |    .0990926     .1222048       -.0231122        .0102408
         d01 |     .016029     .0122666        .0037624        .0043259
         d02 |   -.0158662    -.0158532       -.0000129        .0041064
         d03 |   -.0476953    -.0444084       -.0032869        .0037718
         d04 |   -.0574443    -.0519307       -.0055136        .0032142
         d05 |   -.0510669    -.0432473       -.0078196        .0026906
         d06 |   -.0350651    -.0271329       -.0079321        .0026061
        occ1 |    .0617129     .1274824       -.0657696         .015219
        occ2 |    .0236391     .0907954       -.0671564        .0137496
        occ3 |   -.0377269     .0333548       -.0710817        .0167891
        occ4 |   -.0470073     .0071167       -.0541241        .0141177
        occ5 |   -.0173344     .0495672       -.0669016        .0152267
        occ6 |   -.0241272     .0308353       -.0549625        .0152916
        occ7 |   -.0315213     .0062851       -.0378064        .0151647
        occ8 |   -.0582498    -.0704941        .0122443        .0296871
------------------------------------------------------------------------------
                           b = consistent under Ho and Ha; obtained from xtreg
            B = inconsistent under Ha, efficient under Ho; obtained from xtreg

    Test:  Ho:  difference in coefficients not systematic

                 chi2(17) = (b-B)'[(V_b-V_B)^(-1)](b-B)
                          =       54.57
                Prob>chi2 =      0.0000
                (V_b-V_B is not positive definite)

ハウスマン検定の結果，変量効果モデルの推定値が固定効果モデルと異ならないという帰無仮説が棄却されたので，最終的に固定効果モデルが採用された．

第9章

問題：data_st_divorce.dtaは，ある年に調査された離婚についてデータである．このデータを使って，以下の問題に答えよ，なお，データセットにある各変数は，以下のとおりである．

no（回答者のID番号）
div（婚姻状態：離婚=1　有配偶=0）
edu（本人の離婚時の最終学歴ダミー変数：高校卒=0　大学卒=1）
mage（本人の結婚年齢）
dur（結婚から離婚までの月数[センサーされた場合は調査時点までの月数]）

(1) 離婚までの月数のメディアンを学歴ごとに調べよ．

生存時間分析を行う場合，最初にデータセットが生存時間分析のデータであることをstsetコマンドで宣言する．このデータでは時生存間の変数はdur，イベント経験の変数はdiv，個体を識別する変数はnoであるから，stset コマンドを次のように入力する．

. stset dur, failure(div==1) id(no)

                id:  no
     failure event:  div == 1
obs. time interval:  (dur[_n-1], dur]
 exit on or before:  failure

------------------------------------------------------------------------------
     1310  total obs.
        0  exclusions
------------------------------------------------------------------------------
     1310  obs. remaining, representing
     1310  subjects
      908  failures in single failure-per-subject data
    27114  total analysis time at risk, at risk from t =         0
                             earliest observed entry t =         0
                                  last observed exit t =        60

生存時間の記述統計を出力させるにはstsumコマンドを用いる．さらに，byをオプションで付けて学歴グループごとのメディアンを計算することを指定する．


. stsum, by(edu)

         failure _d:  div == 1
   analysis time _t:  dur
                 id:  no

         |               incidence       no. of    |------ Survival time -----|
edu      | time at risk     rate        subjects        25%       50%       75%
---------+---------------------------------------------------------------------
high sch |        12597   .0468365           601         12        20        28
universi |        14517   .0219054           709         17        29        43
---------+---------------------------------------------------------------------
   total |        27114   .0334882          1310         14        23        34

出力結果を見ると，高校卒のメディアンは20ヶ月，大学卒では29ヶ月である．したがって，高校卒の人は大学卒の人と比べて，結婚後かなり早いテンポで離婚を経験している．

(2) カプラン・マイヤー法による生存関数のグラフを学歴グループごとに示せ．

生存関数のグラフを出力させるには，sts graphコマンドを用いる．学歴別のグラフにするのはbyをオプションで付ける．

sts graph, by(edu)

(3) 離婚までの年数に学歴グループ間で差があるかログランク検定と一般化ウイルコクソン検定で検討せよ．

ログランク検定は

. sts test edu

         failure _d:  div == 1
   analysis time _t:  dur
                 id:  no


Log-rank test for equality of survivor functions

            |   Events         Events
edu         |  observed       expected
------------+-------------------------
high school |       590         425.63
university  |       318         482.37
------------+-------------------------
Total       |       908         908.00

                  chi2(1) =     125.97
                  Pr>chi2 =     0.0000

一般化ウイルコクソン検定は

. sts test edu, wilcoxon

         failure _d:  div == 1
   analysis time _t:  dur
                 id:  no


Wilcoxon (Breslow) test for equality of survivor functions

            |   Events         Events        Sum of
edu         |  observed       expected        ranks
------------+--------------------------------------
high school |       590         425.63       104468
university  |       318         482.37      -104468
------------+--------------------------------------
Total       |       908         908.00            0

                  chi2(1) =      82.03
                  Pr>chi2 =     0.0000

(4) 離婚までの期間について，学歴と結婚年齢の影響をCox比例ハザードモデルで分析せよ．

Cox比例ハザードモデルにはstcoxコマンドを使う．このコマンドの後に共変量（独立変数）指定する．

. stcox edu mage

         failure _d:  div == 1
   analysis time _t:  dur
                 id:  no

Iteration 0:   log likelihood = -5692.2712
Iteration 1:   log likelihood = -5595.0788
Iteration 2:   log likelihood = -5592.4619
Iteration 3:   log likelihood = -5592.4586
Refining estimates:
Iteration 0:   log likelihood = -5592.4586

Cox regression -- Breslow method for ties

No. of subjects =         1310                     Number of obs   =      1310
No. of failures =          908
Time at risk    =        27114
                                                   LR chi2(2)      =    199.63
Log likelihood  =   -5592.4586                     Prob > chi2     =    0.0000

------------------------------------------------------------------------------
          _t | Haz. Ratio   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         edu |   .3436498   .0283812   -12.93   0.000     .2922923    .4040312
        mage |    .918936   .0087969    -8.83   0.000     .9018551    .9363403
------------------------------------------------------------------------------

出力結果では，学歴も結婚年齢もともに有意な効果を示している．大学卒の離婚のハザード率は高校卒の35％になっており，結婚年齢が一歳上昇するとハザード率は10%低下し90％になる．