(トップにもどる)
data_reg_shingaku2.dtaには以下のような変数が含まれている。
(1)データセットにある各変数間の相関係数を調べよ。
. corr shingaku university income density pop retailing (obs=47) | shingaku univer~y income density pop retail~g -------------+------------------------------------------------------ shingaku | 1.0000 university | 0.4298 1.0000 income | 0.3839 -0.1378 1.0000 density | 0.5215 0.2828 0.1196 1.0000 pop | 0.4150 0.2493 0.0260 0.8391 1.0000 retailing | 0.4290 0.2988 0.0055 0.8622 0.9877 1.0000
pop(人口)とdensity(人口密度)が0.8391、popとretailing(小売業者数)が0.9877と高い相関を持っていることが分かる。
(2)「shingaku(大学・短大への進学率)」を被説明変数として、説明変数として考えられるその他の変数を用いて重回帰分析を行い、多重共線性についても検討せよ。
回帰分析をしたあとでVIFを出力し、さらに結果を保存しておく。
. reg shingaku university income density pop retailing Source | SS df MS Number of obs = 47 -------------+------------------------------ F( 5, 41) = 8.43 Model | 1176.42691 5 235.285382 Prob > F = 0.0000 Residual | 1144.8828 41 27.9239708 R-squared = 0.5068 -------------+------------------------------ Adj R-squared = 0.4466 Total | 2321.30972 46 50.4632547 Root MSE = 5.2843 ------------------------------------------------------------------------------ shingaku | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- university | 12.6327 3.917224 3.22 0.002 4.721703 20.54369 income | .0443032 .0132179 3.35 0.002 .0176091 .0709973 density | .0016358 .0009459 1.73 0.091 -.0002745 .003546 pop | .8856481 2.623102 0.34 0.737 -4.411813 6.183109 retailing | -.1033041 .3027157 -0.34 0.735 -.7146508 .5080427 _cons | 16.25867 7.748805 2.10 0.042 .6096367 31.9077 ------------------------------------------------------------------------------ . estat vif Variable | VIF 1/VIF -------------+---------------------- retailing | 55.55 0.018001 pop | 46.94 0.021304 density | 4.27 0.233971 university | 1.23 0.813579 income | 1.10 0.907287 -------------+---------------------- Mean VIF | 21.82 . estimates store m0
retailing(小売業者数)とpop(人口)のVIFが高い値を示しており、多重共線性の問題があることが伺われる。両者との相関係数が高かったdensity(人口密度)を含めてこれらを除いたいくつかのモデルを推定し、結果を保存して比較する。
. reg shingaku university income density pop Source | SS df MS Number of obs = 47 -------------+------------------------------ F( 4, 42) = 10.73 Model | 1173.17498 4 293.293744 Prob > F = 0.0000 Residual | 1148.13474 42 27.3365414 R-squared = 0.5054 -------------+------------------------------ Adj R-squared = 0.4583 Total | 2321.30972 46 50.4632547 Root MSE = 5.2284 ------------------------------------------------------------------------------ shingaku | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- university | 12.24066 3.705387 3.30 0.002 4.762891 19.71844 income | .0450952 .012875 3.50 0.001 .0191124 .0710779 density | .0015073 .0008586 1.76 0.086 -.0002254 .0032401 pop | .0239629 .7030473 0.03 0.973 -1.394844 1.44277 _cons | 15.8287 7.564839 2.09 0.042 .5622376 31.09517 ------------------------------------------------------------------------------ . estimates store m1 . reg shingaku university income density retailing Source | SS df MS Number of obs = 47 -------------+------------------------------ F( 4, 42) = 10.73 Model | 1173.24367 4 293.310918 Prob > F = 0.0000 Residual | 1148.06604 42 27.3349058 R-squared = 0.5054 -------------+------------------------------ Adj R-squared = 0.4583 Total | 2321.30972 46 50.4632547 Root MSE = 5.2283 ------------------------------------------------------------------------------ shingaku | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- university | 12.25867 3.717479 3.30 0.002 4.756496 19.76085 income | .0448959 .0129619 3.46 0.001 .0187378 .0710541 density | .0015794 .0009211 1.71 0.094 -.0002796 .0034383 retailing | -.0049183 .0811318 -0.06 0.952 -.168649 .1588124 _cons | 16.00415 7.630273 2.10 0.042 .6056341 31.40266 ------------------------------------------------------------------------------ . estimates store m2 . reg shingaku university income pop retailing Source | SS df MS Number of obs = 47 -------------+------------------------------ F( 4, 42) = 9.34 Model | 1092.91598 4 273.228994 Prob > F = 0.0000 Residual | 1228.39374 42 29.24747 R-squared = 0.4708 -------------+------------------------------ Adj R-squared = 0.4204 Total | 2321.30972 46 50.4632547 Root MSE = 5.4081 ------------------------------------------------------------------------------ shingaku | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- university | 12.85996 4.006724 3.21 0.003 4.77406 20.94585 income | .0501286 .0130809 3.83 0.000 .0237304 .0765269 pop | .0842441 2.642319 0.03 0.975 -5.248172 5.41666 retailing | .104977 .2842306 0.37 0.714 -.4686235 .6785775 _cons | 12.17547 7.553197 1.61 0.114 -3.067493 27.41844 ------------------------------------------------------------------------------ . est store m3 . reg shingaku university income density Source | SS df MS Number of obs = 47 -------------+------------------------------ F( 3, 43) = 14.65 Model | 1173.14322 3 391.047739 Prob > F = 0.0000 Residual | 1148.1665 43 26.7015465 R-squared = 0.5054 -------------+------------------------------ Adj R-squared = 0.4709 Total | 2321.30972 46 50.4632547 Root MSE = 5.1674 ------------------------------------------------------------------------------ shingaku | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- university | 12.24042 3.662091 3.34 0.002 4.855111 19.62573 income | .0450356 .0126069 3.57 0.001 .0196114 .0704598 density | .0015316 .0004731 3.24 0.002 .0005776 .0024857 _cons | 15.88585 7.290539 2.18 0.035 1.183073 30.58862 ------------------------------------------------------------------------------ . est store m4 . estimates table *, b(%9.3fc) star stat(N r2) -------------------------------------------------------------------------- Variable | m0 m1 m2 m3 -------------+------------------------------------------------------------ university | 12.633** 12.241** 12.259** 12.860** income | 0.044** 0.045** 0.045** 0.050*** density | 0.002 0.002 0.002 pop | 0.886 0.024 0.084 retailing | -0.103 -0.005 0.105 _cons | 16.259* 15.829* 16.004* 12.175 -------------+------------------------------------------------------------ N | 47 47 47 47 r2 | 0.507 0.505 0.505 0.471 -------------------------------------------------------------------------- legend: * p<0.05; ** p<0.01; *** p<0.001 ----------------------------- Variable | m4 -------------+--------------- university | 12.240** income | 0.045*** density | 0.002** pop | retailing | _cons | 15.886* -------------+--------------- N | 47 r2 | 0.505 ----------------------------- legend: * p<0.05; ** p<0.01; *** p<0.001
popとretailingの両者を除いたモデル(m4)でのみ、density変数が1%水準で有意になる。ここでは表示していないが、3つのうち2つを除外すると、残りの一つが有意になる。こういう場合は各変数の効果をデータから判断することが難しいので、理論的に意味のある解釈が成立する変数を残す、といった判断も考えられるだろう。
問題:本章のデータts.dtaを用い,完全失業率uerの対数系列について,1変量時系列モデルによる分析をする.
(1) 単位根の検定を行え.
データを読み込み,完全失業率の対数系列luerを作成する.
. use data_ts.dta . gen luer=ln(uer)
コレログラムを確認すると以下のようになる.
. corrgram luer -1 0 1 -1 0 1 -1 0 1 -1 0 1 LAG AC PAC Q Prob>Q [Autocorrelation] [Partial Autocor] ------------------------------------------------------------------------------- 1 0.9444 0.9971 53.556 0.0000 |------- |------- 2 0.8896 -0.3513 101.94 0.0000 |------- --| 3 0.8426 0.2502 146.16 0.0000 |------ |-- 4 0.7835 -0.3074 185.1 0.0000 |------ --| 5 0.7070 0.0483 217.43 0.0000 |----- | 6 0.6331 0.1343 243.86 0.0000 |----- |- 7 0.5601 0.1463 264.96 0.0000 |---- |- 8 0.4809 -0.0270 280.83 0.0000 |--- | 9 0.4037 0.0465 292.24 0.0000 |--- | 10 0.3292 -0.1146 300 0.0000 |-- | 11 0.2588 0.2599 304.89 0.0000 |-- |-- 12 0.1951 -0.1548 307.74 0.0000 |- -| 13 0.1434 0.1409 309.31 0.0000 |- |- 14 0.0972 0.1026 310.05 0.0000 | | 15 0.0673 0.3164 310.41 0.0000 | |-- 16 0.0490 -0.0011 310.61 0.0000 | | 17 0.0295 -0.2925 310.68 0.0000 | --| 18 0.0100 -0.0963 310.69 0.0000 | | 19 -0.0042 0.1662 310.69 0.0000 | |- 20 -0.0156 0.2984 310.71 0.0000 | |-- 21 -0.0407 0.2328 310.87 0.0000 | |- 22 -0.0725 0.2050 311.37 0.0000 | |- 23 -0.1045 0.3477 312.45 0.0000 | |-- 24 -0.1417 -0.1969 314.5 0.0000 -| -| 25 -0.1787 0.3178 317.86 0.0000 -| |-- 26 -0.2136 0.4011 322.8 0.0000 -| |---
単位根検定の結果は以下である.
. dfgls luer DF-GLS for luer Number of obs = 46 Maxlag = 10 chosen by Schwert criterion DF-GLS tau 1% Critical 5% Critical 10% Critical [lags] Test Statistic Value Value Value ------------------------------------------------------------------------------ 10 -1.166 -3.743 -2.701 -2.414 9 -1.657 -3.743 -2.754 -2.470 8 -1.429 -3.743 -2.812 -2.528 7 -1.401 -3.743 -2.871 -2.587 6 -1.212 -3.743 -2.931 -2.645 5 -1.253 -3.743 -2.991 -2.702 4 -1.554 -3.743 -3.048 -2.756 3 -1.859 -3.743 -3.101 -2.805 2 -1.380 -3.743 -3.148 -2.849 1 -1.591 -3.743 -3.189 -2.886 Opt Lag (Ng-Perron seq t) = 3 with RMSE .0850891 Min SC = -4.645961 at lag 1 with RMSE .0901562 Min MAIC = -4.649544 at lag 1 with RMSE .0901562
以上からレベルの対数完全失業率には単位根があることがわかる.
(2) モデル選択を行い,最適なモデルで推定を行え.
単位根を解消するために1次の差分系列で推定を行うが,ここでモデル選択を行う.
最初に自己相関を見ると1次のラグで95%信頼区間から出ているが,それ以上のラグについては信頼区間内に入っている.
. ac d.luer
偏自己相関については,1次と3次のほか,高次のラグでいくつか95%信頼区間から出ている.ここでは3次のラグまで考慮する.
. pac d.luer
以上の結果から,3つのモデルについて比較する.
. quietly arima luer, arima(3, 1, 1) . estimates store arima1 . quietly arima luer, arima(2, 1, 1) . estimates store arima2 . quietly arima luer, arima(1, 1, 1) . estimates store arima3 . estimates stats arima1 arima2 arima3 ----------------------------------------------------------------------------- Model | Obs ll(null) ll(model) df AIC BIC -------------+--------------------------------------------------------------- arima1 | 56 . 52.17249 6 -92.34499 -80.19288 arima2 | 56 . 52.16101 5 -94.32201 -84.19525 arima3 | 56 . 52.08476 4 -96.16953 -88.06812 ----------------------------------------------------------------------------- Note: N=Obs used in calculating BIC; see [R] BIC note
AIC,BICの結果からarima(1, 1, 1)が選択される.推定結果は以下のとおり.
. estimates replay arima3 ---------------------------------------------------------------------------------- Model arima3 ---------------------------------------------------------------------------------- ARIMA regression Sample: 1954 - 2009 Number of obs = 56 Wald chi2(2) = 120.36 Log likelihood = 52.08476 Prob > chi2 = 0.0000 ------------------------------------------------------------------------------ | OPG D.luer | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- luer | _cons | .0199033 .0183233 1.09 0.277 -.0160097 .0558163 -------------+---------------------------------------------------------------- ARMA | ar | L1. | -.3330407 .1462926 -2.28 0.023 -.619769 -.0463125 | ma | L1. | 1.128159 .1316987 8.57 0.000 .8700342 1.386284 -------------+---------------------------------------------------------------- /sigma | .0838974 .0129742 6.47 0.000 .0584684 .1093264 ------------------------------------------------------------------------------
(3) (2)の推定結果を使って2040年までの予測を行え.
サンプルを2040年分まで作成する.
. set obs 88 obs was 57, now 88 . replace year=[_n+1952] (31 real changes made)
予測を行い,実現値と予測値をグラフに表示する.
. tsline luer pluer
問題:本章で使用したデータ(data_cat.dta)を用いて,booksを被説明変数,educを説明変数として順序ロジスティック回帰を行う.
(1) 推定した結果の解釈を行え.
はじめにtabulateコマンドでbooksの分布を確認しておくとよいだろう.
. tabulate books books | Freq. Percent Cum. ------------+----------------------------------- 1 | 664 50.73 50.73 2 | 420 32.09 82.81 3 | 225 17.19 100.00 ------------+----------------------------------- Total | 1,309 100.00
次に順序ロジスティック回帰を実行する.
. ologit books i.educ Iteration 0: log likelihood = -1324.3286 Iteration 1: log likelihood = -1261.6634 Iteration 2: log likelihood = -1261.1503 Iteration 3: log likelihood = -1261.15 Iteration 4: log likelihood = -1261.15 Ordered logistic regression Number of obs = 1309 LR chi2(2) = 126.36 Prob > chi2 = 0.0000 Log likelihood = -1261.15 Pseudo R2 = 0.0477 ------------------------------------------------------------------------------ books | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- educ | 2 | .7341558 .1456046 5.04 0.000 .4487761 1.019536 3 | 1.4786 .1366 10.82 0.000 1.210869 1.746331 -------------+---------------------------------------------------------------- /cut1 | .4351751 .0702629 .2974623 .5728879 /cut2 | 2.109665 .0940615 1.925308 2.294022 ------------------------------------------------------------------------------
(Version 10以前のStataだとコマンドの最初にxiプリフィクスをつける.)
短大卒の人は「1ヶ月の間に本を読まない」と「本を1から3冊読む」のうち,「本を1から3冊読む」と回答するオッヅが高卒の人に比べて約2(=exp(734))倍であることがわかる.
モデルを比較のために保存しておく.
. quietly fitstat, saving(mod1)
(2) (1)のモデルの結果を保存せよ.次に,lninc2を付加したモデルを実行し,結果を保存せよ.二つのモデルの適合度を比較せよ.
lninc2を入れたモデルを作成し.結果をはじめのモデルと比較する.
. ologit books i.educ lninc2 Iteration 0: log likelihood = -1324.3286 Iteration 1: log likelihood = -1254.3796 Iteration 2: log likelihood = -1253.8127 Iteration 3: log likelihood = -1253.8123 Iteration 4: log likelihood = -1253.8123 Ordered logistic regression Number of obs = 1309 LR chi2(3) = 141.03 Prob > chi2 = 0.0000 Log likelihood = -1253.8123 Pseudo R2 = 0.0532 ------------------------------------------------------------------------------ books | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- educ | 2 | .6235433 .1487022 4.19 0.000 .3320924 .9149941 3 | 1.341758 .141133 9.51 0.000 1.065142 1.618373 | lninc2 | .4311248 .1135051 3.80 0.000 .2086588 .6535907 -------------+---------------------------------------------------------------- /cut1 | 6.049088 1.481274 3.145844 8.952331 /cut2 | 7.735795 1.486973 4.821382 10.65021 ------------------------------------------------------------------------------ . fitstat, using(mod1) Measures of Fit for ologit of books Current Saved Difference Model: ologit ologit N: 1309 1309 0 Log-Lik Intercept Only -1324.329 -1324.329 0.000 Log-Lik Full Model -1253.812 -1261.150 7.338 D 2507.625(1303) 2522.300(1304) 14.675(1) LR 141.033(3) 126.357(2) 14.675(1) Prob > LR 0.000 0.000 0.000 McFadden's R2 0.053 0.048 0.006 McFadden's Adj R2 0.049 0.044 0.005 ML (Cox-Snell) R2 0.102 0.092 0.010 Cragg-Uhler(Nagelkerke) R2 0.118 0.106 0.012 McKelvey & Zavoina's R2 0.108 0.097 0.011 Variance of y* 3.687 3.642 0.045 Variance of error 3.290 3.290 0.000 Count R2 0.542 0.540 0.002 Adj Count R2 0.070 0.067 0.003 AIC 1.925 1.935 -0.010 AIC*n 2519.625 2532.300 -12.675 BIC -6844.031 -6836.532 -7.498 BIC' -119.502 -112.003 -7.498 BIC used by Stata 2543.510 2551.008 -7.498 AIC used by Stata 2517.625 2530.300 -12.675 Difference of 7.498 in BIC' provides strong support for current model. Note: p-value for difference in LR is only valid if models are nested.
fitstatの結果に示されるとおり,lninc2を含むモデルの方が適切である.学歴を考慮しても,収入の高い人の方が,読書量が多いグループに入る傾向があることがこのモデルから示唆される.
問題:data_ldv_practice.dtaは病院への通院回数(月あたり)のデータである.通院回数について,以下のモデルを用いて推定を行う.
(1) ポワソン回帰(poisson)で推定し,モデルのフィットを確認せよ.
推定に先だって通院回数(dcvis)の分布を確認しておくと,0回が最も比率が高く,2回までで全体の70%近くを占めていることがわかる.
. tabulate dcvis number of | doctor | visits | Freq. Percent Cum. ------------+----------------------------------- 0 | 353 35.30 35.30 1 | 219 21.90 57.20 2 | 114 11.40 68.60 3 | 74 7.40 76.00 4 | 68 6.80 82.80 5 | 46 4.60 87.40 6 | 32 3.20 90.60 7 | 31 3.10 93.70 8 | 25 2.50 96.20 9 | 18 1.80 98.00 10 | 12 1.20 99.20 11 | 8 0.80 100.00 ------------+----------------------------------- Total | 1,000 100.00
ポワソン回帰の推定結果は以下のとおり.
. poisson dcvis age female married inc, nolog Poisson regression Number of obs = 1000 LR chi2(4) = 264.97 Prob > chi2 = 0.0000 Log likelihood = -2311.3335 Pseudo R2 = 0.0542 ------------------------------------------------------------------------------ dcvis | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- age | .0166808 .0021309 7.83 0.000 .0125044 .0208572 female | .539967 .0452597 11.93 0.000 .4512597 .6286743 married | .1633433 .0473191 3.45 0.001 .0705995 .256087 inc | .0003811 .0000628 6.07 0.000 .0002581 .0005042 _cons | -.4763869 .1005565 -4.74 0.000 -.673474 -.2792999 ------------------------------------------------------------------------------ . estat gof Goodness-of-fit chi2 = 2792.746 Prob > chi2(995) = 0.0000
モデルのフィットを確認したところ上に示されるように,ポワソン回帰モデルは適切ではないことが示された.この推定結果をpregで保存する.
. estimates store preg
(2) 負の2項回帰(nb1,nb2)で推定せよ.
次に負の二項回帰モデルによる推定を行う.最初に,NB2の結果を示す.
. nbreg dcvis age female married inc, nolog Negative binomial regression Number of obs = 1000 LR chi2(4) = 86.36 Dispersion = mean Prob > chi2 = 0.0000 Log likelihood = -1921.3426 Pseudo R2 = 0.0220 ------------------------------------------------------------------------------ dcvis | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- age | .0189164 .0038799 4.88 0.000 .0113119 .026521 female | .5878782 .0810392 7.25 0.000 .4290444 .7467121 married | .1803937 .0850096 2.12 0.034 .0137778 .3470095 inc | .0004693 .000134 3.50 0.000 .0002067 .000732 _cons | -.6402029 .1805987 -3.54 0.000 -.9941699 -.2862359 -------------+---------------------------------------------------------------- /lnalpha | .0488437 .0769593 -.1019937 .1996811 -------------+---------------------------------------------------------------- alpha | 1.050056 .0808115 .9030353 1.221013 ------------------------------------------------------------------------------ Likelihood-ratio test of alpha=0: chibar2(01) = 779.98 Prob>=chibar2 = 0.000
推定結果をnb2に残す.
. estimates store nb2
続いてNB1の推定結果である.
. nbreg dcvis age female married inc, dispersion(constant) nolog Negative binomial regression Number of obs = 1000 LR chi2(4) = 124.74 Dispersion = constant Prob > chi2 = 0.0000 Log likelihood = -1902.1541 Pseudo R2 = 0.0317 ------------------------------------------------------------------------------ dcvis | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- age | .0178084 .0034775 5.12 0.000 .0109927 .0246242 female | .5846776 .0731212 8.00 0.000 .4413627 .7279925 married | .1247276 .0753394 1.66 0.098 -.0229348 .2723901 inc | .0004848 .0000956 5.07 0.000 .0002975 .0006722 _cons | -.5665201 .1604945 -3.53 0.000 -.8810836 -.2519566 -------------+---------------------------------------------------------------- /lndelta | .8243906 .0853159 .6571745 .9916067 -------------+---------------------------------------------------------------- delta | 2.280491 .1945621 1.929333 2.695562 ------------------------------------------------------------------------------ Likelihood-ratio test of delta=0: chibar2(01) = 818.36 Prob>=chibar2 = 0.000
推定結果をnb1として残す.
. estimates store nb1
(3) 上で推定した3つのモデルを比較せよ.
3つのモデルの推定係数およびモデル統計量を以下に示した.
. estimates table preg nb2 nb1, star stats(ll aic bic) -------------------------------------------------------------- Variable | preg nb2 nb1 -------------+------------------------------------------------ dcvis | age | .01668078*** .01891641*** .01780844*** female | .53996702*** .58787823*** .5846776*** married | .16334326*** .18039367* .12472763 inc | .00038113*** .00046935*** .00048484*** _cons | -.47638693*** -.64020291*** -.56652012*** -------------+------------------------------------------------ lnalpha | _cons | .04884372 -------------+------------------------------------------------ lndelta | _cons | .82439061*** -------------+------------------------------------------------ Statistics | ll | -2311.3335 -1921.3426 -1902.1541 aic | 4632.6671 3854.6853 3816.3081 bic | 4657.2058 3884.1318 3845.7547 -------------------------------------------------------------- legend: * p<0.05; ** p<0.01; *** p<0.001
対数尤度,AIC,BICのいずれもNB1が最も適切であることを示している.係数の有意性については,いずれのモデルも同じ結果を示している.NB1の結果から,平均値での年齢の限界効果を確認する.
. quietly nbreg dcvis age female married inc, dispersion(constant) nolog . margins, dydx(age) atmeans Conditional marginal effects Number of obs = 1000 Model VCE : OIM Expression : Predicted number of events, predict() dy/dx w.r.t. : age at : age = 40.872 (mean) female = .475 (mean) married = .655 (mean) inc = 351.2612 (mean) ------------------------------------------------------------------------------ | Delta-method | dy/dx Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- age | .035543 .006887 5.16 0.000 .0220448 .0490412 ------------------------------------------------------------------------------
年齢が10歳上昇した場合,通院回数が0.355(0.0355×10)回,増加することがわかる.
(1) 本章で使用したdata_xt_2.dtaを使い,2000〜2007年すべての調査期間に回答したサンプルに限定し,業種別(occ1〜occ9)に賃金(対数値:lwage)の推移を図示せよ.
全年度(2000〜2007年)回答しているかどうかを判断するために,idごとに何年に回答があるかを示す変数(sum_d)をあらかじめ作る.また,occ1〜occ9のダミーを一つにまとめた変数(occ)もつくっておく.
. gen d=1 . sort id year . by id : egen sum_d=sum(d) . gen occ=. (3515 missing values generated) . forvalues i =1(1)9 { replace occ=`i' if occ`i'==1 } (363 real changes made) (322 real changes made) (189 real changes made) (378 real changes made) (721 real changes made) (706 real changes made) (329 real changes made) (59 real changes made) (448 real changes made) . xtset id year panel variable: id (unbalanced) time variable: year, 2000 to 2007 delta: 1 unit . xtgraph lwage if sum_d==8, av(mean) group(occ)
(2) 以下の説明変数群を用いて,賃金関数を3つの線形回帰モデル(プーリング推計, 固定効果推計,変量効果推定)で推計しなさい(レファレンス変数として, occ9[職種], d07[調査年]を用いる).説明変数群:educ exper expersq union d01-d06 occ1-occ8
. quietly reg lwage educ exper expersq union d01-d06 occ1-occ8 . estimates store PL . quietly xtreg lwage educ exper expersq union d01-d06 occ1-occ8, fe . estimates store FE . quietly xtreg lwage educ exper expersq union d01-d06 occ1-occ8, re . estimates store RE . estimates table PL FE RE, stat(N) star -------------------------------------------------------------- Variable | PL FE RE -------------+------------------------------------------------ educ | .08857238*** (omitted) .09494866*** exper | .09429149*** .13975001*** .12954507*** expersq | -.00311575*** -.0055037*** -.00501305*** union | .19572994*** .09909261*** .12220483*** d01 | .00801284 .016029 .01226658 d02 | -.0080259 -.01586619 -.01585324 d03 | -.02331957 -.04769533* -.04440843 d04 | -.02597335 -.05744433* -.05193071* d05 | -.01137255 -.05106687* -.04324729 d06 | .00376287 -.03506508 -.02713294 occ1 | .29146005*** .06171286 .12748243*** occ2 | .25675664*** .02363906 .09079543* occ3 | .2148385*** -.03772692 .03335481 occ4 | .14089617*** -.04700733 .00711674 occ5 | .20834739*** -.01733444 .0495672 occ6 | .15403759*** -.02412722 .0308353 occ7 | .08142965* -.03152133 .0062851 occ8 | -.11783606 -.0582498 -.0704941 _cons | -.0612237 1.0170361*** -.11233344 -------------+------------------------------------------------ N | 3515 3515 3515 -------------------------------------------------------------- legend: * p<0.05; ** p<0.01; *** p<0.001
(3) 検定の結果,どのモデルが採択されるか答えよ.
まずプーリング・モデルと固定効果モデルの結果を比較する.
. xtreg lwage educ exper expersq union d01-d06 occ1-occ8, fe note: educ omitted because of collinearity (中略) F test that all u_i=0: F(544, 2953) = 6.09 Prob > F = 0.0000
「個別効果がない(u_i=0)」という帰無仮説が棄却されたため,固定効果が採用された.
次にプーリング・モデルと変量効果モデルの結果を比較する.
. quietly xtreg lwage educ exper expersq union d01-d06 occ1-occ8, re . xttest0 Breusch and Pagan Lagrangian multiplier test for random effects lwage[id,t] = Xb + u[id] + e[id,t] Estimated results: | Var sd = sqrt(Var) ---------+----------------------------- lwage | .290275 .5387718 e | .1317872 .3630251 u | .1102739 .3320751 Test: Var(u) = 0 chi2(1) = 1920.11 Prob > chi2 = 0.0000
「個体間分散がない(Var(u))=0」という帰無仮説が棄却されたため,変量効果モデルが採用された.
最後に固定効果モデルと変量効果モデルを比較する.
. quietly xtreg lwage educ exper expersq union d01-d06 occ1-occ8, re . hausman FE ---- Coefficients ---- | (b) (B) (b-B) sqrt(diag(V_b-V_B)) | FE . Difference S.E. -------------+---------------------------------------------------------------- exper | .13975 .1295451 .0102049 .0034182 expersq | -.0055037 -.005013 -.0004907 .0002558 union | .0990926 .1222048 -.0231122 .0102408 d01 | .016029 .0122666 .0037624 .0043259 d02 | -.0158662 -.0158532 -.0000129 .0041064 d03 | -.0476953 -.0444084 -.0032869 .0037718 d04 | -.0574443 -.0519307 -.0055136 .0032142 d05 | -.0510669 -.0432473 -.0078196 .0026906 d06 | -.0350651 -.0271329 -.0079321 .0026061 occ1 | .0617129 .1274824 -.0657696 .015219 occ2 | .0236391 .0907954 -.0671564 .0137496 occ3 | -.0377269 .0333548 -.0710817 .0167891 occ4 | -.0470073 .0071167 -.0541241 .0141177 occ5 | -.0173344 .0495672 -.0669016 .0152267 occ6 | -.0241272 .0308353 -.0549625 .0152916 occ7 | -.0315213 .0062851 -.0378064 .0151647 occ8 | -.0582498 -.0704941 .0122443 .0296871 ------------------------------------------------------------------------------ b = consistent under Ho and Ha; obtained from xtreg B = inconsistent under Ha, efficient under Ho; obtained from xtreg Test: Ho: difference in coefficients not systematic chi2(17) = (b-B)'[(V_b-V_B)^(-1)](b-B) = 54.57 Prob>chi2 = 0.0000 (V_b-V_B is not positive definite)
ハウスマン検定の結果,変量効果モデルの推定値が固定効果モデルと異ならないという帰無仮説が棄却されたので,最終的に固定効果モデルが採用された.
問題:data_st_divorce.dtaは,ある年に調査された離婚についてデータである.このデータを使って,以下の問題に答えよ,なお,データセットにある各変数は,以下のとおりである.
(1) 離婚までの月数のメディアンを学歴ごとに調べよ.
生存時間分析を行う場合,最初にデータセットが生存時間分析のデータであることをstsetコマンドで宣言する.このデータでは時生存間の変数はdur,イベント経験の変数はdiv,個体を識別する変数はnoであるから,stset コマンドを次のように入力する.
. stset dur, failure(div==1) id(no) id: no failure event: div == 1 obs. time interval: (dur[_n-1], dur] exit on or before: failure ------------------------------------------------------------------------------ 1310 total obs. 0 exclusions ------------------------------------------------------------------------------ 1310 obs. remaining, representing 1310 subjects 908 failures in single failure-per-subject data 27114 total analysis time at risk, at risk from t = 0 earliest observed entry t = 0 last observed exit t = 60
生存時間の記述統計を出力させるにはstsumコマンドを用いる.さらに,byをオプションで付けて学歴グループごとのメディアンを計算することを指定する.
. stsum, by(edu) failure _d: div == 1 analysis time _t: dur id: no | incidence no. of |------ Survival time -----| edu | time at risk rate subjects 25% 50% 75% ---------+--------------------------------------------------------------------- high sch | 12597 .0468365 601 12 20 28 universi | 14517 .0219054 709 17 29 43 ---------+--------------------------------------------------------------------- total | 27114 .0334882 1310 14 23 34
出力結果を見ると,高校卒のメディアンは20ヶ月,大学卒では29ヶ月である.したがって,高校卒の人は大学卒の人と比べて,結婚後かなり早いテンポで離婚を経験している.
(2) カプラン・マイヤー法による生存関数のグラフを学歴グループごとに示せ.
生存関数のグラフを出力させるには,sts graphコマンドを用いる.学歴別のグラフにするのはbyをオプションで付ける.
sts graph, by(edu)
(3) 離婚までの年数に学歴グループ間で差があるかログランク検定と一般化ウイルコクソン検定で検討せよ.
ログランク検定は
. sts test edu failure _d: div == 1 analysis time _t: dur id: no Log-rank test for equality of survivor functions | Events Events edu | observed expected ------------+------------------------- high school | 590 425.63 university | 318 482.37 ------------+------------------------- Total | 908 908.00 chi2(1) = 125.97 Pr>chi2 = 0.0000
一般化ウイルコクソン検定は
. sts test edu, wilcoxon failure _d: div == 1 analysis time _t: dur id: no Wilcoxon (Breslow) test for equality of survivor functions | Events Events Sum of edu | observed expected ranks ------------+-------------------------------------- high school | 590 425.63 104468 university | 318 482.37 -104468 ------------+-------------------------------------- Total | 908 908.00 0 chi2(1) = 82.03 Pr>chi2 = 0.0000
(4) 離婚までの期間について,学歴と結婚年齢の影響をCox比例ハザードモデルで分析せよ.
Cox比例ハザードモデルにはstcoxコマンドを使う.このコマンドの後に共変量(独立変数)指定する.
. stcox edu mage failure _d: div == 1 analysis time _t: dur id: no Iteration 0: log likelihood = -5692.2712 Iteration 1: log likelihood = -5595.0788 Iteration 2: log likelihood = -5592.4619 Iteration 3: log likelihood = -5592.4586 Refining estimates: Iteration 0: log likelihood = -5592.4586 Cox regression -- Breslow method for ties No. of subjects = 1310 Number of obs = 1310 No. of failures = 908 Time at risk = 27114 LR chi2(2) = 199.63 Log likelihood = -5592.4586 Prob > chi2 = 0.0000 ------------------------------------------------------------------------------ _t | Haz. Ratio Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- edu | .3436498 .0283812 -12.93 0.000 .2922923 .4040312 mage | .918936 .0087969 -8.83 0.000 .9018551 .9363403 ------------------------------------------------------------------------------
出力結果では,学歴も結婚年齢もともに有意な効果を示している.大学卒の離婚のハザード率は高校卒の35%になっており,結婚年齢が一歳上昇するとハザード率は10%低下し90%になる.