■ 2003年春合宿 (文責:鈴木武 2003年2月)

 2月3日から5日まで、三浦セミナーハウスでゼミ合宿をしました。かなり前に卒業した皆さんはご存じないと思いますが、法政大学にはセミナーハウスが3つあります。河口湖近くにある富士セミナーハウス、石岡運動場に併設されたセミナーハウスに、三浦です。京急三浦海岸駅から15分ほどのところにあります。海岸には近いのですが、それ以外には遊ぶところが何もないので、勉強の春合宿にはうってつけです。
 今回は、計量経済学を講義することにしました。この4月からゼミに入る2年生、ゼミで必要なのに私の担当の計量経営分析をとらない3年生、それに統計学をマスターしていない卒業間近の4年生、計26名が参加しました。

(写真:セミナーハウスの前で  4年生  3年生  2年生


初日午後の授業

 初日は午後1時集合、2時から授業です。回帰分析の考え方、気持ちを話しました。例として、体重を身長で説明するケースをとりあげます。もちろん、100%説明できるわけではありません。同じ170pの人でも、身長以外の様々な要因によって影響され、体重は異なります。しかし、身長以外の要因は細かいものだと考えます。もし、かなり重要な要因があるとすれば、身長と並べて説明変数に加えればよいのです。その残りは細かい要因ということになります。それら細かい要因が全体として体重に及ぼす影響が異なるので、同じ身長でも体重が違ってきます。細かい要因からなる体重への影響全体をひっくるめて誤差項と呼ぶことにしましょう。誤差項は同じ170pの人でも異なる値をとるので、確率変数と考えられます。したがって、考えているモデルは次のような式で表現されます。ここで、Yは被説明変数、Xは説明変数、uは誤差項です。とりあえず、YはXの一次式だとしましょう。
 Y = a + bX + u
もし、X以外にZという説明変数があるならば、+cZ を式に加えます。ここで、a、b、あるいは c をパラメータ(母数)といい、その真の値がわからないで、それを推定したいのです。

 もうひとつ、誤差項の様子もわかりません。そこで、誤差項について考えてみましょう。たとえば、身長170pの人の体重はどのように分布しているでしょうか。実際には、170pの人をすべて測らなければ、体重の真の分布はわかりません。しかし、なんらか真の分布があることは確かです。
 分布を表現するにはどうしたらよいでしょうか。グラフを描いてみるとか、平均や分散を計算してみるとか、いくつか方法があります。その中で、分布の概略でもよいから単純に把握できる方法は? そうです、平均と分散を把握することです。なぜか? 世の中には、山が真ん中にきて、左右対称で、釣り鐘型をしている正規分布というものに近い分布が多いからです。その正規分布は、横軸の位置の代表値をあらわす平均と、分布の広がりを表現する分散の2つがわかれば、分布の形がきちんと定まるのです。
 さらにもうひとつ、世の中には、なぜ正規分布に近い分布が多いのでしょうか? それは中心極限定理が成り立つからです。数多くの細かい要因を積み重ねた結果出てくる現象の値は、正規分布に従ってばらついているのです。もう少し正確に言えば、互いに独立な確率変数の和の分布は、和の数が多くなると正規分布に近づくと証明できます。そのさい、もう少し細かい条件を満たさなければなりませんが。
 したがって、誤差項を把握するためには、平均と分散を知ればよいのです。ついでに、誤差項は正規分布をしていると考えてもよいでしょう。

 さて、誤差項が満たすべき要件を考えてみましょう。もし170pの人の体重の分布を調べたら、その平均が仮に60sであったとします。その場合、身長から説明できる a+bX の部分の値が60としてよいでしょう。身長以外のすべての細かい要因からなる誤差項の大きさは、60sからどれだけズレているかを現しています。したがって、X=170 のときのYの平均、すなわち、期待値は E(Y|X=170)=a+b・170=60 となります。一般的には、E(Y|X=x)=a+bx ということです。ここで、y=E(Y|X=x)を回帰曲線といいます。いまのケースでは、y=a+bx ということになります。この場合には直線ですので、回帰直線と言います。

   ということで、誤差項の分布の平均は0としてよいですね。ただし、誤差項の分布といっても、身長が160pの人の場合と、身長が180pの人の場合とでは、体重のばらつき具合は違うと考えた方がよいでしょう。すなわち、u|X=160 の分布と、u|X=180 の分布は異なるということです。誤差項の分布の平均は0であり、正規分布をしているとするならば、分散が異なっているということです。回帰直線 y=a+bX だけでなく、誤差項についても把握しないと、きちんと説明できたことになりません。したがって、各身長に対応する誤差項の分散を推定する必要があります。しかし、そうすると、身長151、152、153,・・・ と、すべての身長に対する分散を推定しなければなりません。これは膨大な数になります。これでは、よほど標本数がなければ無理です。  そこで、現実からは乖離するかもしれませんが、誤差項の分布はどの身長の場合でも同じだと仮定しましょう。そうすれば、分散はすべての身長に共通になるので、ひとつ推定すればよいわけです。もちろん、現実からはズレたものになってしまうかもしれません。そのときは、モデルを修正することによって対応すればよいのです。

すなわち、誤差項に対する仮定は
 * 1番目は、平均が0。すなわち、E(u|X)=0
 * 2番目は、分散が共通。V(u|X)=σ2
 * 3番目をとばして4番目の仮定は、誤差項の分布は正規分布。u|X〜正規分布。
 もうひとつ、3番目の仮定は少しわかりにくいですが、Xが異なる場合の誤差項の分布は互いに独立である、ということです。ということで、
 * 3番目の仮定は、u|X=xi と u|X=xj は独立。
 ここで、いちいちXの条件付き分布だということで、|X と書くことは面倒くさいので、それは省いて書いてしまいましょう。もしn組のサンプルがあるならば、i番目のサンプルは(yi, xi)と表現しましょう。観測されない誤差項はui と書けます。
 誤差項の仮定
 @ E(ui)=0
 A V(ui)=σ2 (未知だけれど共通な値)
 B ui と uj は独立
 C 各誤差項は正規分布

 まとめると、モデル Y=a+bX+u で、uは確率変数で@〜Cの仮定を満たす。Xは確率変数ではないので、非確率変数という。Yはuが確率変数なので、確率変数になる。確率変数Yの分布の形を決めるのは、a、b、σ2 である。分布の形を決めるものをパラメータ(母数)という。したがって、ここのケースではパラメータは3つ。パラメータの真の値がわからないので、それを n組の観測値(サンプル)から推定する。この場合のサンプルは、(Y1,X1),・・・,(Yn,Xn)。

 ここまでの話には、なんとかついてこられたようです。まだゼミ生の顔に余裕がありますね。よかった、よかった! ぼくも話していて、ハリアイがあります。

(写真:初日午後の授業風景    


 はい、はい、夕食です。脳を使えば、腹も減る。バイトの疲れとはひと味違う。食もすすむということ!

(写真:初日夕食風景      


初日夜の授業

 さて、夜の授業を始めましょう。8時から9時半まで。モデルはわかったので、こんどはパラメータをどうやって推定するかの話です。いろいろな考え方がありますが、とりあえず直感的に方法を考えましょう。n組のサンプルが入手できるのですが、そのi番目のサンプルは
 Yi = a + bXi + ui
です。ここで、a、b、ui はわかっていません。もし a の推定値として を、b の推定値として を代入するならば、誤差項の推定値(残差i として
 i =Yi − ( + i
が得られます。
 モデルが正しいならば、説明変数で説明できる割合は最大限大きく、それ以外の誤差項の部分で説明できる割合は最大限小さい方がもっともらしいと考えられます。というわけで、誤差項自身は観測されていないので、その推定値としての残差 i が小さくなるようにパラメータの推定値を求めましょう。といっても、残差は 1 から n まで、n個あります。したがって、n個の全体を小さくすることを考えます。残差にはプラス、マイナスがあるので、単純に足してしまうと、相殺されてゼロに近くなります。そこで残差をすべてプラスにして足すのですが、そのさい2乗してプラスにします。すなわち、
 12 +・・・+ n2

を最小にする を求めます。これから求めた a、b の推定量 最小2乗推定量といいます。すなわち、残差の2乗を最小にするようにして求めた推定量という意味です。
 推定「量」というから、量だと思えば、これは推定のためのサンプルからなる関数という意味です。このケースでは
 
=SXY/SXX  

ただし、はサンプルn個からなるYの平均、はXの平均です。普通、平均はXとかYの上にバーをつけて表します。ついでに言えば、推定量は上にハット(^)をつけて表現します。
 SXY はXYの共変動で、(Xi)(Yi)を意味します。SXX はXの変動で、(Xi)2 です。変動を(n−1)で割れば標本の分散を、共変動のときは共分散を表します。したがって、Xの変動は、Xのばらつきを表すと考えてよいでしょう。

(写真:初日夜の授業風景      


 ここまでくると、もうほとんど誰も聞いていない! 写真3の左端、ケイちゃん、あくびして。写真4、サッちゃん、「FRISK」って、プリントに根をつめて描くくらいなら、少しはぼくの話でも聞いたら!

 こんどは、a、bというパラメータの推定方法はいろいろ考えられるのに、その中で最小2乗法をなぜ選ぶの? という話。例として、bの推定量をとりあげましょう。はn組のX、Yからなる関数です。Xは非確率変数ですが、Yは確率変数です。したがって、も確率変数になります。
 ここで断っておきますが、X、Yの観測値を得たあとでを計算すれば、はひとつの確定した値になります。しかし、いまは観測値を得る前に、推定する仕組みを作っておきたいのです。したがって、X、Yの値はわかっていません。というわけで、の値も定まってはいません。
 Xの値を与えれば、Yの分布が決まってきます。ただし、パラメータa、b、σ2 は未知なので、自分にはわかっていませんが、なんらか決まることは確かです。はX、Yの関数なので、その分布は3つのパラメータと、n個のXの値がわかれば決まってくる確率変数ということになります。

 さて、の分布ですが。の関数を変形すれば、Y1,・・・,Yn の一次結合で表せることがわかります。一次結合ということがわからないんでしょう!
 
(なんとか)Y1+・・・+(なんとか)Yn

と表せるということです。ただし、(なんとか)の部分には Yi を含んではいけません。このケースでは、(なんとか)の部分はn個のXで表されます。がこう表現できることを「線形性」と呼んでいます。
 Yi は確率変数で、a+bXi の部分は非確率的、ui の部分は正規分布をする確率変数です。したがって、Yi も正規分布をします。さらに、u1,・・・,un は独立だから、Y1,・・・,Yn も独立。独立な正規分布の和の分布は、正規分布。よって、は正規分布をする、ということです。
 が正規分布だったら、平均と分散がわかればいい。の平均、期待値 E()は? どうってことなく計算できるのだが、みんなにはムリ。結果は、
 
E()= b

推定したい真の値に一致するってこと! 推定量のこういう性質を「不偏性」といいます。これは、いい性質だよね。さらに分散は
 
V()=σ2/(なんとか)

ここでも、(なんとか)はXの関数からなるものです。説明変数1つのいま話しているケースでは、SXX です。この場合でも、aの推定量の(なんとか)の部分は、とは別のものになります。
 結論として、の分布は正規分布で、平均がパラメータbに一致し、分散はσ2/(なんとか) になる。記号で書くと
 
 〜 N(b,σ2/(なんとか))

 さて、不偏性を満たす推定量のうち分散が最小であれば、真の値に近い値を多くとることになるよね。だから、それが良い推定量。最良推定量ってわけだ。ガウス=マルコフの定理というのがある。この場合には、不偏性のほかに線形性も加えて、少し限定された範囲で推定量を考えないといけないのだけれど。もっとも、普通に考えて、おかしくないと思われる推定量はみなこの範囲に入っている。最小2乗推定量は、線形性、不偏性を満たす推定量の中で分散が最小である、ということを証明できる。それが、この定理。
 ということで、結論として、パラメータa、bの推定量として最良のものは、最小2乗推定量ということが言える。ただし、注意事項は、誤差項に関する仮定を@〜Cまで挙げたが、そのうちCはともかく、Bまで満たすことが条件。とくにA、Bを満たさないと、最小2乗推定量は決して良い推定量ではない。真の値から、かなりはずれた推定値が出てきてしまうことがある。その意味で、残差の2乗和より、残差の絶対値の和を最小にする方が優れていることもある。

 最小2乗法を用いるときに気をつけることは、誤差項の仮定を満たしているかを必ずチェックすること! それを残差分析という。

 残差分析が重要だということを納得してもらうために、Anscombe の例題を挙げよう。Anscombe はこの例題を考えた統計学者の名前だよ。X、Yの値が@〜Cまで4組あり、それぞれ11個のサンプルからできている。そのデータとグラフを示そう。



 最小2乗法により求めた回帰直線はすべて同じで、y=3+0.5x になる。図には回帰直線を描いておいた。また、XでもってYをどの程度説明できているかという指標である決定係数もすべて同じで、ここでは2/3になる。すなわち、0.666 だ。その平方根が相関係数で、0.82 になる。決定係数については、あとで話そうね。ちなみに、残差のグラフは次のようになっている。



 この例題をみて気づくことは、最小2乗法の結果は同じなのに、データはまったく違うということだ。計算結果だけを見ていると、どのケースを議論しているのか分からないよね。だから、そこから得られた結論は、まったく的はずれということも起こりうるわけだ。ここで注意することは、誤差項の仮定を満たしているかどうかをチェックすること、だよね。
 ケースAは、残差が放物線のようになっているでしょう。だから、第3の仮定である、誤差項は互いに独立であるというのに反する。だから、これに最小2乗法を用いるのはよくないね。ケースBは、同じく独立という仮定に反する。ケースCは第2の仮定である、誤差項の分散が共通であるという仮定に反する。ということで、ケース@には最小2乗法を適用してもよいが、あとの3つは適用してはダメだね。もし適用したいなら、誤差項の仮定を満たすように修正してからでないとね。今回の合宿では、ここまでは話さないけれど。

 初日の授業はここまで。みんな、勉強したね。頭に入ったかどうか、知らないけど。

(写真:初日夜の授業が終わって    


2日目午前の授業

 回帰式を求めるとき、最初にすることは誤差項の条件についてチェックすることですが、それについてはいろいろな方法があります。ここでは、とりあえず残差分析ということで、グラフを描いて直観的に判断して下さい。縦軸に残差、横軸に説明変数の値をプロットしたものです。数字で判断するものとしてポピュラーなのは、「ダービン・ワトソン比」です。これはBの仮定である、誤差項が互いに独立かどうか、をチェックするものです。そのうち特に系列相関といわれるものについて判断します。この話は後にしましょう。

 回帰式が計算できたとして次にすることは、うまく推定できたかどうかをチェックすることです。最初に、決定係数について話しましょう。これは、全体として説明がどの程度できたかを判断する尺度です。
 Y=a+bX+u であっても、 Y=a+bX+cZ+u というモデルであってもかまいません。説明変数X、あるいはX、Zで、被説明変数Yがどの程度説明できたかを示す尺度を作りたいのです。このとき、Yがいつも同じ値しかとらないならば、その値をあてれば、それ以上説明は必要ないでしょう。しかし、Yはそのつど異なる値をとるのが普通です。とすれば、Yの値は適当にばらついています。そのばらつき具合をどの程度説明できたかという観点から尺度を作ります。ばらつき具合を表す尺度は、分散で表します。分散の場合はサンプル数でわって求めますが、サンプル数でわる前を変動といいます。すなわち、Yの変動 SYY
  (Y1)2+・・・+(Yn)2
と表されます。この変動が、説明変数で説明できた部分と、できなかった部分に、うまく2つの部分に分解できるのです。説明できた部分を回帰変動、説明できなかった部分を残差変動といい、全体を総変動といいます。したがって、
  総変動 = 回帰変動 + 残差変動
となります。説明できた割合とは、回帰変動/総変動 のことになります。これを決定係数と呼んでいます。

 総変動を2つに分解できるということについて説明しましょう。もう一度、モデルを確認しておきましょう。簡単のために、説明変数はXだけとします。サンプルはn個あるとし、そのi番目の式を書くと、
  Yi = a + bXi + ui
です。ここで、最小2乗法を用いて、パラメータa、bを推定するのですが、その結果はすでに示しました。この場面で必要なのは、の部分です。それを書き直すと
   =  + 
になります。前の式からこの式を引くと、aと、bとが違いますが、これから最小2乗法の幾何学的な説明をするので、それぞれ同じだと思って下さい。引いた後のi番目の式は
  Yi = b(Xi) + ui
です。この式をn個ならべて、ベクトルで表現すると



になります。それぞれのベクトルを太文字で表しましょう。もう一度書き直すと
    = b + 
です。これを幾何学的に図で表現してみましょう。


 左図がベクトル式を幾何学的に表現したものです。分からない人は、2次元のグラフを描いて確認してみて下さい。それでも分からない人は訊きに来て下さい。Yの変動SYYは、ベクトルの長さの2乗になります。これも、分からない人は2次元のグラフで直角三角形を描き、ピタゴラスの定理から斜辺の長さを計算してみて下さい。
 同様に、回帰変動はbベクトルの長さの2乗、残差変動はベクトルの長さの2乗になります。最小2乗法とは、残差の2乗和(残差変動)が最小になるようにパラメータを推定することです。右図を見てください。残差変動を最小にするには、ベクトルからベクトルに垂線を引けばよいのです。その結果、直角三角形ができました。ピタゴラスの定理から、斜辺の2乗(総変動)が対辺の2乗(回帰変動と残差変動)の和になります。

 実際の例で、決定係数について考えてみよう。体重を身長で説明するという例です。ぼくの手元に男子1369人のデータがあります。身長を横軸、体重を縦軸にしてプロットしたのが左図です。回帰直線も描いてあります。右図は残差のグラフです。決定係数は0.245でした。体重の変動は、1/4しか身長で説明されません。さて、問題です。体重は身長で説明されたといってよいでしょうか?



 1/4しか説明できなければ、「説明されていない」といった方がよいでしょうかね。次の左図は、同じ1369人のデータを用いて身長を1p刻みに区分し、それぞれの階級に該当する人の体重の平均をプロットしたものです。同様に、右図は3p刻みでプロットしました。それぞれの決定係数を計算すると、左図は0.890、右図は0.961です。この場合は、「説明されている」ですか。何かおかしいですね。1p、3p刻みと集計した方の決定係数は大きく、集計しない方の決定係数は小さい。集計しない方が、個々のことも分かって情報が多いはずなのに。



 結論を言えば、集計しない方の決定係数0.245で十分説明されているということです。集計した場合には、それぞれの階級の平均体重をとるので、平均からズレる個々の要因が打ち消しあってしまいます。集計する前は、個々の要因による変動の割合が大きいのですが、集計するとそれらの要因が相殺されて、その変動の割合が小さくなるのです。決定係数をみて気をつけることは、単に決定係数が大きいからよく説明されているというわけではない、サンプル数も考慮して決定係数をみる必要がある、ということです。

 個々のデータをいちいち集計しなければ、決定係数の説明力が分からないの? この場合、F値というものをみればよいのです。決定係数をもう一度述べると
  決定係数 = 回帰変動/総変動
です。説明力があるかどうかは、決定係数として大きな値が出たかどうかを知ればよいのです。大きな値とは、例えば決定係数の分布のうち、大きい方から5%までの値とか、です。そのためには、決定係数の分布が分かればよいのですが、残念ながら、うまくいきません。というのは、総変動の中に回帰変動が含まれているので、両者が独立ではなく、関係しているからです。独立でない場合には、その関係の仕方によって、分布がすべて違ってきてしまいます。ということで、決定係数の分布を求めることは困難なのです。
 したがって、分母、分子が独立なもので考えればいいですね。そうです、これです!
  回帰変動/残差変動
です。これはピタゴラスの定理の話のところでもしたように、直交していますね。だから、関係ありません。独立です。あとは、この比を、なんとか分かっている分布に帰着させればいいのです。そして、大きな値が出たら説明されている、小さな値なら説明されていない、とします。ということで、次は分布の話。

 回帰分析で、このような検定に用いる分布としては、F分布、t分布があります。これらの分布は、標準正規分布、χ2分布(カイ2乗分布)から導かれます。
 まず、標準正規分布。なに? 授業やめて外に遊びに行きたい! 結局は、午後は海岸に出かけました。授業の内容もとりあえず中断。はいはい、海岸での皆の様子。

(写真:午後海岸で            集合写真


2日目夜の授業

 はい、始めましょう。午後遊んで、食事をして風呂に入って、さっぱりしましたね。

(写真:夕食後の授業開始前リフレッシュした写真


まず、標準正規分布。これはたぶん皆知っているね。左右対称の釣り鐘型の分布で、平均は0、分散が1、従って、その平方根である標準偏差も1の分布だね。



 分布がよく分からない学生諸君! ここで復習しておくから、よく頭にたたき込んでおくのだね。分布を把握するときには、まず、横軸の位置の代表値をみる。多くの分布は正規分布のように山が真ん中にきて、左右対称に近い。だから、横軸の位置の代表値は、分布の真ん中くらいにきている。位置の代表値としては、最頻値、中央値、平均値と3つのアイデアがあるが、普通は平均値(μ:ミュー)を使う。正規分布では3つとも同じになるが。ここでは平均値は0。次に、分布の広がりを把握する。広がりの代表値という。いくつか考え方があるが、よく使われるのは分散(σ2)だ。それは各値と平均との差の2乗(Xi−μ)2、それらの値を平均したものだ。ここでは分散は1。分散の平方根を標準偏差という。分布の広がりをどう把握するかというと、平均から標準偏差ごとに区切っていくのだ。標準正規分布の場合には、標準偏差が1だから、平均0から1、2、3と区切っていく。また負の方向に、−1、−2、−3と区切っていく。もし正規分布なら、−1から1までの間に全体の2/3の値が生じる。−2から2までの間に95%の値が、−3から3までの間にほぼ100%の値が生じることになる。上に描いたグラフをみながら、−1から1までの面積が2/3とか、−2から2までの面積が0.95とか、対応させてください。たいていの分布は、これに準じて考えればよい。

 こんどはカイ2乗分布だ。これはXが標準正規分布をするとして、X2の分布はどうなるかを考える。Xは−∞から∞までの値をとるが、主として−3から3までの値。その2乗だから、マイナスはとらない。主として0から9までの値か。とくに0から4までの値で95%はとることになる。左図がそのグラフ。これは平均1、分散2になる。



 つぎにX1、X2がそれぞれ標準正規分布に従い、互いに独立な場合を考える。その2乗和 X12+X22 の分布を考える。その平均は2、分散は4になる。このようなことをf個の独立な標準正規分布で考える。すなわち、X12+・・・+Xf2の分布である。それを自由度fのカイ2乗分布という。平均はf、分散は2fになる。ちなみに、右図は自由度5のカイ2乗分布である。

 ここで、回帰変動/残差変動 の分布がどうなるかという話につなげるために、次のことを言っておこう。正規母集団があるとする。例えば、20歳の男子が100万人いる。それが対象となる母集団。そのなかで、身長という属性について調べ、その分布を描く。それが母集団分布。もし、それが正規分布をしているならば、正規母集団という。平均をμ、分散をσ2とする。これをN(μ,σ2)と書こう。Nは正規分布(Normal Distribution)の頭文字。
 この母集団からサンプルをn個とる。1番目のサンプルをX1とする。これを実際に観測すれば、具体的な値になる。例えば、170pとか。ところが、いまは観測する前にやり方を考えておきたい。だから観測していない。従って、X1の値はわからない。しかし、母集団から抜いてくることは確かなのだから、X1はN(μ,σ2)に従っている。身長を例にとるならば、平均は172pくらい、標準偏差は6pくらいだから、3標準偏差離れたところで考えると、154p〜190pのどれかの値がでる。そのうち172p付近の値がもっとも出やすい、ということ。2番目の標本も同じだ。以下、n番目の標本まで同じである。
 X1はN(μ,σ2)に従っているから、X1から平均μを引き、標準偏差σで割った値は標準正規分布に従う。以下、n個の標本まで同じ。よって、



これらはすべて独立だから、その2乗和

は自由度nのカイ2乗分布になる。この分布の平均はn、分散は2nである。
 標本分散は

である。その分布を知りたい。次の式が成り立つ。

この式を導くのは簡単である。右辺の2つの項は独立であることも言える。ここで、回帰分析との対応で言えば、左辺が総変動、右辺第1項が回帰変動、第2項が残差変動に相当する。μが推定されるもので、が推定された値。回帰式の場合には、a+bXが推定されるもので、Xが推定された値となる。その関係を頭に入れて式をみれば、理解してもらえるだろうか。
 それぞれを母分散でわると

左辺は自由度nのカイ2乗分布になる。右辺第1項は自由度1のカイ2乗分布である。というのは、標本平均の分布は

従って、

この2乗が右辺第1項である。右辺第1項と第2項は独立で、和の分布が自由度nのカイ2乗分布になるから、右辺第2項の分布は自由度(n−1)のカイ2乗分布になる。
 標本分散はnではなく、(n−1)で割るのはなぜか? 右辺第2項が自由度(n−1)のカイ2乗分布になり、その平均が(n−1)になるからである。すなわち

右式のカッコの中は標本分散であるが、その期待値(平均値)が推定したいσ2になっている。期待値があてたいパラメータに一致している性質を不偏性という。不偏性を満たしている中でいちばん分散が小さいのが、よい推定量。標本分散はそうなっている。だから、n−1で割っている。

 さて、回帰式の話に戻ろう。回帰変動/残差変動 の分布を知りたかった。分子、分母はどのような分布になるか?
 
総変動 = 回帰変動 + 残差変動

であった。誤差項の仮定のAは、どのサンプルについても誤差項の分散は共通である、ということ。誤差項の分散をσ2とする。これでもって上式の両辺をわる。

 左辺の 総変動/σ2 は Σ(Y−)2/σ2 であるから、いま話したように、自由度(n−1)のカイ2乗分布。ここのところで、a+bX のaの部分を推定していることになるので、右辺第1項はbのみを推定している。(ここは分かりにくいか? ベクトルで説明した話のところで、2つの式を引いてaを消去したのがあるでしょう。そこを考えれば、分かるのだが) したがって、回帰変動/σ2 は自由度1のカイ2乗分布。もし説明変数が2つあれば、自由度2。k個あれば、自由度kのカイ2乗分布になる。残りの 残差変動/σ2 は自由度を引けばよい。いまの場合は、自由度(n−2)のカイ2乗分布。もし説明変数がk個あれば、残差の部分は自由度(n−k−1)のカイ2乗分布になる。
 回帰変動/残差変動 の分布は、(自由度kのカイ2乗分布)/(自由度n−k−1のカイ2乗分布)の分布になる。これは Fisher という統計学者が考えた分布だから、F分布と呼ばれている。

 F分布は2つの独立なカイ2乗分布の比として定義する。もし独立でないと、2変数の関係の仕方によって、分布がすべて異なってくる。すべての関係を尽くすことはできないし、膨大なものになってくるので無理。そこで2変数が関係していない、独立だという条件が必要なのだ。
 いま、P〜(自由度fのカイ2乗分布)、Q〜(自由度gのカイ2乗分布)とし、互いに独立とする。P/Qの分布を考えると、Pの期待値(平均値)はf、Qの期待値はgであるので、比の期待値は f/g になると想像される。f、gはそれぞれいろいろな値が考えられるので、比の期待値がそのつど変わるのも、表を作成する上でうまくない。期待値を1に基準化しておきたい。そのためには自由度でわって、P/f や Q/g を扱った方がよい。P/f の場合には、平均が1で、分散が 2/f になる。下図は自由度5と30のカイ2乗分布について、自由度でわった分布を示している。自由度が大きくなれば中心極限定理が働くので、正規分布に近づいてくることが分かるでしょう。また、分散が小さくなってくるので、1の付近の値を多くとるようになる。自由度が非常に大きい場合には、1だけの値をとるようになる。



 F分布の定義は、(P/f)/(Q/g) でする。この場合、自由度(f、g)のF分布という。こう定義すると、F分布のは1付近の値を多くとることになり、扱いやすい。下図は自由度(1,14)、(5,5)のF分布です。(1,14)のF分布は、自由度1のカイ2乗分布に近いでしょう。分母が(自由度14のカイ2乗分布/14)なので、その分散が 2/14 となり、1付近の値が多くなる。したがって、分母を1だとみなしてしまうと、(1,14)のF分布は自由度1のカイ2乗分布になってしまうからです。



 さて、もう忘れてしまったかもしれないが、体重を身長で説明する例に戻りましょう。1369人のサンプルから計算すると、決定係数が 0.245 でした。これでも十分説明できていると言いたいわけですが、F値を計算してみます。
  (回帰変動/1)/(残差変動/(1369-2))=444.4
です。自由度(1,1367)のF分布で、444.4 以上の値の出る確率は? EXCELで計算するには、=fdist(444.4,1,1367) とすればよい。その結果は 1.21084E-85 です。これは1.21084 かける 10の85乗という数字です。気の遠くなるほど小さな値です。したがって、F値は非常に大きな値ということになり、身長で体重を十分説明できているということになります。グラフでみるには、自由度1のカイ2乗分布とみなしてよいでしょう。図では横軸は4までしか示していませんが、444.4以上の面積はほとんど0ということが分かるでしょう。

 もうれつに疲れたかい? ぼくも書くのに疲れた。聞く方はボーとしているからいいが、書くのは大変だ! とりあえず、今日の講義はここまで。あとは飲み会。

(写真:夜飲み会        
 ビンゴも終わって          10


3日目朝の授業

 きょうは最終日。それぞれの部屋を片づけて、手荷物をもって演習室に集合。昨夜は遅くまで起きていたから、だれも講義を聴いてはいない。それでも話すだけは話してしまう。教員という仕事もむなしいね。

 きょうの話はt値について。生産関数の推定を例にとって話そう。説明変数が2つ以上あった方が分かりやすいから。
 資本(K)と労働(L)を用いて生産する。産出量をYとする。コブ=ダグラス型の生産関数を想定すると、

  Y=AKbc 

と表現できる。ふつうは b+c=1 という制約を設けるのだが、ここでは制約を設けないで推定してみよう。両辺の対数をとり、誤差項を加える。

  log(Y)=a+blog(K)+clog(L)+u

 データは下の左表に示したが、1981年から1995年までの15年間のものを指数化している。推定結果は右に記載した。



 全体のあてはまりを示す決定係数は0.933、F値は83.1なので、2つの変数でよく説明されている。ただし、ほかの前提条件をチェックしていないので、この推定結果がよいか悪いかは、まだ判断できない。
 全体での説明力は分かったが、資本、労働という個々の変数が説明として寄与しているかどうかは分からない。たとえば、労働が説明に大いに寄与しているので、資本が寄与していなくても、全体で説明できているようにみえるのかもしれない。というわけで、個々の変数の説明力があるのかどうかをチェックしたい。それがt値ということになる。
 資本Kが説明として寄与しているかどうかをみよう。もし寄与していないとすると、Kがどのような値をとろうとも、Yには影響しない。ということは、Kの係数であるbが0だということになる。仮説として、b=0 を考える。ほんとうは、Kは説明力があると考えているので、データからこの仮説を否定したい。そういう意味で、帰無仮説(H0)という。主張したい仮説は、b≠0 である。これを対立仮説(H1)という。
  H0: b=0
  H1: b≠0

 どちらの仮説を採用したらよいかをデータから判断する。それを仮説検定という。ここでのデータは、n組の(Y,K,L)の値である。仮説を判断するために、データの関数φ(ファイ)を考えよう。これを検定量という。

  φ=φ(Y1,K1,L1,・・・,Yn,Kn,Ln

 検定量がどの値をとった場合、H0だと判断し、どの値の場合にはH1だと判断するかという領域を定めなければならない。それを棄却域という。
 このケースでの検定量は、bの推定量であるを工夫して作るのが自然であろう。はすでに述べたように
 
 〜 N(b,σ2/(なんとか))

となる。これを変形して

もしH0が正しければ、b=0 であるから

 下図は標準正規分布であるが、赤色の部分の値がでたら、かなり出にくい値が出たことになる。ここでは、赤色の部分2つあわせて5%になるようにしてある。出にくいという基準を何%にするかは、事例によってそのつど判断することになるが、ふつうは5%をとることが多い。この値を有意水準といっている。


 ところで、と(なんとか)の部分はデータから計算できるが、σは分からない。σの代わりにデータから求めた標準誤差(s)を用いることになる。標準誤差は標本分散(s2)の平方根である。標本分散は、残差変動(あるいは残差平方和、SSR:Sum of Squared Residual)を自由度(n−k−1)で割ったものである。
  s2=SSR/(n−k−1)
 σの代わりにsで置き換えたものは、標準正規分布には従わなくなる。それは自由度(n−k−1)のt分布になる。というのは

一番右の式の分子は、標準正規分布をする。分母は自由度(n−k−1)のカイ2乗分布をその自由度で割ったものの平方根である。自由度fのt分布は、Pを標準正規分布、Qを自由度fのカイ2乗分布で互いに独立としたとき

で定義される。したがって、σの代わりにsで置き換えたものは自由度(n−k−1)のt分布になり、これが検定量というわけだ。
 ここのケースでは、検定量は自由度13のt分布になり、下の左図で示したものになる。ちなみにt分布と標準正規分布との関係は右図に示してある。t分布の方が正規分布よりも両端の裾野が広いというわけだ。それだけ平均よりはずれた値が出やすくなる。自由度が大きくなれば、Q/fの値がほどんと1になるので、標準正規分布に近づくことになる。



 棄却域はt分布表から求めればよい。有意水準を5%とすれば 2.16 という数字が得られる。エクセルで求めるとすれば、=tinv(0.05,13) で計算できる。したがって、棄却域は検定量の値が -2.16 以下か、2.16 以上の値である。係数bのt値を上記の結果からみると、11.2468 なので、棄却域に入っている。よって、帰無仮説であるb=0を否定することになる。ということはb≠0なので、資本Kは説明力があると判断する。

 ウッウッ・・・ 疲れた! 読むのも疲れたろうが、書く方はもっと辛い。ここで写真の番外編。

(写真:合宿終了後、横須賀の戦艦三笠で)


 さて、この合宿最後の講義。系列相関の話だ。これは誤差項の仮定B、互いに独立かどうか、をチェックするために行う。誤差項が互いに影響しあっているというのは、データが順番に並んでいるから考えられる。その典型的なケースは時系列データだ。時間の順序でデータをとっていく。それに対して、ある一時点で都道府県データを集めてきたとしよう。本来、都道府県はどう並べてもよいはずだ。そのようなのをクロスセクション・データという。ここでは時系列データを考えているので、添え字はいままでのiではなく、時間を表すtにしよう。
 データから誤差項が互いに独立でないということを棄却すればよいのだが、独立でないというケースはいろいろ考えられる。そこで独立でないケースで、一番簡単なものを想定しよう。当期の誤差項が1期前の誤差項から影響を受けるケースである。もちろん、当期の誤差項は1期前の誤差項のさらに1期前から間接的に影響は受けることになる。しかし、本質的には1期前だけからだ。

  ut = ρut-1 + vt

とする。ここで、vtは1期前の誤差項で説明つかなかった部分である。独立でないケースのうち、とくに1期前の1次式で表されるケースを系列相関という。
 もし系列相関がなければ、ρ=0である。このときは、独立でない他のいろいろなケースを調べてはいないが、誤差項は互いに独立と考えよう。ρ≠0であれば、誤差項は互いに独立ではない。

 直接 ρ=0 かどうかを検定することは、歴史的な経緯から、していない。これを研究したダービンとワトソンは、次の検定量を考えた。

 utの回帰式で、ρの最小2乗推定量は

になる。これは、いいかい? =SXY/SXX となるのを話したでしょう。それを当てはめれば、できる。しかし、u自身は観測されないので、その推定量である残差を代入する。それが

だから、これはρの推定量の推定量という感じだね。でも面倒だから、ρハットとしておいた。
 ダービン・ワトソン比(DW比)の値は、系列相関がないρ=0のときは、2の値をとることになる。ρ>0(正の系列相関)のときは2よりも小さい。ρ<0(負の系列相関)のときは2よりも大きい。
 さて、棄却域なのだが、これが少しやっかいだ。とりあえず、帰無仮説は「系列相関がないこと」である。もちろん、対立仮説は「系列相関がある」になる。棄却域がやっかいなのは、DW比が残差からできていることによる。DW比の分布を考えるのだが、からできているということは、説明変数の関数になっているということ。ということは、説明変数のいろいろな値によって分布が異なってくる。したがって、棄却域も説明変数の値によって異なってくる。これでは数表を作る上でやっかいだね。だから、どんな説明変数の値がきても対応できる数表にしておきたい。たとえば5%の有意水準の場合、いろいろな説明変数に対応する棄却域のうち、もっとも2に近い棄却域の値(上限)と、もっとも2から遠い棄却域(下限)が考えられるでしょう。その間の値は、どの説明変数の棄却域に対応しているかわからないので判断できないよね。
 さて、結論。DW比で上限より2に近い値が出たときには、系列相関がないと判断する。下限より0に近い値が出たときには正の系列相関があると判断する。上限と下限の間の値のときは、判断不能とする。2よりも大きい場合は負の系列相関だが、正のケースと対称に判断すればよい。

 


 生産関数の例では、残差の時系列は上図のようである。DW比は0.848 である。DW比の数表を引く。n=15、k'=2 の交点をみる。dL=0.95、dU=1.54 である。よって、DW比の値は下限よりも小さいので、系列相関があると判断する。ちなみに、マクロの時系列データの場合には、ほとんどの場合、正の系列相関がある。

ダービン・ワトソン比の数表

 はい、これで合宿の授業は終了! ふ〜〜。