■ 2004年春合宿 (文責:鈴木武 2004年2月)

 2月3日から5日まで、富士セミナーハウスでゼミ合宿をしました。セミナーハウスは河口湖近くの鳴沢村にあります。近くには富士五湖のほか樹海も広がっており、快適な環境です。しかし、あいにくというか幸いなことに、用意できた車は2台。全員が移動するには2往復必要なので、勉強するしか手がありません。卒業間近の4年生が3人、あとは3年生と4月からゼミに入る2年生、あわせて23名が参加しました。今回も昨年の合宿と同様、計量経済学を講義することにしました。

(集合写真:河口湖畔で


配付資料

資料1  :回帰計算の例題
資料2  :ANSCOMBE の例題
資料3  :体重を身長で回帰
資料4  :独立を説明するための例
資料5  :誤差項の前提
資料6  :最小2乗推定量
資料7  :回帰分析推定値の説明
資料8  :生産関数の推定
資料9  :偏回帰係数の意味
資料10 :偏回帰係数について
資料11 :多重共線性
資料12 :生鮮魚介消費量の説明--多重共線性と自由度修正決定係
資料13 :身長を1cm、3cm刻みにとり、各階級の平均体重を身長で回帰して説明
資料14 :よく使う分布
資料15 :自由度修正決定係数
資料16 :コンビニ店舗数推計問題


授業内容

(1)
 資料1を用いて、最小2乗法による回帰計算を、手計算してみる。考えているモデルは
    y = α + βx + u 
データは変数X、Yについて11組の観測値が与えられている。したがって、添え字iは1から11までの観測値のうち、i番目のものを表している。ただし、誤差項uは観測されていないことに注意しよう。もちろん、係数α、βもわかっていない。そこで、この11組のデータを用いて、α、βの値を推定することになる。そのときの方法として最小2乗法という考え方を用いる。
 推定されたα、βは、本当の値(真の値)とは違うかもしれない。うまく当っていないかもしれないというわけだ。したがって、真の値と推定された値とは区別しておかないと混乱する。推定された値にはハットをつけることが約束である。ここでは、それが面倒なので、α、βの推定された値をa、bという記号で表そう。
 a、bをデータから計算する式が資料1には書いてあるが、その式のことを推定量といい、実際に計算された値を推定値と呼んでいる。計算式が分からない人はいないだろうね! x、yの上のバーの記号は平均を表す。xバーは、xの11個の値の平均である。Σの記号は足し算を表している。iは1から11までを表すので、11組の値を代入して、それを足せばよい。一度は計算してみた方がよい。a=3、b=0.5 になる。

(2)
 資料2は、アンスコムという人が作った例題。4ケースとも計算結果が同じになる。すなわち、a=3、b=0.5。さらに当てはまりを示す決定係数も 0.666 と同じになる。しかし、グラフをみるとまったく違う。とくに右にある残差のグラフをみてほしい。@は残差が不規則に並んでいるが、A〜Cは規則的である。
 残差というのは、誤差項uの推定量である。誤差項は観測されていないから、a、bが計算されると、x、yが観測されているから、uが計算される。ただし、それが真の誤差項の値かどうかは分からないから、残差という名前で区別している。
 誤差項がどういう性質をもっているか考えてみよう。YをXで説明しようとしているが、X以外の説明要因をすべてひっくるめて誤差項としている。具体的な例でないとわかりにくいか! 資料3をみてみよう。体重を身長で説明しようとしている。データは1590人。体重は身長以外の要因によっても影響されるが、各要因が体重に与える影響はごくわずかであると考えている。もし影響が大きい要因があるならば、それを説明変数に加えて、残りの細かい要因による影響をひっくるめて誤差項とすればよい。
 身長以外の要因をZ、・・・、Zとしよう。誤差項は
    u = c + ・・・ + c
と表される。各要因のとる値は人によって異なる。たとえば、Zをこの1年間で食べた肉の量としよう。Zは人によって異なる。すべての人について調べ、横軸に肉の量、縦軸に度数をとるならば、度数分布が描ける。したがって、Zはある分布をもつことになる。すなわち、確率変数である。ここで、Z、・・・、Zが互いに独立だとするならば、uは正規分布に近いものになる。これは中心極限定理から言える。すなわち、独立な確率変数の和の分布は正規分布に近づく。「独立」がわからない人は、資料4をやってみて、納得してください。
 ということで、誤差項は正規分布に従ってランダムに値が得られると想定してよい。ということは、期待されている残差のグラフは@であって、AからCのように規則的なものではない。

(3)
 資料5の「誤差項の前提」をみよう。係数α、βを推定するさいに、どのような条件もとで、どういう方法を用いて行えば一番よい結果が得られるかについて示してある。結論は、誤差項の前提@〜Dを満たすとき、最小2乗法で推定するとよいことが、ガウス=マルコフの定理から言える。前提@は一致性のために必要。これは資料6のプリント1を読んでください。また、ガウス=マルコフの定理の証明についてはプリント2に書いてあります。念のため、ガウス=マルコフの定理を証明するために必要な前提は@〜Cまで。Dは推定量の分布について議論するときに必要です。
 ちなみに誤差項の分布が正規分布だとしよう。正規分布は平均と分散の値がわかれば、きちんと描くことができます。分布を描くために必要な値を母数といいます。正規分布では、母数は平均と分散です。いま、前提Aで誤差項の平均を0としているので、分散がわかれば誤差項の分布が決まります。身長が160cm、170cm、180cmと異なれば、誤差項の分布も異なってくるのが普通でしょう。その意味では、分散はXが異なれば別の値をとります。それだと議論が複雑になるので、ここではすべてのXの値について、分散は共通であると仮定しているのです。ただし、共通な分散がいくらかはわかっていません。それが前提Bです。
 前提Cは少し分かりにくいでしょうが、独立という仮定がないと、同時分布が計算できないからです。基礎統計で習ったと思いますが、事象AとBの同時確率は、
    P(A,B)=P(A)P(B|A)
となります。もしAとBが独立ならば、P(B|A)=P(B)になるので、
    P(A,B)=P(A)P(B)
になります。したがって、AとBの確率が分かっていれば計算できます。もし独立でなければ、条件付き確率が分からないと計算できないので、やっかいです。

(4)
 アンスコムの例題では、最小2乗法で計算すると係数推定値が4ケースともすべて同じ値になります。しかし、残差のグラフはまったく異なります。誤差項の前提を満たすのはケース@だけで、ほかは前提を満たしていません。たとえばケースAは、残差が放物線を描いています。ということは、誤差項が互いに独立とは言えません。ケースCは残差の広がりが異なっています。したがって、分散が共通ではありません。
 最小2乗法を用いた推定量の特徴は、前提を満たしていれば最も良い推定方法なのですが、前提からはずれると、とんでもなく悪い値が得られることがある、ということです。前提が多少はずれているときには、その程度に応じて悪い推定値が得られるというのならば、許せます。しかし、多少はずれているときに、極端に悪い推定値になる可能性があるとなると、信用できません。「頑健性」というものがないのです。したがって、前提が守られていることを厳しくチェックする必要があります。そのために残差をみて判断することになります。それを残差分析とよんでいます。
 数値で判断する方法もあります。これは資料7に書いておきました。今回のゼミ合宿では、そこまでは話していません。また、もし前提条件を満たしていなかったらどうするか、についても話していません。要は、前提を満たすようにモデルを変形することです。

(初日の授業風景:          


(5)
 説明変数が複数ある場合にはどうなるでしょうか。資料8の生産関数の例で説明しましょう。被説明変数は生産量Yで、説明変数は資本Xと労働Zの投入量です。モデルは
    y = α + βx + γz + u 
です。生産関数の場合には対数をとっていますので、Yに相当するのがlog(Y)、Xはlog(K)、Zはlog(L) となっています。考え方は1変数の説明の場合と同じです。計算はコンピューターがしてくれるので気にしないでください。注意することは、係数推定値の意味です。資料9を参考にしてください。
 回帰係数は、正確に表現すると「偏回帰係数」と呼ばれています。偏(partial)とは、他の変数の値を一定にしたときに得られる値という意味です。偏微分という概念がありますが、他の変数を一定として、注目している変数についてだけ微分する方法です。他の変数は係数と同じようにみなします。
 資料9の例では、資本K(ここではlog(K))の係数の意味を述べています。他の変数、この場合には労働L(ここではlog(L))ですが、その影響を取り除いて回帰したときと同じであることが示されています。すなわち、KからLの影響を取り除く。それは、KをLに回帰して、その残差を求めます。残差がLの影響を取り除いたKの値ということになります。資料9では、RES(LK)という変数にしています。同様に、YからLの影響を取り除きます。変数RES(LY)です。RES(LY)をRES(LK)に回帰します。その推定値を初めと比べてください。同じ値になっています。
 練習問題として、資料10をやってみてください。また、資料6プリント1の右に、偏回帰係数の説明をしておきました。

(2日目の授業風景:


(6)
 次の話です。最小2方法を幾何学的に説明するとどうなるか、ということです。資料6プリント2の右、「平方和の分解」をみてください。サンプルがn組のとき、被説明変数Y、説明変数X、誤差項uはそれぞれn個の値になります。ただし、観測されているのはYとXの値だけです。それぞれn個の値からなるまとまりを1つのベクトルと考えましょう。ここでは太文字でとしています。
 最小2乗法とは、残差の2乗和が最小になるように係数推定値を決める方法です。残差2乗和とは、グラフでいえば、ベクトルの長さの二乗ということです。これが理解できない人は、2次元のグラフで、たとえば、原点と点A(3,4)とを結んだ長さが、成分3と4の2乗和になることをピタゴラスの定理から確かめてみてください。さらに3次元空間の場合で、原点と点B(3,4,2)を結んだ長さの二乗が 32+42+22 となっていることを確かめてみてください。
 「平方和の分解」で、はすでに観測されていますから、固定されています。は観測されていません。係数推定値は、このが最小になるように決めることです。というのは、得られたデータから説明が最大限有効になされていると想定しているからです。ということは、説明されない残差の部分ができるだけ小さくなるようにすることです。これが最小2乗法の考え方です。
 ついでに、説明変数が2つあるケースについてみましょう。資料11をみてください。ここでは、説明変数はXとZです。その観測値がなすn次元ベクトルに、被説明変数ベクトルから垂線をおろします。それが残差ベクトルになります。このケースでの問題点は、のなす角が狭いときに起こります。すなわち、説明変数どうしが似ているときです。は観測値なので、サンプルが違えば、違ったベクトルになります。角度が小さいと、からできる平面が大きく振れやすくなります。したがって、から下ろした垂線の足の位置も大きく振れます。すなわち、係数推定値が大きくばらつき、その分散が大きくなるということです。それだけ信頼性がなくなります。この現象を多重共線性といいます。多重共線性については、資料12の問題をしてみてください。ただし、あとから説明するt値の知識がないと理解できないでしょう。

(7)
 平方和の分解から、||=||+|| が成り立ちます。言葉でいうと、
   総変動 = 回帰変動 + 残差変動
変動は「平方和」とも言いますので、
   総平方和 = 回帰平方和 + 残差平方和
と言ってもよいです。平方和を自由度で割れば分散になります。分散は分布のバラツキを表す指標なので、
  (説明したいバラツキ)=(説明されたバラツキ)+(説明し残したバラツキ)
とも言えます。この式から、総変動がどの程度説明されたかの尺度を考えましょう。すなおに考えれば、
   決定係数=回帰変動/総変動
が、その尺度になるでしょう。説明変数が複数あっても、この尺度でよいでしょう。資料11の左図をみながら、確かめてください。その意味で、説明変数全体でどの程度説明できたかをみる尺度になります。
 ちなみに、決定係数は0から1までの値のどれかになります。0はまったく説明できていない。1は完全に説明できている、です。

(8)
 資料3の決定係数をみてください。0.247541 という値です。体重を身長で説明すると25%しか説明できていない。これで説明できたと言えるのか。ここで資料13をみてください。身長を1cmきざみで区切り、それに該当する人の平均体重を求めます。そのようにしてプロットしたグラフが「男子1cmきざみ集計」の図です。そのときの決定係数は 0.889。さらに3cmきざみのときは、0.961 になります。この数字だったら、十分説明できていると言えるでしょう。
 ところが、少し考えてください。資料3で用いたデータを集計して、資料13のデータを作っています。集計したので、個々のデータがいくらかという情報は落としています。その意味で、情報量としては資料3の方が多いのです。したがって、資料3のデータで説明されていないとは考えられません。この疑問は分布をきちんと考えないと理解できません。というわけで、次はよく使う分布の話です。

(2日目午後、セミナーハウス前:    

(2日目午後、天上山、河口湖:      


(9)
 分布の話を書くのは疲れたので、昨年の春合宿の報告を読んでください。「2日目夜の授業」で、カイ2乗分布とF分布について、「3日目朝の授業」でt分布について書いてあります。その知識が理解できたとして、次のことが言えます。
   総変動/σ  〜 自由度(n−1)のカイ2乗分布
   回帰変動/σ 〜 自由度(k)のカイ2乗分布。ここでkは説明変数の数。
   残差変動/σ 〜 自由度(n−k−1)のカイ2乗分布
 決定係数のとる値の分布を考えたい。もし、0.25 以上の値をとる可能性がほとんどないのなら、決定係数が0.247であっても、大きな値と言うことができるでしょう。総変動=回帰変動+残差変動 です。したがって、総変動は回帰変動とは独立ではありません。分母と分子が独立ならば、その比はF分布として定義できます。独立でないと、分布の計算は依存の仕方によって変わってきてしまい、非常にやっかいです。したがって、決定係数=回帰変動/総変動 で分布を考えることはできません。
 分布が考えやすく、説明の尺度として使えるのは、回帰変動/残差変動 です。回帰変動と残差変動は直交しているので、互いに独立になります。この値が大きいときには、説明されているバラツキが、説明されていないバラツキよりも大きくなるので、説明されていると判断します。小さいときには、説明されていないと判断します。
 F分布にするためには、それぞれ自由度で割る必要があります。すなわち、
    (回帰変動/k)/(残差変動/(n−k−1))
が自由度(k、n−k−1)のF分布に従います。資料3の例では、自由度(1, 1588)のF分布に従います。
 残差変動の値は、「Sum of squared residuals」の79766.2 です。回帰変動はここのアウトプットでは直接は出ていませんので、総変動を計算し、そこから残差変動を引いて求めます。総変動は「Std. div. of dep. var.」から計算できます。これは従属変数の標準偏差です。2乗して分散。分散は変動を自由度で割ったのもですから、変動=分散x自由度 になります。したがって、
    総変動=(8.16782 の2乗)x(1590-1)= 106007.4
    回帰変動=106007.4 − 79766.2 = 26241.2
    F値=(26241.2÷1)/(76766.2÷1588)=522.415
ここで、F値は資料3の「F(zero slopes)」の値になっています。
 自由度(1, 1588)のF分布において、522 以上の値がどの程度出やすいか、その確率を求めます。それは0と言ってよいでしょう。その確率は、522.415 の右にある[.000] で示されています。このF分布は平均1、分散2ですから、ほとんどの値が1付近の値をとります。522 という値はとてつもなく大きな値になります。したがって、体重は身長で十分説明されていることになります。
 といっても、気になりますね。75%は身長以外の要因で説明されるのです。しかし、これらは非常に多くの細かい要因からできています。それらの要因は体重をプラスの方向に変化させるものもあり、マイナスの方向に変化させるものもあります。平均すると、プラス・マイナスが相殺されて、0の付近の値になってしまいます。それだから、1cmきざみ、3cmきざみと平均をとる数を多くしていくほど、細かい要因が相殺されて、残差変動の部分が小さくなっていきます。それゆえ、決定係数が1に近づいていきます。

(10)
 サンプル数が大きいときは、資料3のように、個別要因による残差変動の部分が大きくなり、決定係数が小さくなります。逆に、サンプル数が少ないと、決定係数が1に近づいてきます。極端なケースは、サンプル数が説明変数の数と同じ場合です。このときには、決定係数は1になります。決定係数が1に近いからといって、よく説明されているというわけではありまん。したがって、サンプル数が少ない場合には、それを念頭において決定係数をみる必要があります。その尺度が自由度修正ずみの決定係数です。これは資料15を読んでください。

(11)
 最後に、t値を説明しましょう。これは、昨年の春合宿の報告のうち、「3日目朝の授業」を読んでください。そこでは資料8を用いて説明がされています。生産量Yを説明するのに、資本Kと労働Lの投入量を用いています。説明変数全体でどれだけ説明できたかの尺度は決定係数でみます。しかし、個々の説明変数が役に立っているかどうかは、これではわかりません。それをみる尺度がt値です。Kの係数が0であるならば、Kは説明変数として役に立っていないことになります。Kの係数が0かどうかを判断する検定量がt分布になるのです。それをt値と言っています。式の説明は「3日目朝の授業」のほか、資料16でも記述しています。それをみてください。
 ただし、資料16では係数b=0かどうかを問題にしているのではなく、b=1かどうかを問題にしています。そのさいの検定量としてt分布を用いています。それが通常のt値とは違います。
 多重共線性の説明で、t値の知識が必要であると言いました。それは、
   t値=(係数推定値)/(係数推定値の標準誤差)
と書けるからです。係数推定値のバラツキが大きいということは、係数推定値の標準誤差が大きな値になるということです。したがって、t値は小さくなります。決定係数が大きく説明変数全体では説明できているのに、各t値が小さく、それぞれの説明変数が役に立っていないようにみえるときには、多重共線性が起こっています。この説明を参考にしながら、資料12の結果を読んでみてください。

(12)
 合宿では、これ以上の説明はできなかった。計量経営分析の授業をとって勉強するか、あるいは、ゼミの時間に質問してください。

(2日目夜、飲み会: