日本橋濱町Weblog(日々酔亭)

Quality Economic Analyses Produces Winning Markets

条件付ロジットモデルの推定5:サンプル数について

通常の仮定(詳細はCramer 1986, Eliason 1993を見よ)の下では、最尤推定量は、consistent, efficient, asymptotically normalである。これらの特性はサンプルサイズを無限大に近づけることで維持できる。


最尤推定量はスモールサンプルのとき必ずしも悪い推定量ではないが、ここでのモデルに関する最尤推定量の小標本挙動はほとんど分からない。そこでLong(1997 54頁)では以下のようなガイドラインを提案している。

500以上のサンプルが妥当である一方、100以下のサンプルでの最尤法は危険である。それらの値は、モデルやデータの特徴によって上げられるであろう。

  1. 多くのパラメータがある場合、より多くの観測値が必要になる。少なくともパラメータあたり10個の観測値が合理的であるというルール*1
  2. 仮にデータの条件が悪い場合(例えば、説明変数間の相関が非常に高いなど)、あるいは被説明変数にほとんど幅がない場合(観測結果がほとんど1の近辺にある場合など)、より大きなサンプルが必要とされる。
  3. ここでは関係なさそうなので省略

さてこのときのサンプルとはデータを加工する前の生データでのサンプル数。

ひどい文章だが、ご勘弁を。

さて、恐らく最低500サンプルというのも、選択肢の数とか、考慮する説明変数の数で、500サンプルでは当然少ない場合もでてくるであろう。

Longの提案から想像できるのは、満足のいく推定作業を行なうためには、

  • サンプルが十分であること、そして
  • 選択肢間の特徴が明確であり、それに
  • 説明変数もバラエティがあること

がポイントになるということであろうか。

そういう視点から、アンケート調査を設計すること、また収集されたデータをモデルの推定前に特徴をよく把握しておくことが作業を効率的に進めるためには重要ということになる。

*1:但し、仮に2つのパラメータしかなかった場合、最小で100はいらないということをこれは意味するものではない。