日本橋濱町Weblog（日々酔亭）

Quality Economic Analyses Produces Winning Markets

条件付ロジットモデルの推定４：CLMの推定

実証研究入門（統計学、R言語、RStudio、Python）

CLMは、いくつかの選択肢の中からの選択がケース間で異なる選択肢の特徴にどのように影響されるかを明らかにできる。

ここで観測された結果mの推定選択確率は以下の式で表される(数式はまだ不完全です)。

$Pr(y_{i}=m|z_{i})=\frac{\exp(z_{im}\gamma)}{\sum_{j=1}^{J}\exp(z_{ij\gamma})} for m = 1 to J$

ここで $z_{im}$ はケースi、選択肢ｍの説明変数の値である。γが推定されるべきパラメータ。

CLMのSyntaxは以下のとおり。

clogit depvar [indepvars] [if] [in] [weight], group(varname) [constraints(constraints) robust cluster(varname) level(#) or]

オプションの解説

group(varname)：必須。ケースを特定する変数。
constraints(clist)：推定値間の線形制約を指定。デフォルトは制約なし。
robust：ロバストな分散の推定値。cluster()が使われた場合、ロバストな標準誤差が自動的に使われる。詳細は第3章参照。
他は省略。

例えばこんな感じ。

clogit choice d1 d2 d3 d4 d5 price speed1 incomed1 incomed2 incomed3 incomed4 incomed5, group(samplenum)

推定結果はこんな感じ。エクセルに貼り付けて整形したものです。

この結果を見ると、まず選択肢別のダミー変数が５つ入らなければいけないところが、４つまでしか入りません。これは5つ入れると収束しないためです。またいろいろ試して気がついたのですが、入れるダミー変数によって擬似決定係数の値がかなり変わります。

ここで上げている例では、Pseude R2が0.7732ですが、最大0.9ぐらいまであがります。これまでいろいろな文献を見てきて、擬似決定係数がここまで高いのはあまり見たことがないので、ちょっと「？」というところです。

擬似決定係数がいいので、当然、各変数のｚ値も問題なく通っています。また速度と料金、所得の符号条件も問題ありません。

ダミー変数が一つ入らないというのを除けば、満足のいく推定結果なのですが、ここまで推定結果がよい、かつダミーが一つ入らないというのはちょっと気にかかるところです。