はじめに
ロジスティック回帰を勉強すると出てくる「オッズ」と言う概念。
なんだかわかりにくいのでまとめてみました。
解説
オッズ
オッズ自体はギャンブルのコトバ*1だそうで、古くから用いられているそうです。
で、何かというと「ある事象」があって、その事象がそれ以外に比べて起こりやすいかどうかを示す指標です。
数式で表すと、それが起こる確率をとしてそれ以外が起こる確率を
とすると、オッズは
となります。
それでこの数値が何を表すかというと、1より大きいと「ある事象」の発生頻度はそれ以外の発生確率より高く、1より小さいと発生頻度は低くなるという尺度の数字です。
確率と違い、0 ~ 1ではなくから
に拡張している点、尺度であるということが重要です。
オッズ比
オッズを使うことで、独立している事象2つの起こりやすさを比較ができます。
例えば、以下のようなことを考えてみましょう。
これは数値から逆算して考えた、私が幸せである確率です。
(私はおじさんですが、タピオカが好きです)
同じ日のうちに、コーヒーもタピオカも摂取していないときの幸福である確率は10%、タピオカは摂取したが、コーヒーは摂取してないときに幸福である確率は60%と読んでください。
ここで、コーヒーを飲んでいないときに目をつけて、タピオカの摂取でどれだけ幸福である確率が変化するかを考えます。
単純に見るとタピオカを摂取すると10%から60%に増えているので6倍、と考えたくなります。
では、その横の列である「コーヒーを飲んでいる時」を見てみましょう。
コーヒーを飲んでいる時、タピオカを摂取していないときの幸福である確率は20%です。タピオカを摂取したときの幸福度はわかりませんが、先程の関係を踏まえると6倍であると考えられます。
しかし、そうすると、となり、確率としては100%を超えてしまいおかしな表現になってしまいます。
このときに使える考えがオッズ比で数式としてはで表現します。
まずは、A, Bそれぞれのオッズを計算します。
となり、13.5という値になります。
さらに、実際に調べたい側の列を数式化します。
後半の式と前半の式の結果を組み合わせると
となり、pを解くとだいたい77%、つまり、コーヒーとタピオカがあれば77%くらいの確率で幸せ、と言えるということです。
このようにして、ある発生確率を尺度化することで、発生しやすさを捉えて比較が行えるようになります。
まとめ
オッズを用いることで、事象の発生しやすさを捉えることができるようになりました。
また、オッズ比を用いることである事象がどれだけ影響を及ぼすかを比として捉えて、前提の違う同じ事象に当てはめることができました。