ユニファ開発者ブログ

ユニファ株式会社プロダクトデベロップメント本部メンバーによるブログです。

決め方の数理2:勝率の数理(OR編)

Unifa プロダクトデベロップメント本部 副本部長の西川です、こんにちは。

今日は予告通り、前回決め方の数理2:勝率の数理(AND編)の続きです。 テーマは、「ORはANDよりも強し。だが……」です。

こういう思わせぶりなテーマにつられ、長文記事をつい最後まで読んでしまう…
そんな好奇心旺盛なあなたのご参画を、Unifa一同、絶賛お待ちしております!
(という採用PR)

unifa-e.com

ORはANDより強し。だが…

「とにかく賭けに勝てばいい」ならOR戦略が最強

このシリーズ(というよりも私)の記事、長くなりがちです。
なので、サクサク行けるところはザクザク行きます。

  •  n 個ある要素のうちのどれか1つでも当たれば成功で
  • 各要素の平均当たり確率が  p と表せる時の

成功確率Pは、以下のような式で表せます。

 P = 100\% - (100\% - p)^{n}*1

今、

  1. 全要素成功が勝利条件のANDプラン(各要素の成功率 99%)
  2. ひとつでも要素が成功すれば勝ちなORプラン(各要素の成功率 1%)

この2つをグラフ化すると、要素数に応じた全体勝率は下図のようになります。

f:id:unifa_tech:20210820164712p:plain

要素数が128以上 = つまり腹案を128個以上同時進行させれば、たとえ各案の成功確率が1%でも、ANDプランに比べてはっきりと優位です。
1,024個の腹案を同時進行させるなら、たとえ各案の成功確率が1%でも、全体勝率は99%以上になります。

やったぞOR。強いぞOR。
ORなら万馬券当て放題!

最高、最強、無敵です!!

「賭けに勝って勝負に負ける」に陥りやすいOR戦略

ORは最高、最強、無敵で万馬券当て放題。
ORこそが人類にとっての福音だ。

そんな訳ないですよね。

たしかに1,024パタンの馬券を100円ずつ買えば万馬券当て放題かもしれません。
しかし、万馬券 = 払い戻しが100倍以上の馬券100円分で戻ってくるのはせいぜい数万円です。
一方で1,024パタンの馬券を100円ずつ買うのにかかるコストは約10万円です。

こんなことをしても意味はありません。
馬券は当たるのに損が出るばかりです。
賭けには勝っていますが勝負にははっきり負けています。

やはり「勝負に勝った」と言うからには、得をしていなければいけません。
たとえ形式的には勝ったとしても、自らにとってより価値あるもので損をしていれば、それはやはり負けなのだと私は思います。
逆に形式的に負けていたとしても、自らにとってより価値あるもので得をしていれば、それは誇るべき勝ちなのだとも思います。

勝ち(価値)だけに。

「勝利」を示す不等式

価値観は人それぞれなので、自らにとってより価値あるものも様々に異なります。
そこで、

  • 勝負に勝つことで得られた「価値」をGainから  G
  • 勝負に挑むことで費やされた「価値」をCostから  C

表すと、私の認識する勝利とは、

勝利した ⇒  G - C > 0 … 命題①

と表現できます。
ここからは、命題①が真であるという前提で、議論を進めていきます。

勝利予測を定義する不等式

さて、

  • 挑戦回数を  T
  • 1回あたりの挑戦で費やされる「平均価値」を  \frac{C}{T} = \overline{C}
  • 全体の勝率を P

と表すものとします。
すると、命題1と期待値の定義から、これから行う試みで「勝利する」と予測するとは、

 G \cdot P - \overline{C} \cdot T > 0 …式①

という不等式が成立すると主張することと同義だと言えます。

ここまでだと、「だから何?」と言いたくなるくらい当たり前のことを、格好つけて小難しく書いただけのように見えてしまいます。
この言い訳、毎回しているような気もしますが、数理的な検討は、

  • 真と仮定することを合意された前提から
  • 形式的な操作・変換を通じて
  • 人類にとっては非自明な情報を
  • 抽出(≠ 創造)する

というプロセスだと私は認識しているので、この当たり前のことを小難しく言っているだけのような段階が、実は非常に重要なのです。
何卒ご容赦いただき、最後までお付き合いくださいませ。

なお、これ以降の議論は全て  0\% \lt P \lt 100\% の範囲での検討とします。*2

勝利への道筋モデル

さてさて。
上記式①から知見を抽出する準備に、少しだけ脇道に逸れます。
一時期、スタートアップ界隈でこんな(感じの)図が出回っていました。*3
f:id:unifa_tech:20210819210532p:plain …なるほど。

失敗の連続を乗り越えた先に成功がある。
たとえ成功に向かう道筋でも、途中での失敗はつきものだ。

そう言った含意には頷くことしきりです。
しかし、この図、本当なのでしょうか?

事業で考えてみましょう。

  1. 鳴かず飛ばずで赤字続きの事業が
  2. 失敗の連続にもめげずにがんばっていたら
  3. ある日突然の爆発的成功を収める

…そんなことって、現実にあるんでしょうか?
反語を使うくらいなのでもちろん、私は否定的な立場です。

赤字続きの事業が大成功を収めるには、

  • まず単年黒字化して
  • 次に累損解消して
  • その後に大成功する

というマイルストンを必ず通るはずです。
ゆえに、勝利への道筋について、本当はこうなんじゃないかと、私は考えています。

f:id:unifa_tech:20210820175059p:plain

このモデルを真と仮定して、先程の式①に適用してみましょう。

真・勝利予測不等式

まず、 勝利への道筋モデルを適用するために  P の定義を以下のように変更します。*4

  • 旧: P = 全体勝率
  • 新: P = 挑戦回数  T の中で  k 個あるマイルストン全てを達成する確率

この変更で式①の形は変わりません。

 G \cdot P - \overline{C} \cdot T > 0 …式①

式の形が変わらないのに、この定義変更にどんな意味があるのでしょう?
実はこの定義変更により、

それぞれ適用できるようになっています。*5
これです。
この2つが適用できるようになることが、知見の抽出に大きく役に立つのです。
では早速、数式をごにょごにょいじ…りたいのは山々ですが、その前に。

ゲインとコスト

式①を、  G \overline{C} についてそれぞれ解いて置くと、

 G > \overline{C} \cdot \frac{T}{P} … 式②
 \overline{C} \lt G \cdot \frac{P}{T} … 式③

という2式を得ることができます。
また、

  • マイルストンを達成するための試みの1回1回の平均成功確率を  p で表す

とすると、二項分布の定義より、

 P = {}_T C_k \cdot p^{k}(1 - p)^{T-k} … 式④

が得られます。

また負の二項分布を利用して数式をごにょごにょすることで…

  •  T = マイルストン達成に成功した回数 + マイルストン達成に失敗した回数

です。
最終的に勝利した時、 k 個のマイルストンを乗り越えたのだとしたら、マイルストン達成に成功した回数は当然  k 回です。
では、マイルストン達成に失敗した回数はどうでしょうか?
 k 個のマイルストンを乗り越える時に何回失敗するか…を、どう予測するのが数理的に適切なのでしょうか?

実は1回あたりの成功確率が  p の試行で  k 回成功するまでに何回失敗するか…という確率変数は、負の二項分布に従うことが証明されています。
そしてその期待値は、失敗した回数を  X と置くと、

 E(X) = k \cdot \frac{1 - p}{p}

で求めることができます。
したがって、
 T = k + k \cdot \frac{1 - p}{p}
 = k \cdot (1 + \frac{1 - p}{p})
 = k \cdot (\frac{p}{p} + \frac{1 - p}{p})
…という計算を経て、

 T = \frac{k}{p} …式⑤

が、得られます。

だから何だって言うんでしょう?

応用例

式①〜⑤のコンビネーションから、どんな知見が得られるのか。
その具体例を示すために、アビームコンサルティングさんが2018年末に発表した 新規事業の実態調査の数値を使わせていただきます。
この調査は、年間売上200億円以上の有力企業の新規事業立ち上げ関与経験者(N = 780)を対象としたWebアンケートです。

さて、上記調査では新規事業成功のプロセスを、

  1. コンセプト創造(達成率 = 全体の100%)
  2. 計画立案(達成率 = 全体の87%)
  3. 立ち上げ準備(達成率 = 全体の62%)
  4. 立ち上げ(達成率 = 全体の45%)
  5. 単年黒字化(達成率 = 全体の17%)
  6. 累損解消(達成率 = 全体の7%)
  7. 中核事業化(達成率 = 全体の4%)

…という7つのマイルストンに分割しています。

「中核事業化」というマイルストンの取り扱いには、少し難しい面があります。
累損解消を経た上で中核事業になっているので、少なくとも経済面で  G - C > 0 なのは明らかです。
しかし、では  G - C がいったいどれくらいの大きさなのかは、企業・事業によって様々に異なるはずです。
また、中核事業となるかならないかについては、経済以外の側面も絡んで来うる領域です。

一方で「累損解消」の取り扱いは、もう少しかんたんです。
 G C を経済的な価値の指標とした場合、 累損解消は  G - C = 0 となるポイントだからです。
ですので、累損解消は新規事業が「経済的に成功を収めた」と言えるかどうかの分水嶺としてみなせます。

ここで調査結果より、

  •  P = 7\% は累損解消の達成率から直接得られる
  • 成功地点「累損解消」までのマイルストンの個数  k = 6
  • 各マイルストン挑戦の平均達成確率  p = \sqrt[6]{7\%} ≒ 64.2\% = 0.642

を計算でき、これを利用して、

  • 式⑤より  T = \frac{k}{p} = \frac{6}{0.642} ≒ 9.34 ≒ 9

を得ることができます。

「新規事業への投資」についての数理的目安

ここまでで、 \frac{T}{P} = \frac{9}{0.07} ≒ 129 となるため、これを、

  • 式②  G > \overline{C} \cdot \frac{T}{P} に代入すれば  G > 129 \cdot \overline{C}
  • 式③  \overline{C} \lt G \cdot \frac{P}{T} に代入すれば  \overline{C} \lt \frac{1}{129} \cdot {G}

が得られます。
ところで、  \overline{C} = \frac{C}{T} だったので当然  C = \overline{C} \cdot T です。
「だったら、最初っから  G > \frac{C}{P} で答えが出るのでは?」と思った方、鋭いです。
その通りです。

じゃあなんでわざわざ回りくどい道を辿っているかというと…
 0\% \lt P \lt 100\% なので、本来の  C はやってみて最後の成果にたどり着くまで分からないはずだから、です。

今回の本文では、説明簡略化のために統計データを用いましたが、新規事業の成功確率はやはり案件の中身や、案件を取り巻く状況によって様々に異なります。
今回のように  k 個あるマイルストンの1つ1つの成功確率  p を考える…というステップがあることによって何が嬉しいかというと、

 k 個のマイルストンの  l 個目の段階で、それまでの自分たちの実績に基づく  p から、自分たちの置かれた状況・取り組んでいる事業の内容に根ざした  P T C を、都度、推定できることにあります。

これが今回の記事の味噌的なところだと思っているのですが、じゃあどうしてそちらの方の例示を書かなかったか…というと、状況設定の説明などを含めて、あまりに説明が長くなってしまったので、泣く泣く割愛した…という次第です。

言い訳おしまい。

さて上の計算結果を利用すると、年間売上規模200億円以上な有力企業での新規事業投資時の数理的目安として、例えばこんなグラフを得ることができます。*6

f:id:unifa_tech:20210821003905p:plain f:id:unifa_tech:20210821005733p:plain

面白くないですか?*7

行き過ぎたOR戦略の弊害

さて、今、全体勝率を高めるためにOR戦略を採用し、n個の新規事業を並列して進行させたとします。
今、予測ゲイン  G を基準 = 1 として、n個新規事業案を進める時の1案あたりのコスト上限  C_u を計算してみましょう。
 n \cdot C \lt G \cdot P から  G = 1 なので、

 C_u = \frac{1 - (1 - P)^{n}}{n}

と表せます。

これまでの流れを組んで累損解消率  P = 7\% とすると、nの推移によって  C_u は下図のように推移します。

f:id:unifa_tech:20210821013628p:plain

OR戦略で並列で走らせる案件数が増えれば増えるほど、1案件あたりの許容コスト上限  C_u が線形に減っていくのが分かるかと思います。

さて、かけるコストが減っているに成功確率が同じまま…なんていうモデルは現実的でしょうか?
もちろん、通常の感覚ではそんなことはありません。

ここでは数理的な妥当性はさて置き、投下コストを減らした比率と同じ割合で1案件あたりの成功確率も下がっていくとして、シミュレーションを行ってみます。
すると、次のようなグラフが得られます。

f:id:unifa_tech:20210821015927p:plain

並列で走らせる案件が多くなれば多くなるほど、成功確率上昇に対するコスパが悪化していることを理解していただけるかと思います。

まとまってない「まとめ」

今日は、OR戦略の強みと弱みを見てきました。
前回のAND編と今日の内容を踏まえ、どういうアプローチを採ればいいのか?
それを今から語るには、さすがに記事が長くなり過ぎてしまいました。

そういう訳で、次回このシリーズを書く時は「決め方の数理3:挑戦の数理」というタイトルで、OR編の弱点を克服する方法を探りたいと思います。

今日紹介した数式の利用法まとめ

最終的成功地点までの確率  P の相場が見えている場合

 G > \frac{C}{P} に照らして計画の採算性を評価するという使い方が、典型的だと思います。

最終的成功地点までの確率  P の相場が見えていない場合
  1. それまでの実績(と今後の計画での相対的投資規模推移)に基づいて  \overline{C} を計算する
  2. それまでの実績(と必要に応じて外部データとの照合結果)に基づいて  p を計算する
  3.  T = \frac{k}{p} より  T を推計する
  4.  C = \overline{C} \cdot T より  C を推計する
  5.  T, p, k P = {}_T C_k \cdot p^{k}(1 - p)^{T-k} に代入することで  P を推計する
  6.  G \cdot P - C > 0 の式にそれぞれを代入して計画の採算性を評価する

謝辞と勧誘

それにしても、こんな長文をここまで読んでいただいて、ありがとうございます。
ここまで読んでいただいただけで大感謝なのですが、その上でもし楽しんでいただけたなら、とっても嬉しいです。
本当に、とっても嬉しいことなので、もし「面白いじゃん」と思っていただけたなら、ぜひ、採用面接の場で、
「あー、あれ面白かったです」
と、私にお伝えいただけないでしょうか?

unifa-e.com

厚かましいお願いですが、何卒よろしくお願いいたします。

*1: (100\%-p)の部分は100%から各要素の当たり確率pを引いているので、各要素の外れ確率を示しています。したがって、 (100\%-p)^{n}はn個の要素すべてが外れる確率を表します。それを100%から引くことで、少なくとも1つの要素が当たる確率を得ることができます。

*2:失敗や成功が確定している事柄について論じても、あまり意味があると思えないからです。

*3:著作権を侵さないようにGoogle スライドで作図しました。がんばりました。

*4:この定義変更の正当性は、前セクションで「西川が考える勝利への道筋モデル」を真と仮定したことに由来します。

*5:古い定義だと、成功しきったわけではないけれど進捗はしているよね…という状況をうまく扱えませんでした。新しい定義ではマイルストンを達成していれば小さなトライに1回成功したことになるし、マイルストンを達成してなければ小さなトライに1回失敗したことになる…という具合に、結果を成功、失敗にきれいに分けることができるようになります。このような結果になるトライのことをベルヌーイ試行と呼びますが、実はベルヌーイ試行に対して使える便利な道具が数学には色々揃っているのです。

*6:具体的な数値は計算すれば分かるので、ぜひ、ご自身で計算してみてください!

*7:面白くなかったらどうしよう…。