生成的モデル

曖昧さ回避 この項目では、統計的分類の文脈における生成モデルについて説明しています。マルコフ決定過程の生成モデルについては「en:Markov decision process#Simulator models」を、コンピュータグラフィックスにおける生成モデル言語(GML)と生成型コンピュータプログラミングについては「生成的モデリング言語(英語版)」を、生成AIについては「生成的人工知能」をご覧ください。

統計的分類では、生成的アプローチと識別的アプローチの2つの主要な手法がある。これらのアプローチでは、分類指標(英語版)を計算するために異なる方法論を用いており、その統計的モデリングの程度もさまざまである。使用される用語は一貫していないが[注釈 1]Jebara (2004)によれば、主に3つの種類に分けられる。

  1. 生成的モデル(generative model)は、観測可能変数X目的変数(英語版)Y同時確率分布 P ( X , Y ) {\displaystyle P(X,Y)} に基づく統計モデルである[1]
  2. 識別的モデル(discriminative model)は、観測値 x が与えられたときの、目的変数 Y条件付き確率 P ( Y X = x ) {\displaystyle P(Y\mid X=x)} に基づく統計モデルである。
  3. さらに、確率モデルを使用せずに計算される分類指標も、漠然と「識別的(discriminative)」と呼ばれる。

この最後の2つの種類は一貫して区別されておらず[2]Jebara (2004)はこの3種類を生成的学習(generative learning)、条件付き学習(conditional learning)、識別的学習(discriminative learning)と呼んでいるが、Ng & Jordan (2002)は後者の2つを区別せずに、生成的分類指標(generative classifiers、同時分布)と識別的分類指標(discriminative classifiers、条件分布または無分布)と2つしか区別しない[3]。同様に、生成的モデルに基づく分類器を生成的分類器(generative classifier)、識別的モデルに基づく分類器を識別的分類器(discriminative classifier)と呼ぶが、後者はモデルに基づかない分類器も指すこともある。

それぞれの標準的な例は次のとおりで、すべて線形分類器である。

分類に適用する場合、その目的は観測値 x からラベル y (またはラベルに対する確率分布)を決定することである。そのための3種類の手法があり、1番目は確率分布を用いずに直接計算する方法(distribution-free classifier、分布によらない分類器)、2番目は観測値からラベルの確率 P ( Y | X = x ) {\displaystyle P(Y|X=x)} を推定し、それを基に分類する方法(discriminative model、識別的モデル)、3番目は同時分布 P ( X , Y ) {\displaystyle P(X,Y)} を推定し、そこから条件付き確率 P ( Y | X = x ) {\displaystyle P(Y|X=x)} を計算し、それを基に分類する方法(generative model、生成的モデル)である。これらの手法は、ますます間接的ではあるが、ますます確率的であり、より多くのドメイン知識と確率理論を使用することができるようになる。実際には、実際の問題に応じてさまざまな手法が選択され、複数の方法の長所を組み合わせたハイブリッド法も可能である。

定義

モデルを分類するもう一つの方法は、次の対称的な定義である。

  • 生成的モデルとは、目的値 y が与えられたときの、観測可能変数 X の条件付き確率を表すモデルであり、記号的には P ( X Y = y ) {\displaystyle P(X\mid Y=y)} と表される[4]
  • 識別的モデルとは、観測値 x が与えられたときの、目的変数 Y の条件付き確率を表すモデルであり、記号的には P ( Y X = x ) {\displaystyle P(Y\mid X=x)} と表される[5]

正確な定義はともかく、この用語は構造上のものである。生成的モデルは、観測値と目的値 ( x , y ) {\displaystyle (x,y)} または目的値 y が与えられたときの観測値 x のいずれかの、ランダムなインスタンス(結果)を「生成」することができる。一方、識別的モデル、または識別的分類器(モデルなし)は、観測値 x が与えられたとき、目標変数 Y の値を「識別」することができる[4]。「識別」(discriminate)と「分類」(classify)の違いは微妙で、この2つの用語しばしば同じ意味で使われることがある。したがって「識別」と「分類」が等価である場合、「識別的分類器」という用語は冗語になる。

また「生成的モデル」という用語は、入力変数の潜在的なサンプルの確率分布に直接関係しない方法で出力変数のインスタンスを生成するモデルを表すこともある。敵対的生成ネットワークは、これに属する生成的モデルの例であり、主に潜在的な入力に対する特定の出力の類似性に基づいて判断される。しかしこのようなモデルは分類器ではない。

モデル間の関係

分類へ関していえば、観測可能変数 X は多くの場合連続変数(英語版)で、目的 Y は一般的にラベルの有限集合からなる離散変数(英語版)であり、また、条件付き確率 P ( Y X ) {\displaystyle P(Y\mid X)} は、 X を入力、Y を出力とする(非決定論的な)目的関数(英語版) f : X Y {\displaystyle f\colon X\to Y} と解釈することもできる。

ラベルの有限集合があるとき、「生成的モデル」の2つの定義は密接に関連している。条件付き分布 P ( X Y = y ) {\displaystyle P(X\mid Y=y)} のモデルは、各ラベルの分布を表し、同時分布のモデルは、ラベル値の分布 P ( Y ) {\displaystyle P(Y)} と、ラベルを与えられた観測値の分布 P ( X Y ) {\displaystyle P(X\mid Y)} のモデルと等価で、記号的には P ( X , Y ) = P ( X Y ) P ( Y ) {\displaystyle P(X,Y)=P(X\mid Y)P(Y)} である。したがって、同時確率分布のモデルは、ラベル分布のモデル(ただしラベルの相対的な頻度を含まない)よりも情報量が多いが、比較的小さな違いであり、両者が常に区別されているわけではない。

同時確率分布のモデル P ( X , Y ) {\displaystyle P(X,Y)} があれば、個々の変数の分布は周辺分布 P ( X ) = y P ( X , Y = y ) {\displaystyle P(X)=\sum _{y}P(X,Y=y)} P ( Y ) = x P ( Y , X = x ) {\displaystyle P(Y)=\int _{x}P(Y,X=x)} として計算できる(X は連続、したがって積分、 Y は離散、したがって累積和)。どちらの条件付き分布でも、条件付き確率の定義より求めることができる: P ( X Y ) = P ( X , Y ) / P ( Y ) {\displaystyle P(X\mid Y)=P(X,Y)/P(Y)} P ( Y X ) = P ( X , Y ) / P ( X ) {\displaystyle P(Y\mid X)=P(X,Y)/P(X)}

ある条件付き確率のモデルと、変数 XY の推定確率分布 P ( X ) {\displaystyle P(X)} P ( Y ) {\displaystyle P(Y)} があれば、ベイズの定理を使用して反対の条件付き確率を推定することができる: P ( X Y ) P ( Y ) = P ( Y X ) P ( X ) {\displaystyle P(X\mid Y)P(Y)=P(Y\mid X)P(X)}

たとえば、 P ( X Y ) {\displaystyle P(X\mid Y)} の生成的モデルがあれば、

P ( Y X ) = P ( X Y ) P ( Y ) / P ( X ) {\displaystyle P(Y\mid X)=P(X\mid Y)P(Y)/P(X)}

を推定でき、 P ( Y X ) {\displaystyle P(Y\mid X)} の識別的モデルがあれば、

P ( X Y ) = P ( Y X ) P ( X ) / P ( Y ) {\displaystyle P(X\mid Y)=P(Y\mid X)P(X)/P(Y)}

を推定できる。

なお、ベイズの定理(一方の条件付き確率を他方の条件付き確率で計算する)と条件付き確率の定義(条件付き確率を同時分布で計算する)は混同されがちである。

識別的分類器との対比

生成的アルゴリズムは、信号を分類するために、データがどのように生成されたかをモデル化する。生成の仮定を考慮して、どのカテゴリがこの信号を生成する可能性が最も高いか、という問いを投げかける。これに対して、識別的アルゴリズムは、データがどのように生成されたかに注目せず、与えられた信号を単純に分類する。つまり、識別的アルゴリズムはデータから直接 p ( y | x ) {\displaystyle p(y|x)} を学習して、その後データを分類しようとする。一方、生成的アルゴリズムは p ( x , y ) {\displaystyle p(x,y)} を学習し、それを後で p ( y | x ) {\displaystyle p(y|x)} に変換してデータを分類しようとする。生成的アルゴリズムの利点の1つは、 p ( x , y ) {\displaystyle p(x,y)} を使用して既存のデータに類似した新しいデータを生成できることである。しかし、一部の識別的アルゴリズムは、分類タスクにおいて、一部の生成的アルゴリズムよりも優れた性能を発揮することが示されている[6]

識別的モデルは観測変数の分布をモデル化する必要がない代わりに、観測変数と対象変数の間の複雑な関係を表現することはできない。しかし、一般的には、分類や回帰の作業において、必ずしも生成的モデルより優れているとは限らない。全体として、この2種類の手法は補完的なもの、あるいは同じ手順の異なる見方として捉えられている[7]

深層生成モデル

深層学習の台頭とともに、生成的モデルと深層ニューラルネットワークを組み合わせた、深層生成モデル(deep generative models、DGM)と呼ばれる新しい手法のファミリーが出現している[8][9][10]。これらのモデルの性能は、通常、ニューラルネットワークの規模と、学習データの規模の両方を拡大することで向上する[11]

一般的なDGMには、変分オートエンコーダー(VAE)、敵対的生成ネットワーク(GAN)、自己回帰モデルなどがある。最近では、非常に大規模な深層生成モデルを構築する傾向が見られる[8]。たとえば、GPT-3やその前身であるGPT-2は、数十億のパラメータを含む自己回帰ニューラル言語モデルであり[12]、画像生成に用いられるBigGAN[13]やVQ-VAE[14]は数億のパラメータを持ち、Jukeboxは数十億のパラメータを持つ音楽オーディオ用の非常に大きな生成的モデルである[15]

種類

生成的モデル

生成的モデルには次のような種類がある。

観測データが生成的モデルから実際にサンプリングされたものであれば、データの尤度を最大化するために生成的モデルのパラメータを適合させるのが一般的な方法である。しかし、ほとんどの統計モデルは真の分布に対する近似に過ぎないため、モデルが他の変数の既知の値を条件として変数のサブセットについて推論するのであれば、近似は必要以上の仮定をしている主張することができる。このような場合、識別的モデル(以下に列挙)を使用して条件付き密度関数を直接モデル化する方がより正確な可能性があるが、それぞれのケースでどのアプローチが最適かは、最終的にはアプリケーション固有の詳細に基づいて決定される。

識別的モデル

簡単な例

入力データを x { 1 , 2 } {\displaystyle x\in \{1,2\}} x {\displaystyle x} のラベル集合を y { 0 , 1 } {\displaystyle y\in \{0,1\}} とし、次の4つのデータポイントがあるシナリオを考える: ( x , y ) = { ( 1 , 0 ) , ( 1 , 1 ) , ( 2 , 0 ) , ( 2 , 0 ) } {\displaystyle (x,y)=\{(1,0),(1,1),(2,0),(2,0)\}}

経験的尺度から同時確率分布 p ( x , y ) {\displaystyle p(x,y)} を推定すると、次のようになる。

y = 0 {\displaystyle y=0} y = 1 {\displaystyle y=1}
x = 1 {\displaystyle x=1} 1 / 4 {\displaystyle 1/4} 1 / 4 {\displaystyle 1/4}
x = 2 {\displaystyle x=2} 2 / 4 {\displaystyle 2/4} 0 {\displaystyle 0}

また、条件付き確率分布 p ( y | x ) {\displaystyle p(y|x)} は次のようになる。

y = 0 {\displaystyle y=0} y = 1 {\displaystyle y=1}
x = 1 {\displaystyle x=1} 1 / 2 {\displaystyle 1/2} 1 / 2 {\displaystyle 1/2}
x = 2 {\displaystyle x=2} 1 {\displaystyle 1} 0 {\displaystyle 0}

テキスト生成

Shannon (1948)は、英語の単語対の頻度表を使用して、「represent and speedily is an good」で始まる文章を生成する例を示した。この文は文法的に正しい英語ではなかったが、表を単語対から単語三連符へと移行するにつれて、より正しい英語に近くなっていった。

参考項目

ポータル 数学
ポータル 数学
  • 識別的モデル - 分類や回帰に用いられるロジスティックモデルの一種。観測可能なデータを用いて決定境界を設定する。
  • グラフィカルモデル - 確率変数間の条件付き依存構造をグラフで表現した確率モデル。
  • 生成的人工知能 - プロンプトに応じてコンテンツを生成することができる人工知能シスステム。

注釈

  1. ^ Ng & Jordan 2002Jebara 2004Mitchell 2015の3つの代表的な資料では、異なる区分けや定義が示されている。

脚注

  1. ^ Ng & Jordan (2002): "Generative classifiers learn a model of the joint probability, p ( x , y ) {\displaystyle p(x,y)} , of the inputs x and the label y, and make their predictions by using Bayes rules to calculate p ( y x ) {\displaystyle p(y\mid x)} , and then picking the most likely label y.
  2. ^ Jebara 2004, 2.4 Discriminative Learning: "This distinction between conditional learning and discriminative learning is not currently a well established convention in the field."
  3. ^ Ng & Jordan 2002: "Discriminative classifiers model the posterior p ( y | x ) {\displaystyle p(y|x)} directly, or learn a direct map from inputs x to the class labels."
  4. ^ a b Mitchell 2015: "We can use Bayes rule as the basis for designing learning algorithms (function approximators), as follows: Given that we wish to learn some target function f : X Y {\displaystyle f\colon X\to Y} , or equivalently, P ( Y X ) {\displaystyle P(Y\mid X)} , we use the training data to learn estimates of P ( X Y ) {\displaystyle P(X\mid Y)} and P ( Y ) {\displaystyle P(Y)} . New X examples can then be classified using these estimated probability distributions, plus Bayes rule. This type of classifier is called a generative classifier, because we can view the distribution P ( X Y ) {\displaystyle P(X\mid Y)} as describing how to generate random instances X conditioned on the target attribute Y.
  5. ^ Mitchell 2015: "Logistic Regression is a function approximation algorithm that uses training data to directly estimate P ( Y X ) {\displaystyle P(Y\mid X)} , in contrast to Naive Bayes. In this sense, Logistic Regression is often referred to as a discriminative classifier because we can view the distribution P ( Y X ) {\displaystyle P(Y\mid X)} as directly discriminating the value of the target value Y for any given instance X
  6. ^ Ng & Jordan 2002
  7. ^ Bishop, C. M.; Lasserre, J. (24 September 2007), “Generative or Discriminative? getting the best of both worlds”, in Bernardo, J. M., Bayesian statistics 8: proceedings of the eighth Valencia International Meeting, June 2-6, 2006, Oxford University Press, pp. 3–23, ISBN 978-0-19-921465-5, https://books.google.co.jp/books?id=Vh7vAAAAMAAJ&pg=PA3 
  8. ^ a b “Scaling up—researchers advance large-scale deep generative models”. Microsoft (2020年4月9日). 2020年7月24日閲覧。
  9. ^ “Generative Models”. OpenAI (2016年6月16日). 2020年5月19日閲覧。
  10. ^ Tomczak, Jakub (2022). Deep Generative Modeling. Cham: Springer. p. 197. doi:10.1007/978-3-030-93158-2. ISBN 978-3-030-93157-5. https://link.springer.com/book/10.1007/978-3-030-93158-2 
  11. ^ Kaplan, Jared; McCandlish, Sam; Henighan, Tom; Brown, Tom B.; Chess, Benjamin; Child, Rewon; Gray, Scott; Radford, Alec; Wu, Jeffrey; Amodei, Dario (2020). "Scaling Laws for Neural Language Models". arXiv:2001.08361 [stat.ML]。
  12. ^ “Better Language Models and Their Implications”. OpenAI (2019年2月14日). 2020年7月24日閲覧。
  13. ^ Brock, Andrew; Donahue, Jeff; Simonyan, Karen (2018). "Large Scale GAN Training for High Fidelity Natural Image Synthesis". arXiv:1809.11096 [cs.LG]。
  14. ^ Razavi, Ali; van den Oord, Aaron; Vinyals, Oriol (2019). "Generating Diverse High-Fidelity Images with VQ-VAE-2". arXiv:1906.00446 [cs.LG]。
  15. ^ “Jukebox”. OpenAI (2020年4月30日). 2020年5月19日閲覧。

外部リンク

  • Shannon, C. E. (1948). “A Mathematical Theory of Communication”. Bell System Technical Journal 27 (July, October): 379–423, 623–656. doi:10.1002/j.1538-7305.1948.tb01338.x. hdl:10338.dmlcz/101429. https://www.tnt.uni-hannover.de/edu/vorlesungen/InfoTheor/download/shannon1948.pdf. 
  • Mitchell, Tom M. (2015). “3. Generative and Discriminative Classifiers: Naive Bayes and Logistic Regression”. Machine Learning. https://www.cs.cmu.edu/~tom/mlbook/NBayesLogReg.pdf 
  • Ng, Andrew Y.; Jordan, Michael I. (2002). “On discriminative vs. generative classifiers: A comparison of logistic regression and naive bayes.”. Advances in Neural Information Processing Systems. http://robotics.stanford.edu/~ang/papers/nips01-discriminativegenerative.pdf. 
  • Jebara, Tony (2004). Machine Learning: Discriminative and Generative. The Springer International Series in Engineering and Computer Science. Kluwer Academic (Springer). ISBN 978-1-4020-7647-3. https://www.springer.com/us/book/9781402076473 
  • Jebara, Tony (2002). Discriminative, generative, and imitative learning (PhD). Massachusetts Institute of Technology. hdl:1721.1/8323。, (mirror, mirror), published as book (above)
  • Code accompanying the book (Tomczak, Jakub (2022). Deep Generative Modeling. Cham: Springer. p. 197. doi:10.1007/978-3-030-93158-2. ISBN 978-3-030-93157-5. https://link.springer.com/book/10.1007/978-3-030-93158-2 ): “Introductory examples”. GitHub. 2022年10月21日閲覧。
標本調査
要約統計量
連続確率分布
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定(英語版)
その他
統計図表
生存分析
歴史
  • 統計学の創始者
  • 確率論と統計学の歩み
応用
出版物
  • 統計学に関する学術誌一覧
  • 重要な出版物
全般
その他
カテゴリ カテゴリ