![深度学习500问:AI工程师面试宝典](https://wfqqreader-1252317822.image.myqcloud.com/cover/753/36511753/b_36511753.jpg)
1.5 常见概率分布
1.5.1 伯努利分布
伯努利分布(Bernoulli Distribution)是单个二值随机变量分布,它由参数φ控制,其中φ∈[0,1],φ给出随机变量等于1的概率。主要性质有:
![](https://epubservercos.yuewen.com/738432/19391577501345406/epubprivate/OEBPS/Images/38937-00-039-2.jpg?sign=1739295297-SkNhDDMrjvZGMKX10x4YY0L06ozPCg9V-0-f8dd222e7a6832db39e37cfd6c1fb1e1)
其期望和方差为:
![](https://epubservercos.yuewen.com/738432/19391577501345406/epubprivate/OEBPS/Images/38937-00-039-3.jpg?sign=1739295297-QGnKtwDbgLQq19QdxmZrbi5ZTOuvXA2R-0-f71cf050cdd0f4678be4b56da8b2e11e)
Multinoulli分布也叫范畴分布、分类分布(Categorical Distribution),是伯努利分布从两个取值状态到多个取值状态的扩展,Multinoulli分布是单个k值随机分布,经常用来表示对象分类的分布,其中k是有限值。
伯努利分布适用于对离散型随机变量建模的场景。
1.5.2 高斯分布
高斯分布也叫正态分布(Normal Distribution),概率密度函数如下:
![](https://epubservercos.yuewen.com/738432/19391577501345406/epubprivate/OEBPS/Images/38937-00-039-4.jpg?sign=1739295297-jkBr7vLL4Qe3vZLKTlEwcbFGXiBHJkCo-0-34ac6299effad73c8ab7734ed84f8a8b)
其中,μ和σ分别是均值和方差,中心峰值x的坐标由μ给出,峰的宽度受σ控制,最大点在x=μ处,拐点为x=μ±σ。
在正态分布中,±1σ、±2σ、±3σ下的概率分别是68.3%、95.5%、99.73%,这三个概率为常用的概率值,建议读者记住这三个数。
此外,令μ=0,σ=1,高斯分布即简化为标准正态分布:
![](https://epubservercos.yuewen.com/738432/19391577501345406/epubprivate/OEBPS/Images/38937-00-040-1.jpg?sign=1739295297-lV3HQuMJnKEGRcfvlZTo1h7VY0ue4zKv-0-b6c54b7e5809020d6e2912055da5bf0f)
对概率密度函数高效求值:
![](https://epubservercos.yuewen.com/738432/19391577501345406/epubprivate/OEBPS/Images/38937-00-040-2.jpg?sign=1739295297-wHIlrndvwVeStCryzSdPtXMifkuveqKY-0-9b1b3b26548af7573c98c5289d5e429a)
其中,,通过参数β∈(0,∞)来控制分布精度。
1.5.3 何时采用正态分布
何时采用正态分布?实际上,如果缺乏分布规律的先验知识,不知选择何种形式,那么默认选择正态分布总是不会错的,理由如下。
(1)中心极限定理告诉我们,很多独立随机变量均近似服从正态分布,现实中很多复杂系统都可以被建模成正态分布的噪声,即使该系统可以被结构化分解。
(2)在具有相同方差的所有概率分布中,正态分布是不确定性最大的分布。换句话说,正态分布是对模型加入先验知识最少的分布。
正态分布可以推广到Rn空间,此时称为多维正态分布,其参数是一个正定对称矩阵∑,如下式所示:
![](https://epubservercos.yuewen.com/738432/19391577501345406/epubprivate/OEBPS/Images/38937-00-040-4.jpg?sign=1739295297-kDFs4s2CUBnAltvQCqiEbEXRQXo43p5K-0-321489e6ac608e3da0cd77cc5a4beef0)
对多维正态分布概率密度高效求值:
![](https://epubservercos.yuewen.com/738432/19391577501345406/epubprivate/OEBPS/Images/38937-00-040-5.jpg?sign=1739295297-SMuCrT8mG5QZrxkWrYoajVFHZmoFjW2H-0-0690c3ba280e79790fccc8f1ae8bf4a6)
此处,β是一个精度矩阵。
1.5.4 指数分布
在深度学习中,指数分布用来描述在x=0点处取得边界点的分布,指数分布定义如下:
![](https://epubservercos.yuewen.com/738432/19391577501345406/epubprivate/OEBPS/Images/38937-00-040-6.jpg?sign=1739295297-6tCoALPJcDsLKVbjWDJxSf7AUeJCTmE2-0-6e39baa64195b75d59e18cb50afcbb4a)
指数分布用指示函数来使x取负值时的概率为零。
1.5.5 Laplace分布
一个联系紧密的概率分布是Laplace分布(Laplace Distribution),它允许我们在任意一点μ处设置概率质量的峰值:
![](https://epubservercos.yuewen.com/738432/19391577501345406/epubprivate/OEBPS/Images/38937-00-041-1.jpg?sign=1739295297-P3cxLdyaOUsi52d6wpeE1n85Du6wkiA4-0-777781a6527c86bdd68f730efc1e2854)
1.5.6 Dirac分布和经验分布
Dirac分布可保证概率分布中的所有质量都集中在一个点上。Dirac分布的Dirac δ函数(也称为单位脉冲函数)定义如下:
![](https://epubservercos.yuewen.com/738432/19391577501345406/epubprivate/OEBPS/Images/38937-00-041-2.jpg?sign=1739295297-rJo6Wkj7KW1F61RTXuPdV172Wgq4GRxB-0-76b79a0892791f7e888c350932419c33)
Dirac分布经常作为经验分布(Empirical Distribution)的一个组成部分出现:
![](https://epubservercos.yuewen.com/738432/19391577501345406/epubprivate/OEBPS/Images/38937-00-041-3.jpg?sign=1739295297-aaFYz6ThGU8FJCaj2SheVHHtbkNcZWgy-0-a084a569455a18bb468b1a5f41a95b3f)
其中,m个点是给定的数据集,经验分布将概率密度
赋给了这些点。
当我们在训练集上训练模型时,可以认为从这个训练集上得到的经验分布指明了采样来源。
Dirac δ函数适用于连续型随机变量的经验分布。