初等概率论回顾——简单聊聊概率论在深度学习中的应用

在随机过程课中，我第一次接触到以测度为基础的高等概率论，在这个基础上我们定义了Poisson过程、Markov链、鞅(Martingale)等随机过程。这些随机过程对于现实世界乃至深度学习界的一些算法具有很强的意义，但在这篇文章中我们按下不表，我更想从初等概率论的角度出发，对初等概率论进行一些回顾，并试图以简单的语言描述一些初等概率论概念在深度学习算法中的应用。

随机变量及其特征

随机变量：设 $(\Omega,\mathcal{F},P)$ 是一个概率空间， $X$ 是定义在 $\Omega$ 上的实值函数。如果对任意实数 $x$ ， $\{X\leqslant x\}$ 是随机事件，即 $\{\omega: X(\omega)\leqslant x \} \in \mathcal{F}$ ，则称 $X$ 为随机变量. $P$ 也即是定义在可测空间 $(\Omega,\mathcal{F})$ 上的测度，对于每个 $\{\omega: X(\omega)\leqslant x \} \in \mathcal{F}$ ，定义 $P(X\leqslant x)$ 为概率。
分布函数： 设 $X$ 为一随机变量，则函数 $P(X\leqslant x)=F(x), -\infty <x< \infty$ 称为X的分布函数.
概率密度函数： 连续型随机变量 $X$ 有概率分布函数 $F(x)$ ，则 $F(x)$ 的导数 $f(x)=F'(x)$ 称为 $X$ 的概率密度函数.值得指出的是，连续型随机变量的概率密度不是唯一的，可以在至多可数无穷多个点上任意改变 $f(x)$ 的值.
正态分布： 若随机变量 $X$ 服从一个数学期望为 $\mu$ 、方差为 $\sigma ^{2}$ 的正态分布，则记为 $X \sim \mathcal{N}(\mu, \sigma^{2})$ 。其概率密度函数如下，期望值 $\mu$ 决定了其位置，其标准差 $\sigma$ 决定了分布的幅度。正态分布的概率密度函数曲线呈钟形，因此又称之为钟形曲线。当 $\mu = 0$ ，标准差 $\sigma = 1$ 时的正态分布是标准正态分布。

f(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\{\ -\frac{1}{2\sigma^2}(x-\mu)^2\}, -\infty<x<\infty

正态分布的线性函数仍为正态分布： 若 $X \sim \mathcal{N}(\mu, \sigma^{2})$ ， $Y=aX+b$ ，则 $Y \sim \mathcal{N}(a\mu+b, a^2\sigma^{2})$
卷积公式： 设随机变量 $Z=X_1+X_2$ ， $X_1,X_2$ 的概率密度函数为 $f_1,f_2$ ，则 $Z$ 的概率概率密度函数是 $\displaystyle f_Z(z) = \int_{-\infty}^{+\infty} f_1(x) f_2(z-x)dx = \int_{-\infty}^{+\infty} f_1(z-x) f_2(x)dx$
独立的正态分布的线性组合分布任然为正态分布： 设 $X_1\sim\mathcal{N}(\mu_1, \sigma_1^{2}) ,X_2\sim\mathcal{N}(\mu_2, \sigma_2^{2})$ ， $Y=X_1+X_2$ , $Z=X_1-X_2$ ，则 $Y\sim\mathcal{N}(\mu_1+\mu_2, \sigma_1^{2}+\sigma_2^{2})$ , $Z\sim\mathcal{N}(\mu_1-\mu_2, \sigma_1^{2}+\sigma_2^{2})$

目录

随机变量及其特征