设XXX是一个真实但分布未知的高维随机向量,记为X∼p∗(X)X\sim p^∗(X)X∼p∗(X)。我们收集了独立同分布的数据集DDD,我们选择带有参数θθθ的模型pθ(X)p_θ (X)pθ(X),假设数据XXX是离散的,则log-likehood(log似然)的目的等效于最小化下面的公示:
L(D)=1N∑i=1N(−logpθ(X(i)))L(D)=\frac{1}{N}\sum_{i=1}^{N}(-logp_\theta(X^{(i)}))L(D)=N1i=1∑N(−logpθ(X(i)))
大多数的基于流的生成模型,其过程可以定义为:
z∼pθ(z)z\sim p_θ(z)z∼pθ(z)
x=gθ(z)x=g_θ (z)x=gθ(z)
zzz是潜在变量,pθ(z)p_θ (z)pθ(z)是一个简单的概率密度,比如球形高斯:pθ(z)=N(z;0,I)p_θ (z)=N(z;0,I)pθ(z)=N(z;0,I)
函数gθg_θgθ是可逆的,也叫双射,给一个数据xxx,潜变量可以通过z=fθ(x)=gθ−1(x)z=f_θ (x)=g_θ^{−1} (x)z=fθ(x)=gθ−1(x)
为了简便,下面我们将省略下标θθθ
我们假设函数fff由一系列的转换组成:f=f1∘f2∘⋅⋅⋅∘fnf=f_1 \circ f_2 \circ ··· \circ f_nf=f1∘f2∘⋅⋅⋅∘fn,如此xxx和zzz的关系可以描述为:
这样一个可逆变换的序列也可以被称为(正则化)流,