假设有 k 个分布,它们的pdf分别为f1(x),f2(x),…,fk(x),支撑为 1,2,…,k ,均值为 μ1,μ2,…,μk ,方差为 σ21,σ22,…,σ2k ,正的混合概率 p1,p2,…,pk 且满足 p1+p2+⋯+pk=1 ,令 =∪ki=1i 且考虑函数
f(x)=p1f1(x)+p2f2(x)+⋯+pkfk(x)=∑i=1kpifi(x),x∈注意 f(x) 是非负的且在 (−∞,∞) 上积分为1;因此 f(x) 是某连续型随机变量 X 的pdf,X的均值为
E(X)=∑i=1kpi∫∞−∞xfi(x)dx=∑i=1kpiμi=μ¯即 μ1,μ2,…,μk 的加权平均,方差等于
var(X)=∑i=1kpi∫∞−∞(x−μ¯)2fi(x)dx=∑i=1kpi∫∞−∞[(x−μi)+(μi−μ¯)]2fi(x)dx=∑i=1kpi∫∞−∞(x−μi)2fi(x)dx+∑i=1kpi(μi−μ¯)2∫∞−∞fi(x)dx交叉相的积分为零。即
var(X)=∑i=1kpiσ2i+∑i=1kpi(μi−μ¯)2注意方差不单单是 k 个方差的加权平均,还包括一个正值,涉及到均值的加权方差。
注1:注意区分 k 个分布的混合与k个随机变量的混合 ∑aiXi 。
接下来介绍一些分布。首先是参数 α>0,β>0 的对数伽玛pdf,形式为
f1(x)={1Γ(α)βαx−(1+β)/β(logx)α−10x>1elsewhere用 logΓ(α,β) 表示该分布。
例1: 精算师发现对数伽玛与伽玛分布很适合为索赔分布建模。假设 X1 满足 logΓ(α1,β1) , X2 满足 Γ(α2,β2) ,混合概率为 p,(1−p) ,那么混合分布的pdf为
f(x)=⎧⎩⎨⎪⎪⎪⎪⎪⎪1−pβα22Γ(α2)xα2−1e−x/β2pβα11Γ(α1)(logx)α1−1x−(β1+1)/β1+1βα22Γ(α2)xα2−1e−x/β200<x≤11<xelsewhere假设 β1<2−1 ,该混合分布的均值与方差为
μσ2=p(1−β1)−α1+(1−p)α2β2=p[(1−2β1)−α1−(1−β1)−2α1]+(1−p)α2β22+p(1−p)[(1−β1)−α1−α2β2]2混合分布有时候也成为复合。进一步我们没必要限制在有限多个分布。如下面的例子所示,连续的加权函数可以替换 p1,p2,…,pk ;即积分替换求和符号。
例2: 令 Xθ 是参数为 θ 的泊松随机变量,对每个不同的 θ 值,我们想得到无限多个混合的泊松分布,我们取加权函数为 θ 的pdf,即参数为 α,β 的伽玛函数,对 x=0,1,2,… ,复合分布的pmf为
p(x)=∫∞0[1βαΓ(α)θα−1e−θ/β][θxe−θx!]dθ=1Γ(α)βαx!∫∞0θα+x−1e−θ(1+β)/βdθ=Γ(α+x)βxΓ(α)x!(1+β)α+x其中第三行使用了变换替换 t=θ(1+β)/β 。
当 α=r,β=(1−p)/p 其中 0<p<1,r 为正整数时,pmf变成
p(x)=(r+x−1)!(r−1)!pr(1−p)xx!, x=0,1,2,…这个复合分布就是成功概率为 p 的独立重复试验成功次数超过r的概率;这是负二项分布的形式,在车祸数量的问题中负二项分布是很好的模型。
在复合分布中,我们也可以将 X 的原分布看成给定θ的条件分布,用 f(x|θ) 表示,那么加权函数可以看成 θ 的pdf g(θ) 。联合pdf为 f(x|θ)g(θ) 且复合pdf可以看成 θ 的边缘pdf
h(x)=∫θg(θ)f(x|θ)dθ当 θ 是离散分布时积分符号改成求和符号。假设正态分布的均值为0方差为 σ2=1/θ>0 ,其中 θ 来自某个随机模型。方便起见,我们说后者为参数 α,β 的伽玛分布,那么给定 θ,X 是条件 N(0,1/θ) 分布,使得 X,θ 的联合分布为
f(x|θ)g(θ)=[θ√2π‾‾‾√exp(−θx22)][1βαΓ(α)θα−1exp(−θ/β)]其中 −∞<x<∞,0<θ<∞ ,因此 (h(x)) 的边缘pdf通过积分 θ 即可求出;即
h(x)=∫∞0βα+1/2−1βα2π‾‾‾√Γ(α)exp[−θ(x22+1β)]dθ通过比较参数 α+12,[(1/β)+(x2/2)]−1 的伽玛pdf,我们可以得到
h(x)=Γ(α+12)βα2π‾‾‾√Γ(α)(2β2+βx2)α+1/2, ∞<x<∞有趣的是如果 α=r/2,β=2/r ,其中 r 为正整数,那么X就是自由度为 r 的t分布,即我们得到了 t 分布的推广形式。注意得出的分布相比开始的条件正态分布有更严重的厚尾现象。
例3:假设我们有一个二项分布,但是我们不确定成功的概率 p 。假设p来自某个随机过程,它满足参数 α,β 的贝塔pdf,那么 n 个独立试验成功的次数X满足条件二项分布,使得 X,p 的联合pdf为
p(x|p)g(p)=n!x!(n−x)!px(1−p)n−xΓ(α+β)Γ(α)Γ(β)pα−1(1−p)β−1其中 x=0,1,…,n,0<p<1 。那么 X 的无条件pdf为 h(x)=∫10n!Γ(α β)x!(n−x)!Γ(α)Γ(β)px α−1(1−p)n−x β−1dp=n!Γ(α β)Γ(x α)Γ(n−x β)x!(n−x)!Γ(α)Γ(β)Γ(n α β),x=0,1,2,…,n
现在假设 α,β 是正整数;因为 Γ(k)=(k−1)! ,这个无条件pdf可以写成
h(x)=n!(α+β−1)!(x+α−1)!(n−x+β−1)!x!(n−x)!(α−1)!(β−1)!(n+α+β−1)!,x=0,1,2,…,n因为条件均值 E(X|p)=np ,无条件均值为 nα/(α+β) ,这是因为贝塔分布的均值等于 α/(α+β) 。
例4: 假设 X 满足参数为k,θ−1的条件伽玛pdf, θ 的加权函数是参数为 α,β 的伽玛pdf,所以 X 的无条件pdf为 h(x)=∫∞0[θα−1e−θ/ββαΓ(α)][θkxk−1e−θxΓ(k)]dθ=∫∞0xk−1θα k−1βαΓ(α)Γ(k)e−θ(1 βx)/βdθ
比较参数为 α+k,β/(1+βx) 的伽玛pdf,从而得到
h(x)=Γ(α+k)βkxk−1Γ(α)Γ(k)(1+βx)α+k, 0<x<∞这是广义的 Pareto 分布(广义 F 分布),当然当k=1( X 是条件指数分布),那么pdf为 h(x)=αβ(1 βx)−(α 1),0<x<∞
这是 Pareto pdf。这两个复合pdf都比开始的伽玛分布有严重的厚尾。
广义 Pareto 分布无法用简单的闭形式表达,但是 Pareto 分布可以
H(x)=∫x0αβ(1+βt)−(α+1)dt=1−(1+βx)−α, 0≤x<∞从中我们通过 X=Yτ 可以得到另一种有用的长尾分布,其中 0<τ ,所以 Y 的cdf为 G(y)=P(Y≤y)=P[X1/τ≤y]=P[X≤yτ]
因此,这个概率等于
G(y)=H(yτ)=1−(1+βyτ)−α,0≤y<∞对应的pdf为
G′(y)=g(y)=αβτyτ−1(1+βyτ)α+1,0<y<∞我们称这个分布为变换 Pareto 分布或者 Burr 分布,它给出了建模厚尾分布的分布。