请输入您要查询的百科知识:

 

词条 概率分布
释义

概率分布是概率论的基本概念之一,用以表述随机变量取值的概率规律。为了使用的方便,根据随机变量所属类型的不同,概率分布取不同的表现形式。

事件

必然现象与随机现象

在自然界与生产实践和科学试验中,人们会观察到各种各样的现象,把它们归纳起来,大体上分为两大类:一类是可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果总是确定的,必然发生(或必然不发生)。例如,在标准大气压下,水加热到100℃必然沸腾;步行条件下必然不可能到达月球等。这类现象称为必然现象(inevitablephenomena)或确定性现象(definitephenomena)。另一类是事前不可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果未必相同。例如,掷一枚质地均匀对称的硬币,其结果可能是出现正面,也可能出现反面;孵化6枚种蛋,可能“孵化出0只雏”,也可能“孵化出1只雏”,…,也可能“孵化出6 只雏”,事前不可能断言其孵化结果。这类在个别试验中其结果呈现偶然性、不确定性现象,称为随机现象(random phenomena)或不确定性现象(indefinite phenomena)

人们通过长期的观察和实践并深入研究之后,发现随机现象或不确定性现象,有如下特点:在一定的条件实现时,有多种可能的结果发生,事前人们不能预言将出现哪种结果;对一次或少数几次观察或试验而言,其结果呈现偶然性、不确定性;但在相同条件下进行大量重复试验时,其试验结果却呈现出某种固有的特定的规律性——频率的稳定性,通常称之为随机现象的统计规律性。例如,对于一头临产的妊娠母牛产公犊还是产母犊是事前不能确定的,但随着妊娠母牛头数的增加,其产公犊、母犊的比例逐渐接近1:1的性别比例规律。概率论与数理统计就是研究和揭示随机现象统计规律的一门科学。

随机试验与随机事件

1.随机试验 通常我们把根据某一研究目的,在一定条件下对自然现象所进行的观察或试验统称为试验(trial)。而一个试验如果满足下述三个特性,则称其为一个随机试验(random trial),简称试验:

(1)试验可以在相同条件下多次重复进行

(2)每次试验的可能结果不止一个,并且事先知道会有哪些可能的结果

(3)每次试验总是恰好出现这些可能结果中的一个,但在一次试验之前却不能肯定这次试验会出现哪一个结果。

如在一定孵化条件下,孵化6枚种蛋,观察其出雏情况;又如观察两头临产妊娠母牛所产犊牛的性别情况,它们都具有随机试验的三个特征,因此都是随机试验。

2.随机事件随机试验的每一种可能结果,在一定条件下可能发生,也可能不发生,称为随机事件(random event),简称事件(event),通常用A、B、C等来表示。

(1)基本事件我们把不能再分的事件称为基本事件(elementary event),也称为样本点(sample point)。例如,在编号为1、2、3、…、10的十头猪中随机抽取1头,有10种不同的可能结果:“取得一个编号是1”、“取得一个编号是2”、…、“取得一个编号是10”,这10个事件都是不可能再分的事件,它们都是基本事件。由若干个基本事件组合而成的事件称为复合事件(compound event)。如“取得一个编号是2的倍数”是一个复合事件,它由“取得一个编号是2”、“是4”、“是6、“是8”、“是10”5个基本事件组合而成。

(2)必然事件我们把在一定条件下必然会发生的事件称为必然事件(certain event),用Ω表示。例如,在严格按妊娠期母猪饲养管理的要求饲养的条件下,妊娠正常的母猪经114天左右产仔,就是一个必然事件。

(3)不可能事件我们把在一定条件下不可能发生的事件称为不可能事件(impossible event),用ф表示。例如,在满足一定孵化条件下,从石头孵化出雏鸡,就是一个不可能事件。

必然事件与不可能事件实际上是确定性现象,即它们不是随机事件,但是为了方便起见,我们把它们看作为两个特殊的随机事件。

概率

概率的统计定义

研究随机试验,仅知道可能发生哪些随机事件是不够的,还需了解各种随机事件发生的可能性大小,以揭示这些事件的内在的统计规律性,从而指导实践。这就要求有一个能够刻划事件发生可能性大小的数量指标,这指标应该是事件本身所固有的,且不随人的主观意志而改变,人们称之为概率(probability)。事件A的概率记为PA)。下面我们先介绍概率的统计定义。

在相同条件下进行n次重复试验,如果随机事件A发生的次数为m,那么m/n称为随机事件A的频率(frequency);当试验重复数n逐渐增大时,随机事件A的频率越来越稳定地接近某一数值p,那么就把p称为随机事件A的概率。这样定义的概率称为统计概率(statistics probability),或者称后验概率(posterior probability)

例如为了确定抛掷一枚硬币发生正面朝上这个事件的概率,历史上有人作过成千上万次抛掷硬币的试验。在表4—1中列出了他们的试验记录。

表4—1 抛掷一枚硬币发生正面朝上的试验记录

实验者 投掷次数 发生正面朝上的次数 频率(m/n

蒲丰 4040 2048 0.5069

k皮尔逊 12000 6019 0.5016

k皮尔逊 24000 12012 0.5005

从表4-1可看出,随着实验次数的增多,正面朝上这个事件发生的频率越来越稳定地接近0.5,我们就把0.5作为这个事件的概率。

在一般情况下,随机事件的概率p是不可能准确得到的。通常以试验次数n充分大时随机事件A的频率作为该随机事件概率的近似值。

P(A=p≈m/nn充分大) (4-1)

概率的古典定义

上面介绍了概率的统计定义。但对于某些随机事件,用不着进行多次重复试验来确定其概率,而是根据随机事件本身的特性直接计算其概率。

有很多随机试验具有以下特征:

1.试验的所有可能结果只有有限个,即样本空间中的基本事件只有有限个

2.各个试验的可能结果出现的可能性相等,即所有基本事件的发生是等可能的;

3.试验的所有可能结果两两互不相容。

具有上述特征的随机试验,称为古典概型(classical model)。对于古典概型,概率的定义如下:

设样本空间由n个等可能的基本事件所构成,其中事件A包含有m个基本事件,则事件A的概率为m/n,即

P(A=m/n (4-2)

这样定义的概率称为古典概率(classical probability)或先验概率(prior probability)。

【例4.1】在编号为1、2、3、…、10的十头猪中随机抽取1头,求下列随机事件的概率。

(1)A=“抽得一个编号≤4”

(2)B=“抽得一个编号是2的倍数”。

因为该试验样本空间由10个等可能的基本事件构成,即n=10,而事件A所包含的基本事件有4个,既抽得编号为1,2,3,4中的任何一个,事件A便发生,即mA=4,所以

P(A)=mA/n=4/10=0.4

同理,事件B所包含的基本事件数mB=5,即抽得编号为2,4,6,8,10中的任何一个,事件B便发生,故P(B)=mB/n=5/10=0.5。

【例4.2】在N头奶牛中,有M头曾有流产史,从这群奶牛中任意抽出n头奶牛,试求:

(1)其中恰有m头有流产史奶牛的概率是多少?

(2)若N=30,M =8,n =10,m =2,其概率是多少?

我们把从有M头奶牛曾有流产史的N头奶牛中任意抽出n头奶牛,其中恰有m头有流产史这一事件记为A,因为从N头奶牛中任意抽出n头奶牛的基本事件总数为,事件A 所包含的基本事件数为,因此所求事件A的概率为

=

N=30,M =8,n =10,m =2代入上式,得

= = 0.0695

即在30头奶牛中有8头曾有流产史,从这群奶牛随机抽出10头奶牛其中有2头曾有流产史的概率为6.95%。

概率的性质

根据概率的定义,概率有如下基本性质:

1.对于任何事件A,有0≤P(A≤1

2.必然事件的概率为1,即PΩ)=1

3.不可能事件的概率为0,即P(ф)=0。

小概率事件实际不可能性原理

随机事件的概率表示了随机事件在一次试验中出现的可能性大小。若随机事件的概率很小,例如小于0.05、0.01、0.001,称之为小概率事件。小概率事件虽然不是不可能事件,但在一次试验中出现的可能性很小,不出现的可能性很大,以至于实际上可以看成是不可能发生的。在统计学上,把小概率事件在一次试验中看成是实际不可能发生的事件称为小概率事件实际不可能性原理,亦称为小概率原理。小概率事件实际不可能性原理是统计学上进行假设检验(显著性检验)的基本依据。

概率分布

事件的概率表示了一次试验某一个结果发生的可能性大小。若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即必须知道随机试验的概率分布(probability distribution)。为了深入研究随机试验,我们先引入随机变量(random variable)的概念。

随机变量

作一次试验,其结果有多种可能。每一种可能结果都可用一个数来表示,把这些数作为变量x的取值范围,则试验结果可用变量x来表示。

【例4.3】对100头病畜用某种药物进行治疗,其可能结果是“0头治愈”、 “1头治愈”、“2头治愈”、“…”、“100头治愈”。若用x表示治愈头数,则x的取值为0、1、2、…、100。

【例4.4】孵化一枚种蛋可能结果只有两种,即“孵出小鸡”与“未孵出小鸡”。若用变量x表示试验的两种结果,则可令x=0表示“未孵出小鸡”,x=1表示“孵出小鸡”。

【例4.5】测定某品种猪初生重,表示测定结果的变量x所取的值为一个特定范围(a,b),如0.5―1.5kg,x值可以是这个范围内的任何实数。

如果表示试验结果的变量x,其可能取值至多为可列个,且以各种确定的概率取这些不同的值,则称x为离散型随机变量(discrete random variable);如果表示试验结果的变量x,其可能取值为某范围内的任何数值,且x在其取值范围内的任一区间中取值时,其概率是确定的,则称x为连续型随机变量(continuous random variable)。引入随机变量的概念后,对随机试验的概率分布的研究就转为对随机变量概率分布的研究了。

离散型随机变量的概率分布

要了解离散型随机变量x的统计规律,就必须知道它的一切可能值xi及取每种可能值的概率pi

如果我们将离散型随机变量x的一切可能取值xi (i=1,2,…),及其对应的概率pi,记作

P(x=xi)=pi i=1,2,… (4—3)

则称(4—3)式为离散型随机变量x的概率分布或分布。常用分布列(distribution series)来表示离散型随机变量:

x1 x2… xn …。

p1 p2… pn …

显然离散型随机变量的概率分布具有pi≥0和Σpi=1这两个基本性质。

连续型随机变量的概率分布

连续型随机变量(如体长、体重、蛋重)的概率分布不能用分布列来表示,因为其可能取的值是不可数的。我们改用随机变量x在某个区间内取值的概率P(ax<b)来表示。下面通过频率分布密度曲线予以说明。

由表2—7作126头基础母羊体重资料的频率分布直方图,见图4—1,图中纵座标取频率与组距的比值。可以设想,如果样本取得越来越大(n→+∞),组分得越来越细(i→0),某一范围内的频率将趋近于一个稳定值──概率。这时,频率分布直方图各个直方上端中点的联线──频率分布折线将逐渐趋向于一条曲线,换句话说,当n→+∞、i→0时,频率分布折线的极限是一条稳定的函数曲线。对于样本是取自连续型随机变量的情况,这条函数曲线将是光滑的。这条曲线排除了抽样和测量的误差,完全反映了基础母羊体重的变动规律。这条曲线叫概率分布密度曲线,相应的函数叫概率分布密度函数。若记体重概率分布密度函数为f(x),则x取值于区间[a,b)的概率为图中阴影部分的面积,即

图4-1表2-7资料的分布曲线

(4—4)式为连续型随机变量x在区间[a,b)上取值概率的表达式。可见,连续型随机变量的概率由概率分布密度函数确定。此外,连续型随机变量概率分布还具有以下性质:

1.分布密度函数总是大于或等于0,即f(x)≥0

2.当随机变量x取某一特定值时,其概率等于0

3.在一次试验中随机变量x之取值必在-∞<x<+∞范围内,为一必然事件。

正态分布

正态分布是一种很重要的连续型随机变量的概率分布。生物现象中有许多变量是服从或近似服从正态分布的,如家畜的体长、体重、产奶量、产毛量、血红蛋白含量、血糖含量等。许多统计分析方法都是以正态分布为基础的。此外,还有不少随机变量的概率分布在一定条件下以正态分布为其极限分布。因此在统计学中,正态分布无论在理论研究上还是实际应用中,均占有重要的地位。

正态分布的概率计算

关于正态分布的概率计算,我们先从标准正态分布着手。这是因为,一方面标准正态分布在正态分布中形式最简单,而且任意正态分布都可化为标准正态分布来计算;另一方面,人们已经根据标准正态分布的分布函数编制成正态分布表(附表1)以供直接查用。

标准正态分布的概率计算

u服从标准正态分布,则u在[u1,u2]内取值的概率为:而Φ(u1)与Φ(u2)可由附表1查得。

附表1只对于-4.99≤u<4.99给出了Φ(u)的数值。表中,u值列在第一列和第一行,第一列列出u的整数部分及小数点后第一位,第一行为u的小数点后第二位数值。例如,u=1.75,1.7放在第一列,0.05放在第一行。在附表1中,1.7所在行与0.05 所在列相交处的数值为0.95994,即Φ(1.75)=0.95994。有时会遇到给定Φ(u)值,例如Φ(u)=0.284,反过来查u值。这只要在附表1中找到与0.284最接近的值0.2843,对应行的第一列数-0.5, 对应列的第一行数值0.07,即相应的u值为u=-0.57,亦即Φ(-0.57)=0.284。如果要求更精确的u值,可用线性插值法计算。

表中用了象。02336,.97674这种写法,分别是0.0002326和0.9997674的缩写,0表示连续3个0,9表示连续3个9。

由(4-11) 式及正态分布的对称性可推出下列关系式,再借助附表1,便能很方便地计算有关概率:

P(0≤u<u1)=Φ(u1)-0.5

P(uu1) =Φ(-u1)

P(|u|≥u1)=2Φ(-u1) (4-12)

P(|u|<u1)=1-2Φ(-u1)

P(u1u<u2)=Φ(u2)-Φ(u1)

【例4.6】已知u~N(0,1),试求:(1)P(u<-1.64)=? (2)P (u≥2.58)=? (3) P (|u|≥2.56)=?(4) P(0.34≤u<1.53) =?

利用(4-12)式,查附表1得:

(1) P(u<-1.64)=0.05050

(2) P (u≥2.58)=Φ(-2.58)=0.024940

(3) P (|u|≥2.56)=2Φ(-2.56)=2×0.005234=0.010468

(4) P (0.34≤u<1.53)=Φ(1.53)-Φ(0.34)=0.93669-0.6331=0.30389

关于标准正态分布,以下几种概率应当熟记:

P(-1≤u<1)=0.6826

P(-2≤u<2)=0.9545

P(-3≤u<3)=0.9973

P(-1.96≤u<1.96)=0.95

P (-2.58≤u<2.58)=0.99


u变量在上述区间以外取值的概率分别为:

P(|u|≥1)=2Φ(-1)=1-P(-1≤u<1)=1-0.6826=0.3174

P(|u|≥2)=2Φ(-2)=1-P(-2≤u<2)=1-0.9545=0.0455

P(|u|≥3)=1-0.9973=0.0027

P(|u|≥1.96)=1-0.95=0.05

P(|u|≥2.58)=1-0.99=0.01

随便看

 

百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。

 

Copyright © 2004-2023 Cnenc.net All Rights Reserved
更新时间:2024/11/16 12:26:52