考研网

概率论考研(概率论考研真题)

概率论考研,概率论考研真题

如果已经知道了随机变量的分布,那么我们对于随机变量取值的状况就已经有了规律性的了解。但是,概率分布是个函数,要想抓住一个函数的状况是很不容易的。比如公司领导问你:“昨日深圳A股状况如何?”你说:“我这里有股市日报,昨日所有几千份A股的价格全在里面列出了。”这样的回答当然不能令人满意。你至少要说“昨日深A指数是12789,比前天上涨了0.38%”等等。换言之,你总要把一大堆数字归纳成几个特别有代表性的数字,用以代表总的状况。又例如,你在自由市场上买了一堆河虾,你可以说:“这些河虾平均每斤50头,个头虽不大,但还算整齐”。这里就是至少提供了两方面的信息:平均值如何,分散程度如何。从统计学的理论描述上来讲,这就是“平均值”和“方差”两个基本概念。当然,描述平均状况和分散状况的量还不止这两个,以后还会陆续介绍。

一、随机变量的均值

随机变量最重要的特征就是平均值(mean)。用E(X)来代表随机变量X的数学期望或平均值,有时也可以简化用单一的希腊字母μ来表示。平均值有时也简称为均值。对于离散型或连续型随机变量,E(X)的定义很不相同。下面分别讲述。

1.离散型随机变量的均值

我们先举一个例子说明究竟应该怎样计算平均值。假设一个班,在数学考试中,考试成绩如下(这里为了集中精力思考概念,例子已作了简化)。


这两种算法结果当然应该相同,但是后一种计算方法有更明确的概率的含义。也就是说,只要将所取的值与取此值的比率相乘再相加,就可以得到平均值。利用与此相似的方法就可以得到随机变量的平均值。

2.连续型随机变量的期望值

对于连续型随机变量的分布,我们可以用分布密度p(x)(或f(x))来表示。如果分有密度的图形已经给定,可以仿照离散型随机变量求质心的思想给出均值的定义。我们设想以分布密度曲线作为上边界,横轴作为下边界,这样形成一块薄板。如何求这块薄板的质心呢?

二、随机变量的方差

对于一个随机变量的分析,了解其均值当然是重要的。但仅知道均值是远远不够的。“一个社区内每户平均月收入为3000元”是否说明本区内收入状况不错了呢?那要看各户收入之间的差别波动大不大。为了度量这种波动,可以有多种计算方法。计算出随机变量的方差(variance)是最重要的一种。它的定义是随机变量与其均值之差的平方的平均值。用数学公式来写就是下述 公式:

方差的物理意义也是很明显的,随机变量的均值是该密度图形质心的横坐标,方差则代表该密度图形绕质心的转动惯量。“转动惯量”的含义:方差越大,代表数据越分散;方差越小,代表数据越集中。

但方差有个先天性缺点。大家知道,均值的量纲与原随机变量X的量纲[X]是一致的:而方差的量纲则是X量纲的平方,即为[X],这使得理解起来不够直观。为此我们引入标准差(standard deviation)的概念,它常用希腊字母σ(读音为“西格玛”)表示。

以上给出的计算随机变量方差公式对于连续型或离散型随机变量都是相同的,但具体求法却不完全相同。

三、随机变量的偏度与锋度

只用反映位置状况和离散程度的参数来描述随机变量的分布仍然不够完善。如果能增加有反映随机变量分布形状的参数配合前两者,将更能完整地呈现随机变量分布的特性。偏度和峰度是最常用的两个度量数据分布形状的参数。

1.偏度

偏度是对随机变量分布不对称性的度量,用β3表示。其计算公式为:

2.峰度

峰度度量随机变量分布中间部分的陡峭程度及两端尾部的厚重程度,也可以简单地当作分布平坦性的度量,用βk表示,计算公式为:

四、随机变量的累积分布函数及分位数概念

对于随机变量的数字特征,除了常用的均值及方差之外还有很多。为了将来计算这些数字特征,也为了计算随机变量取值的概率,有必要先引入累积分布函数的概念。

1.随机变量的累积分布函数

我们以连续随机变量为例。当分布密度p(x)给定之后,我们可以直观看到随机变量取值的规律,看到哪个部分概率大,哪个部分概率小。但是如果我们真的要求出落入某范围内的概率,则要用定积分求出面积才行。一般说来,求积分是很困难的,有些甚至是不可能的(例如,正态概率密度的积分就得不出普通的初等函数)。为了能顺利计算出落入任意一个区间的概率,我们引入累积分布函数概念,这就使计算概率的工作变得非常简单。

我们用F(x)代表累积分布函数或简称为分布函数。对于任意指定的x值,累积分布函数F(x)代表随机变量落入其左方的概率。

2.随机变量的分位数

在实际工作中,常听说“长江三峡大坝可以抵御长江百年一遇的洪水”。那么“百年一遇”是什么意思呢?有人说:“这很简单,将100年的水位记录下来,最大的水位就是百年一遇水位。”可是这就有个理论上的矛盾,如果有连续两个“百年水位记录”,它们这两组数的最大值不一样(很可能这样),那又该认定哪个值呢?如果有连续十个“百年水位记录”,它们这十组数都各自有自己“百年一遇”值(即各自的最大值),那么又从哪里能得到“千年一遇”值呢?看来这样规定是有毛病的。

如果得到年最高水位X的分布函数,取这样的一个数:随机变量X的取值比它大的概率正好是1/100时,则此数被称为“百年一遇”值。更一般的说法是:随机变量X的取值比它大的概率正好是1/T时,则此数被称为“T年一遇”值。

3.随机变量的中位数

如果p取为0.5,此数特别重要,xa.5被称为中位数,常用m表示。其含义是随机变量X取值中,有一半比m要小,另一半比m要大。画成图,则可以看到,它恰好将全部概率分为两半的位置。显然中位数与平均值是两个不同的概念。如果分布图形,大尾巴在右边,大头在左侧(以后可知这叫“正偏分布”),从重心的概念出发,很容易知道“中位数肯定要比均值小些”。如果分布基本对称,中位数则应该与均值相等。

为什么一定会有这样的结论呢?初中物理告诉我们物体重心的概念。如果一根电杆,悬线可以确定重心的位置,如果用锯沿重心点切开,左右两半的重量相等吗?

4.随机变量的四分位数及四分位数间距

如果p取为0.25或0.75,相当于把整个范围按概率分为相等的四部分,这样的数被称为四分位数(quantile),这两个数也很重要:xo.25被称为下四分位数(lower quantile,LQ)或第一四分位数(first quantile,Q1);xo.75被称为上四分位数(upper quantile,UQ)或第三四分位数(third quantile,Q3)。这两个四分位数连同中位数,都是度量随机变量的位置状况的。其中LQ与UQ所界定的范围内,将包含约一半的数据,常用来表示数据的主体部分。

两个四分位数之间的距离是描述随机变量离散状况的非常重要的参数。它被称为四分位间距(inter quantile range,IQR),它的定义就是:IQR = UQ-LQ。

不论分布状况如何不规则或偏斜,IQR总能代表位于中间部位的一半数据的变动范围,因此它的大小可以代表分布的分散程度:IQR越大,则随机变量分布越分散。这个参数对于各种分布(特别是非正态或非对称分布)的应用是很广泛的。




天行健咨询16年来专注提供精益生产管理、精益设计、六西格玛、精益六西格玛、六西格玛设计(DFSS)、TRIZ研发管理等公开课培训、企业内训、项目辅导咨询服务!

概率论考研(概率论考研真题)
赞 ()
分享到:更多 ()
留言与评论(共有 0 条评论)
   
验证码: