登录 | 注册
不要跟着感觉走,经验、直觉靠不住,要相信数学、概率统计
严酷的魔王 发表于 2011-07-15 16:42本文作者:严酷的魔王
对于概率和统计的不确定性,我们始终有足够的直觉。虽然如此,这依旧远远不够,多数人对概率的理解其实并不充分。要知道这是一个数学家稍有闪失就会错的一塌胡涂的领域,原因很多时候正是我们的直觉,而正确结论却与之相悖。我们不妨来看看几个概率统计中的奇妙结论,这也正是概率统计这门学科的魅力所在。
在单位圆内随机地取一条弦,其长超过该圆内接等边三角形的边长√3的概率等于多少?
这个问题看似简单,结果却让人大跌眼镜。我们可以用三个完全正确的方法,得到三个完全不同的答案!
1.将弦的一段固定在等边三角形的某一个顶点上,然后另一端绕着圆周旋转。可以在图一中发现,只有当另一端点位于上方的圆弧时,这条弦的长度才会超过三角形的边长,由此可得所求概率为1/3。
2.根据几何学原理,圆内弦的长度与弦到圆心的距离有关。从图二可以看出,当弦心距小于1/2时,这条弦的长度大于三角形边长,所以这样求出的概率为1/2。
3.再来考虑一条弦的中点,根据图三可以得出:只有当弦的中点位于半径为1/2的小圆内部时这条弦的长度才满足要求,同时因为这个小圆的面积是大圆的1/4,所以所求概率也是1/4。
你能说出到底哪种方法是错的吗?如果它们都是对的,那么这样的一道客观题又怎么会有三个不同的答案呢?
其实这三种说法都是正确的。但是它们的结果之所以不同,只是因为它们各自对问题的理解不同,采用了不同的等可能性假定。在第一种方法中,我们默认的假设是“圆内弦的端点在圆周上是均匀分布的”;在第二种方法中,我们默认的是“圆内弦到圆心的距离是均匀分布的”;第三种方法默认的假设则是“圆内弦的中点在整个圆的内部是均匀分布的”。这三种假设对应着三种不同的求解方法。
需要说的是,随意指责哪个假设是不合理的有所不妥,因为它们都是有依据的。不妥的地方在问题本身,这个问题问的并不严谨,没有对问题中的“基本空间”进行定义,导致在解题人求解时只能够依靠自己的理解补充解题所需条件。如此一来,一问三解就不足为怪了。
上述问题被称为“贝特朗奇论”,是数学家贝特朗在上世纪初提出来的,用于批判当时尚不严谨的概率论。也正是在贝特朗工作的推动下,此后概率论的研究开始向公理化方向发展。
据说,1881年天文学家西蒙•纽康伯发现对数表以1起首的数所在的那几页较其他页破烂,由此他怀疑以1开头的数字就是比其他数多,大量统计之后发现果真如此。这个故事的真实性已无从考究,不过它可能是本福特法则第一次被注意到。
所谓本福特法则,是指在一堆从实际生活得出的数据中,以1为首位数字的数的出现概率约为总数的三成,是人们通常期望值1/9的3倍,它的确切值等于lg2,而越大的数字,以它为首位的数出现的机率就越低。更一般地,我们能够说明在r进制中,以n开头的数字出现的概率是 log r (n+1)- log r (n)。根据这个公式,可以制作出十进制下数字1~9开头的概率表:
开头 1 2 3 4 5 6 7 8 9 概率 30.1% 17.6% 12.5% 9.7% 7.9% 6.7% 5.8% 5.1% 4.6%这个神奇的法则几乎完全违背了人们的直觉:哪个数字开头的概率不应该是一样的嘛!
维基百科上对此有个简单的解释:就数数而言,从1开始,历经1,2,3,...,9,到这点终结的话,以哪个数起首的几率是相同的,但9之后是10至19,到这里以1起首的数出现的几率又大大高于了其他的数。而在下一堆9起首的数出现之前,必然会经过一堆以2,3,4,...,8起首的数。如果这种数法一旦有个终结点,以1起首的数的出现率一般都会比9大。
也就是说,我们平时认为的“以1开头和以9开头的数字一样多”这种情况,实际只有在[1,999]此类区间里才会出现。任意给一个区间,由于样本的不完整性,基本不可能出现这种情况。从这里也可以看出,要想使得本福特法则生效,便不能对数字的区间范围进行明确的规定。
说到这里,大家自然会进而关心本福特法则在实际生活中的应用。我们可以在 这个页面 下方列出的表格中看到,不论是各国人口数量还是门牌号码都基本服从本福特法则,而且这些统计得到的结果和理论预测值的误差也很小。从而这些生活中的实例也说明了以1开头的数字确实是最多的,死理性派对此曾有过 详细的介绍 。
这个法则最经典和广泛的应用是验证统计数据真伪。如果一个包含了几千个数字的样本居然完全不服从本福特法则,那么你可要小心了,这个样本很有可能是伪造的。而除此之外,本福特法则在会计、股票甚至是选举领域也有着重要的应用。
你是广交朋友的闪亮交际明星还是人际贫瘠的宅男?也许这个问题刺痛了许多不善交际的技术男的心:总能看到某个朋友每天应酬繁多、应接不暇,而自己的手机却常年不响一声。
实际上几乎每个人都会觉得朋友的朋友总是比自己的多。换句话说就是自己的朋友数,几乎总是小于自己所有朋友的朋友数的平均值。
这个结论看上去很违背直觉:如果我是某个人的朋友,那个人必然也会是我的朋友,友谊是双向的,所以我们会经验的认为整个数据是平均分布的,任何人的朋友数和他的朋友比起来应当差不多。怎么可能他们的平均朋友数会比我们自己的多呢?然而这却是事实,或者唯一的安慰是一切与你无关,这不过是一个不寻常的统计学案例。
我们不妨看看下面的这个例子。
上图是八个女孩之间的朋友关系图,其中标注了每个人的名字、朋友数和她的朋友的平均朋友数(括号内的数字)。可以发现,只有Sue和Alice两个人的朋友数比她们朋友的平均朋友数要多。如果对所有括号里的数求均数,得到的结果约为2.98;但是这八个人的平均朋友数是2.5(10条关系线×2,除以人数8)。群体中所有人朋友的朋友平均数大于群体所有人的朋友平均数,这是为什么呢?
其实这个看起来有些不可思议的结论可以这样解释:有一百个人,他们都能有一个拥有一百个朋友的朋友,但是只有一个人,能有一个只有一个朋友的朋友。这句话算不上严谨,而且很绕口,但是实际上它传达了这样的意思:在计算“朋友的朋友”这个过程中,一个人拥有越多朋友则越容易被重复计算进来。比如在上图中,Sue有四个朋友,那么“Sue拥有四个朋友”这个条件在Sue的四个朋友分别计算自己的“朋友的朋友数”时,就被重复使用了四次。
让我们来做一个简单的数学推理:设群体总人数为n,第i个人的朋友数为Fi,那么群体所有人的朋友均数就是( ∑ Fi )/n。至于所有人“朋友的朋友”则一共有 ∑ Fi 个样本(把每个人的朋友列举一遍),又因为第i个人的朋友数会被重复计算Fi次,所以群体中所有人“朋友的朋友”的总数为 ∑ Fi 2 。于是其朋友的平均朋友数就是(∑ Fi 2 )/( ∑ Fi )。根据均值不等式的变形可知,( ∑ Fi 2 )/( ∑ Fi )≥( ∑ Fi )/n。如此一来我们就证明了在朋友圈里,朋友的平均朋友数不小于每个人的朋友均数。更精确地描述就是:
朋友的朋友均数=朋友均数+朋友数方差/朋友均数
当然,大家即便知道了这个事实也请不要灰心,你的朋友看起来总是拥有比你更多的朋友,其实只是某几个人际交往明星从中作梗,让你产生了这种错觉而已。
在数学中没有任何一个其他分支有这么多例子能说明直觉与经验会得出如此错误的结论,而正确的解答又与直觉矛盾。当人们看到一个概率或者统计的悖论时,第一反应是不相信,而在了解了真相后,紧接着的反应几乎必然是想清除疑云迷雾。所以,好好学学概率和统计这门课吧。参考资料:
http://mathworld.wolfram.com/BenfordsLaw.html
http://www.jstor.org/stable/2781907
本文版权属于果壳网(guokr.com),转载请注明出处。商业使用请联系果壳
分享到: 收藏 | 推荐 (167) 发表评论热门评论
2011-07-16 00:17 吴师傅 数学专业对于第一个问题:
解法一中,圆里所有弦中点分布及弦的分布如下
解法二中,圆里所有弦中点分布及弦的分布如下
解法三中,圆里所有弦中点分布及弦的分布如下
顶 [82] 评论 2011-07-15 17:41 yd贝特朗奇论 我做题目的时候发现过。。。 要是我出生得早一点就是我的结论了。。
顶 [42] 评论显示所有评论
全部评论(124) 1楼 2011-07-15 16:58 多普勒马我抢
顶 [0] 评论 2楼 2011-07-15 16:59 多普勒马我终于有坐到沙发了,天那T-T
顶 [0] 评论 3楼 2011-07-15 16:59 Moooyu第一次这么靠前,激动啊。。
顶 [0] 评论 4楼 2011-07-15 17:40 yd只有三楼 你们不占位么。。
顶 [0] 评论 5楼 2011-07-15 17:40 WPG前排啊~
顶 [0] 评论 6楼 2011-07-15 17:41 yd贝特朗奇论 我做题目的时候发现过。。。 要是我出生得早一点就是我的结论了。。
顶 [42] 评论 7楼 2011-07-15 17:48 自由的风抢沙发有技术含量吗?
顶 [1] 评论 8楼 2011-07-15 18:19 lxrmido晕了
大学概率论60分的飘过
顶 [0] 评论 9楼 2011-07-15 20:05 jaharpan本福特,知道了之后就不会有直觉了。
顶 [0] 评论 10楼 2011-07-15 20:36 Sheldon 理论物理博士,科学松鼠会成员朋友如衣服?
顶 [0] 评论 11楼 2011-07-15 20:58 苍白色火焰朋友的朋友是敌人....
顶 [0] 评论 12楼 2011-07-15 21:07 明明那个友谊悖论原来可以有数学解释啊,我以为都是心理因素呢~ 那几乎每个人都认为自己高于平均水平的自我服务偏见是不是也有数学解释呢?
顶 [1] 评论 13楼 2011-07-15 21:59 Kam_芋頭我刚吃完饭,吃撑了,现在再看看这些东西,外加我那狗屎的语文,我... 我有点头晕
顶 [0] 评论 14楼 2011-07-15 22:04 小骗子 生物技术学士这话是令狐冲说的,他还说,你可以有很多衣服,但是你受得了很多手足么?
引用sheldon的回应:朋友如衣服? 顶 [0] 评论 15楼 2011-07-15 22:20 花葬丶 引用多普勒马的回应:我抢这里又不是贴吧,抢沙发有什么用。。。。。。。。。科学至上。
顶 [1] 评论 16楼 2011-07-15 23:29 果壳中的大设计第一个解法有点疑问?可以把弦的一端固定嘛?这样不会导致弦的数量减少吗?
顶 [2] 评论 17楼 2011-07-15 23:33 严酷的魔王 统计学专业本科生,数学控 引用果壳中的大设计的回应:第一个解法有点疑问?可以把弦的一端固定嘛?这样不会导致弦的数量减少吗?无论把弦的一段固定在哪,都可以得到同样的概率,因此不会影响结论
顶 [0] 评论 18楼 2011-07-15 23:35 果壳中的大设计好吧我想通了..那么对于第一个问题..
顶 [0] 评论 19楼 2011-07-15 23:38 miss--man不会吖 响你做扫描一样 固定一端也能将圆扫过 简单说 一个圆 你要大竖画 打横画打斜话 乱画也能填满一样 这三个方法都有对自身认为为出发的所有可能做讨论 只是像作者说的 问题本来就不严谨 存在空间上不同的各种解答 由此 人各不同 各种有不同想法 这个争执是没结果的
引用果壳中的大设计的回应:第一个解法有点疑问?可以把弦的一端固定嘛?这样不会导致弦的数量减少吗? 顶 [0] 评论 20楼 2011-07-15 23:51 不知所措的猫晕了 你让我这明年就学概率论的情何以堪啊 我高数还挂着呢。。。
顶 [0] 评论 21楼 2011-07-16 00:17 吴师傅 数学专业对于第一个问题:
解法一中,圆里所有弦中点分布及弦的分布如下
解法二中,圆里所有弦中点分布及弦的分布如下
解法三中,圆里所有弦中点分布及弦的分布如下
顶 [82] 评论 22楼 2011-07-16 00:24 吴师傅 数学专业 引用yd的回应:贝特朗奇论 我做题目的时候发现过。。。 要是我出生得早一点就是我的结论了。。你这样想并不奇怪,可以参看这篇文章:http://www.guokr.com/article/3123/
顶 [1] 评论 23楼 2011-07-16 01:43 Cerberus本福特法则其实可以这样理解:1概率最大是因为它出现在数列中最早。因为人们用数字一般都是用于排序,由1排起的话,1=100%,其他数为0;排到2时,1=50%,2=50%,其他数为0;排到3时,1=1╱3,2=1╱3,3=1╱3,其他数为0;依此类推,1一直排第一,越来越多数和它并列,直到排到9,它们才平等。同理,排十位数时,10到19,1的概率再次升高到第一,然后越来越多并列,最后999时平等。所以才会出现本福特法则啊。 友谊悖论大亮!最喜欢悖论了!
顶 [2] 评论 24楼 2011-07-16 07:34 乔瑭文章很严谨啊,难得难得
顶 [0] 评论 25楼 2011-07-16 10:12 王小成 引用sheldon的回应:朋友如衣服?引用苍白色火焰的回应:朋友的朋友是敌人....
朋友万岁 敌人万岁!!!
顶 [0] 评论 26楼 2011-07-16 11:53 flyerct第一题应该是有答案的,就是第一种解答,我们通常所说的随机取一条直线,其角度概率是平均分布的,与第一题的假设前提是一致的。
顶 [0] 评论 27楼 2011-07-16 12:48 None现在只觉天旋地转~~~~~~~~
顶 [0] 评论 28楼 2011-07-16 12:58 lauy007本福特法则可以拿来检验数据造假的问题。。。然后,相应的,数据上要动手脚的同学要记得本福特法则。。。。 呃,回答好狗血。。。
顶 [1] 评论 29楼 2011-07-16 13:18 吴师傅 数学专业 引用lauy007的回应:本福特法则可以拿来检验数据造假的问题。。。然后,相应的,数据上要动手脚的同学要记得本福特法则。。。。 呃,回答好狗血。。。哈哈哈 这里只是再强调本福特法则的适用范围 当然你这样理解也可以
顶 [0] 评论 30楼 2011-07-16 17:49 方程 应用数学专业本文大赞! 这些定律呀法则呀都在理解范围内,接受木压力。 其实我一直想知道的是墨菲定律的原理……
顶 [0] 评论 1 2 3 4 5 下一页 末页 首页 上一页 1/5 下一页 末页显示所有评论
请 登录 发表评论
严酷的魔王 统计学专业本科生,数学控更多科研事,扫码早知道
更多科研事
扫码早知道