本文来源于孤独大脑,作者老喻在加,原标题为《张学友是“逃犯克星”?贝叶斯公式告诉你真相》
为什么张学友的每场演唱会都有逃犯落网?
先看看“学友·经典世界巡回演唱会”的“显赫战功”:
- 4月7日南昌站首个逃犯在现场落网。
- 5月5日赣州演唱会开场安检的过程中,警方通过人脸识别技术,成功抓获一名网上逃犯。
- 5月20日嘉兴演唱会安检时,发现逃犯一名,随后被警方逮捕。
- 6月9日金华演唱会,两名逃犯落网。
- 7月6日呼和浩特,警方抓获冒雨前来观看演唱会的全国在逃人员王某某。
- 7月8日洛阳演唱会,早在5月份就期待满满的洛阳警方成功拿下“七杀”。
- 9月21日遂宁演唱会,第一场就抓到了10余名违法犯罪人员。
- 9月28日石家庄演唱会,现场三名逃犯落网。
- 9月30日咸阳警方成功抓获5名逃犯。
几乎每场演唱会都会有逃犯落网,“歌神”张学友怎样看待自己“逃犯克星”的称号呢?
连续九场,常常有逃犯被抓,真实的原因到底是什么呢?
贝叶斯推理
先让我们跳开,来看一个影院中的贝叶斯推理。
(下面案例的英文出处:Brandon Rohrer)
你前往影院排队观影,前面有个小伙伴,长发披肩,衣着中性,如上图,请问Ta是女士的概率有多大?
情况A
如上图,是一种视觉化的贝叶斯计算法,在《统计学关我什么事》一书中有详细解释。
请注意上面绿色和黄色两个长方形:
1、“面积”的概念在贝叶斯概率的计算中,起着重要的作用。
2、事件的可能性,由绿色和黄色两种构成。二者各自的概率,体现为长方形的宽度。例如上图中,是假设男女比例是1:1。
3、长方形的高度,是指“可能世界”的可能构成。例如上图,绿色长方形指女性的可能世界,进而该可能世界,是由“一半长发 一半短发”的假设比例构成。
了解了面积法,开始计算,步骤如下:
第一步:首先假定影院中男女各占一半,100个人中,50个男人,50个女人。贝叶斯计算的特点,就是可以主观预测,毛估估一下。
第二步:假设女人中,一半为长发,余下的25人为短发。而男人中,48位为短发,两位为长发。这同样是基于常识和主观预测的毛估估。
第三步:由此可以计算,有25个长发女人和2位长发男人。
第四步:所以,Ta是女士的可能性为“25/(25 2)=92.6%”。
情况B
现在让我们增加一个新的信息,你现在排队是在准备进入男士休息室。依靠这个额外的信息,仅采用常识和背景知识即可完成判断Ta更可能是男性,无需思考。
但是,贝叶斯推理则能以数学实现形式,做出更加精确的预测。
其意义在于,在某些你无法见简单靠常识和直觉来做出量化判断的时候,你就需要精确的算法了。所以让我们继续用贝叶斯来计算如下:
如上图,还是采用面积计算法我们开始推理:
第一步:100个人在男士休息室外排队,我们主观猜测毛估估一下,其中98名为男士,有2位陪同的女士。如上图中的绿色长方形,因为女性极少,所以该长方形很“瘦”。
第二步:假设女人中,一半为长发,一半为短发。而男人中每50人里有两位为长发。和上面的情形一样,这也是是基于常识和主观预测的毛估估。我们注意到,尽管男性长发的比例很低,但是由于人群基数较大,所以下面计算男性长发人数的(深黄色那个)长方形很“胖”,有4个之多。
第三步:按照以上的假设,短发男士有94人,长发为4人。而两位女士则一个长发一个短发。即,长发人士里有4男1女。
第四步:Ta是女士的可能性为20%。
这里涉及了两个个关于概率的概念:
1、先验概率。是指根据以往经验和分析得到的概率,它往往作为”由因求果”问题中的”因”出现的概率。
例如上面长头发是男是女的案例里,开始根据常识,假设人群整体性别比例为1:1。
2、后验概率。是指在得到“结果”的信息后重新修正的概率,是“执果寻因”问题中的”果”。
由于知道了是在男士休息室前的排队,根据此信息,将人群男女比例调整为98:2。
该过程称为“贝叶斯推理”。贝叶斯推理可以总结为:通过观察行动(信息),将先验概率通过贝叶斯更新,转换为后验概率。
贝叶斯算法之所以在人工智能时代大放异彩,是因为其具有学习功能。贝叶斯推理中,修改过的“各个类别的后验概率”,已经使用了所有的信息。也就是说我们可以将其看作“从信息中学习到的结果”。贝叶斯推理正是具备了“收集信息并自动变聪明”的功能。
张学友演唱会抓逃犯,和贝叶斯计算有什么关系呢?
最近几年,摄像头、人脸识别、联网技术大规模使用,是导致逃犯被抓的首因。
简单来说,每个演唱会抓到逃犯的比例应该是比较接近的。张学友的演唱会有何不同呢?
不全面分析如下:
原因1:张学友的男性歌迷较多。
从抓捕照片看,基本为男性逃犯,好像只有一位女性。
因为男性人群的基数更大,所以张学友演唱会上出现逃犯的概率更大。
原因2:演唱会规模较大。
因为整体人数基数越大,男性歌迷人数更多,有逃犯的可能性越大。
原因3:年龄段分布较广。
原因4:阶层分布较广。
原因5:演唱会基本都在二三四线城市。
以上原因3、4、5,可能令歌迷与逃犯的人群重合度更高。也就是说,因为年龄分布、阶层分布、城市分布的原因,即使是在同样数量的男性歌迷中,出现逃犯的概率更大。
概括而言,因为:
- 更大的人群基数
- 更高的男性比例
- 更高的逃犯比例
导致了张学友演唱会上出现逃犯的数量较多。
根据以上5点信息,我们通过贝叶斯推理,会有类似上面“男士休息室”的信息更新。
有兴趣的话,可以通过“面积法”计算一下。
所以,在张学友的演唱会上,出现疑犯的“后验概率”更高。
为什么逃犯愿意铤而走险去看张学友的演唱会?
上面分析后验概率,计算的其实是张学友歌迷中包括逃犯的比例。但是这个比例再高,如果逃犯不来现场,也没用。
下面我们用决策树分析法,计算逃犯愿意冒险主动来到现场的可能性。
我没有更多别的演唱会是否有逃犯被抓的数据,简单用决策树分析如下。
在寻常情况下,逃犯决定是否去看演唱会,会进行下图思考:
所以一般演唱会,逃犯冒险去看的概率为10%。
但是,张学友不是一般人啊,他人品正,没绯闻,歌唱得荡气回肠,容易令英雄豪杰们产生共鸣。
作为灵魂型歌手,张学友令逃犯歌迷更愿意冒险。
逃犯们每天东躲西藏,日子压抑。又如《肖申克的救赎》里所言,每个罪犯都觉得自己无罪。脑海里浮现出张学友的歌曲,“有故事的人”不禁感慨万千,非理性指数大幅上升。
于是,逃犯冒险去看张学友演唱会的概率为30%。
这样,逃犯出现在张学友演唱会上的主动可能性,对比一般演唱会,一下变成了三倍。
加之前面提及的较高的逃犯比例之“后验概率”,二者相乘,令逃犯出现在张学友演唱会上的数量较多。
在技术手段的帮助下(该类逃犯对科技进步估计不足,也拉低了理性的比例),张学友的演唱会变成了逃犯放飞自我的舞台。
“你陪了我多少年,花开花落,一路上起起跌跌。”
那天晚上,亡命天涯的大哥,在最后的四大天王的歌声中,勾起了年少往事,飞蛾扑火般慷慨赴约,哪怕最终身陷牢笼。