贝氏统计学家的婚姻难题

「Dear Abby:

妳在专栏写过女人怀胎266天。这是谁说的?我怀我的宝贝怀了10 个月又5 天(310天)。这一点都不容置疑,因为我知道宝贝是哪天开始怀的。我老公在海军服役,上次我们只见面一个钟头,而且之后就一直到生产前一天再见面,因此宝贝一定是在那个时候怀的。我不喝酒也没乱劈腿,宝贝不可能不是老公的,请务必修正女人怀胎266 天的说法,否则我的麻烦大了。

圣地牙哥读者。」

我把这个材料给学生看,然后引用医学知识,说受孕至生产时间呈常态分配,其平均数为266 天、标准差为16 天,要他们计算女人怀胎最少310 天的机率,他们算出答案为0.003 时,都发出会心的微笑。

现在我把这题目略改如下:

某贝氏统计学家与老婆婚姻生活一向平静无波。某年元旦,两人庆祝新年,决定生产报国,嗣后依然恢复平静无波的生活。该年11 月7 日,老婆产下一女。

老公是一位统计学家,善于数算,老婆生产后,他推算如果此女确为从他所出,则老婆怀孕时间长达310 天。根据医学知识,一般妇女怀孕时间呈常态分配,其平均数为266 天,标准差为16 天。老公推算怀胎至少310 天的机率是0.003。

统计学家看着刚出生的女儿,再推算老婆的孕期,觉得越想越不对劲。图/mil

统计学家老公算出这个机率后,不禁眉头一皱。他想:0.003是小机率事件,比统计推论的显著水平0.05还小很多,怎么就发生在自己家里?此机率是由老婆受孕日期在1月1日的假设推算出来,因机率甚小,依「以否定后件来否定前件」(modus tollens)的命题逻辑,不能接受这个假设,然则难道自己戴绿帽了!当下咬牙切齿,拍桌大骂老婆。

不过老公毕竟有些学问,他再仔细一想:0.003的机率虽然小,但若样本够大,这么小的机率也会发生在很多人身上。以台湾每年大约有20万新生儿来说,假设大多数为单胞胎自然生产,则每年约有600个妈妈怀孕时间会长达310天或更久。

大乐透每注中头奖的机率0.00000007比0.003要小很多,而经常都有人中奖。相较之下,老婆中到0.003机率的大奖,也没什么好奇怪的啊。统计学家老公想到这里,不禁笑开了嘴:这宝贝女儿,说不定还会给自己带来财运呢。立马到彩券行买了十张乐透。

难道要当成中到0.003机率的大奖。图/pixabay

第二天乐透开奖,十张全部杠龟,统计学家老公又懊恼起来了。他想:虽然说经常都有人中乐透,偏偏自己从来没中过,连每期对几十张统一发票都难得中到200 元的小奖,哪有说这0.003 机率的事件就轮到我?毕竟「个人中奖」和「有人中奖」是不同的事件,不能一概而论。那怎么办呢?究竟我该不该相信老婆?还是干脆去查验DNA 算了?

贝氏统计学家老公灵光一闪,发现自己面临的难题其实并没有那么简单,而应该用贝式定理来推算。他这样想:0.003是在老婆未出轨的假设下计算的,因此它是一个条件机率

Pr(产期≥11/7|受孕期=1/1)= 0.003

但对一个贝氏统计学家而言,更该问的问题其实是:既然小孩是在11月7日出生,那老婆未出轨的机率为何?换句话说,更重要的机率应该是上面那个机率的反机率

Pr(受孕期=1/1|产期≥11/7)=?

这就是老婆未出轨的后验机率。以贝氏统计学家的专长,老公知道要算这个后验机率需要考虑两个变数:

  1. 老婆在1 月1 日之后,是否有出轨受孕的机会?假设真正的受孕期是1 月1 日之后的第X天。X=0 代表老婆没出轨,受孕期真的是1 月1 日;X>0代表老婆在1 月1 日后出轨才受孕。
  2. 自己一向对老婆有多少信心?依自己的主观判断,老婆未出轨,即X=0的机率有多少?假设X=0的机率为Y,X>0的机率为1-Y,则Y越接近1信心越高,越接近0信心越低。Y是X=0的边际机率,1-Y是X>0的边际机率。这边际机率也就是贝氏定理所谓的先验机率

另外,如果我们以D来代表怀孕时间,则不论受孕期X是哪天,小孩在11月7日出生时,D都等于310-X。我们以D<310-X代表产期在11月7日之前,D≥310-X代表产期在11月7日这天或这天之后。

统计学家暗忖,只要知道孕期、出生日,就有机会推算出可能受孕日。图/freestockphotos

D≥310-X的机率显然与X有关,我们用p(X)来代表此一条件机率:p(X)=Pr(D≥310-X|X)。因为怀孕时间呈常态分配:D~N(266,16 2 ),我们可以导出:

p ( X) = Pr ( D ≥ 310 − X| X) = 12Er f( 44 − X16 2√)p(X)=Pr(D≥310−X|X)=12Erf(44−X162)

这里Erf()是误差函数;当X=0时,p(0)=0.003。考虑这些变数后,我们可以用下列矩阵来呈现这个贝氏定理问题:

「行」的条件机率老婆1/1后未出轨:X=0
(受孕期=1/1)
老婆1/1后出轨:X>0
(受孕期=1/1后第X天)
D<310-X(产期<11/7)1-p(0)1-p(X)
D ≧ 310-X(产期≧11/7)p(0)p(X)
「行」的边际机率Y1-Y

关于贝氏定理的算法,请参考我写的《会算「贝氏定理」的人生是彩色的!该如何利用它让判断更准确、生活更美好呢?》。老公要求的后验机率是:Pr(受孕期=1/1|产期≥11/7)=Pr(X=0| D≥310-X)。

要求这个机率,首先必须把上表中「行」的条件机率转化成联合机率。这个只要记得「联合机率等于条件机率乘以条件本身的边际机率」的口诀就可算出如下:

联合机率老婆1/1后未出轨:X=0
(受孕期=1/1)
老婆1/1后出轨:X>0
(受孕期=1/1后第X天)
D<310-X(产期<11/7)Y(1-p(0))(1-Y)(1-p(X))
D ≧ 310-X(产期≧11/7)Y(p(0))(1-Y)(p(X))
「行」的边际机率Y1-Y

算出联合机率之后,再用「条件机率等于联合机率除以条件本身的边际机率」的口诀就可算出所要求的「列」的条件机率

= Pr ( X= 0 | D ≥ 310 − X)=Pr(X=0|D≥310−X) = Yp ( 0 )Yp ( 0 ) + ( 1 − Y) p ( X)=Yp(0)Yp(0)+(1−Y)p(X)

把前面算出p(0)和p(X)套入上式之后,我们可以看到后验机率  Pr(X=0|D≥310-X)是X和Y的函数,为了更容易分析这函数,我们先把Y值固定,再看它如何随X值变化。

首先,假设老公对老婆只有Y=0.5的信心,则后验机率的函数图形如下:

这个图显示如果老公本来就对老婆疑信参半,则当老婆在1月1日之后的一个半月之内有出轨的机会时,老公对老婆的信心会随着X的增加而急速下降。当出轨的机会X 增加到预产期(1月1日后第X+266 天)越接近11 月7 日时,X>0 显得越「正常」而X=0 显得越「不正常」, 因此老公的信心会越低,疑心越重。特别是当老婆在二月(X>30) 有出轨的机会时,那意谓着11 月7 日正是预产期的一个标准差(16天)之内,老公的信心会降至几乎为0。

其次,如果老公平常对老婆有极高的信心,例如Y=0.99,则后验机率的图形为

这图显示如果老公平常对老婆有充分的信心,则这信心随着X 的增加会下降得比较缓慢。即使到二月初才有出轨机会,也就是预产期开始接近11 月7 日时,老公对老婆仍然维持着0.6 以上的信心。甚至当X=44,即预产期恰恰为11 月7 日时,老公的信心仍在0.37 的水平。

虽然信心不至于完全崩溃,但毕竟也会随着X 的增加而减小。老公算出贝氏后验机率后应该了解,310 天是超乎寻常的怀孕时间,除非本来对老婆就有百分之百的信心,否则信心一定会下降的。虽说这只是「信者恒信,不信者恒不信」的贝氏诠释,但在这个案例,信者却必须要完全相信才能恒信,而不信者只要心中有点疑窦,终究会不信。

贝氏统计学者数算到这里,长叹了一口气:「还是去查验DNA吧!」


泛科学自制商品

从内子宫到外太空,科学离不开我们生活中的时时刻刻,时光走入西元2020,让泛科学也走入你生活的每一天!【时时科科2020桌历】精选不容错过的科学日,让你记下属于自己的重要日程,也记下科学史上的精彩片段。

此条目发表在未分类分类目录。将固定链接加入收藏夹。

发表评论

电子邮件地址不会被公开。 必填项已用*标注