本文作者:kaifamei

生男生女预测表 算法

更新时间:2023-01-25 05:16:25 人在看 0条评论

生男生女预测表 算法


2023年1月25日发(作者:2020年五一手抄报图片简单又漂亮)

EM算法系列(四)-男⼥⽣⾝⾼问题

1、故事背景

在之前介绍极⼤似然估计的时候,我们从⼀个估计学校男⽣⾝⾼分布的例⼦出发,但是如果此时我们不仅仅要估计男⽣⾝⾼分布,还要估计⼥⽣⾝

⾼分布呢?假设我们⼜抽样了100个⼥⽣的⾝⾼,因此我们现在⼀共有200个数据点,不过不巧的是,我们性别那⼀列不见了,这200个数据点被

混在⼀起了,⽆法识别哪些是男⽣,哪些是⼥⽣,这时候如何估计男⽣⼥⽣的⾝⾼分布呢?极⼤似然⽅法已经不起作⽤了,因为男⽣和⼥⽣的⾝⾼

来⾃不同的⾼斯分布。这时候,我们就要⽤到⼀种更厉害的算法--EM算法。

2、EM算法基本思想

啰嗦了半天,上⾯的问题总结⼀下就是:抽取得到的每个样本都不知道是从哪个分布抽取的。这个时候,对于每⼀个样本或者你抽取到的⼈,就

有两个东西需要猜测或者估计的了,⼀是这个⼈是男的还是⼥的?⼆是男⽣和⼥⽣对应的⾝⾼的⾼斯分布的参数是多少?

只有当我们知道了哪些⼈属于同⼀个⾼斯分布的时候,我们才能够对这个分布的参数作出靠谱的预测,例如刚开始的最⼤似然所说的,但现在两种

⾼斯分布的⼈混在⼀块了,我们⼜不知道哪些⼈属于第⼀个⾼斯分布,哪些属于第⼆个,所以就没法估计这两个分布的参数。反过来,只有当我们

对这两个分布的参数作出了准确的估计的时候,才能知道到底哪些⼈属于第⼀个分布,那些⼈属于第⼆个分布。

这就成了⼀个先有鸡还是先有蛋的问题了。鸡说,没有我,谁把你⽣出来的啊。蛋不服,说,没有我,你从哪蹦出来啊。为了解决这个你依赖我,

我依赖你的循环依赖问题,总得有⼀⽅要先打破僵局,说,不管了,我先随便整⼀个值出来,看你怎么变,然后我再根据你的变化调整我的变化,

然后如此迭代着不断互相推导,最终就会收敛到⼀个解。这就是EM算法的基本思想了。

EM算法就是这样,假设我们想估计知道A和B两个参数,在开始状态下⼆者都是未知的,但如果知道了A的信息就可以得到B的信息,反过来知道

了B也就得到了A。可以考虑⾸先赋予A某种初值,以此得到B的估计值,然后从B的当前值出发,重新估计A的取值,这个过程⼀直持续到收敛为

⽌。

EM的意思是“ExpectationMaximization”,在我们上⾯这个问题⾥⾯,我们是先随便猜⼀下男⽣(⾝⾼)的正态分布的参数:如均值和⽅差

是多少。例如男⽣的均值是1⽶7,⽅差是0.1⽶(当然了,刚开始肯定没那么准),然后计算出每个⼈更可能属于第⼀个还是第⼆个正态分布中的

(例如,这个⼈的⾝⾼是1⽶8,那很明显,他最⼤可能属于男⽣的那个分布),这个是属于Expectation⼀步。有了每个⼈的归属,或者说我们

已经⼤概地按上⾯的⽅法将这200个⼈分为男⽣和⼥⽣两部分,我们就可以根据之前说的最⼤似然那样,通过这些被⼤概分为男⽣的n个⼈来重新

估计第⼀个分布的参数,⼥⽣的那个分布同样⽅法重新估计。这个是Maximization。然后,当我们更新了这两个分布的时候,每⼀个属于这两个

分布的概率⼜变了,那么我们就再需要调整E步……如此往复,直到参数基本不再发⽣变化为⽌。

这⾥把每个⼈(样本)的完整描述看做是三元组yi={xi,zi1,zi2},其中,xi是第i个样本的观测值,也就是对应的这个⼈的⾝⾼,是可以观测到的

值。zi1和zi2表⽰男⽣和⼥⽣这两个⾼斯分布中哪个被⽤来产⽣值xi,就是说这两个值标记这个⼈到底是男⽣还是⼥⽣(的⾝⾼分布产⽣的)。这

两个值我们是不知道的,是隐含变量。确切的说,zij在xi由第j个⾼斯分布产⽣时值为1,否则为0。例如⼀个样本的观测值为1.8,然后他来⾃男⽣

的那个⾼斯分布,那么我们可以将这个样本表⽰为{1.8,1,0}。如果zi1和zi2的值已知,也就是说每个⼈我已经标记为男⽣或者⼥⽣了,那么我们

就可以利⽤上⾯说的最⼤似然算法来估计他们各⾃⾼斯分布的参数。但是它们未知,因此我们只能⽤EM算法。

咱们现在不是因为那个恶⼼的隐含变量(抽取得到的每个样本都不知道是从哪个分布抽取的)使得本来简单的可以求解的问题变复杂了,求解不了

吗。那怎么办呢?⼈类解决问题的思路都是想能否把复杂的问题简单化。好,那么现在把这个复杂的问题逆回来,我假设已经知道这个隐含变量

了,哎,那么求解那个分布的参数是不是很容易了,直接按上⾯说的最⼤似然估计就好了。那你就问我了,这个隐含变量是未知的,你怎么就来⼀

个假设说已知呢?你这种假设是没有根据的。呵呵,我知道,所以我们可以先给这个给分布弄⼀个初始值,然后求这个隐含变量的期望,当成是这

个隐含变量的已知值,那么现在就可以⽤最⼤似然求解那个分布的参数了吧,那假设这个参数⽐之前的那个随机的参数要好,它更能表达真实的分

布,那么我们再通过这个参数确定的分布去求这个隐含变量的期望,然后再最⼤化,得到另⼀个更优的参数,……迭代,就能得到⼀个皆⼤欢喜的

结果了。

这时候你就不服了,说你⽼迭代迭代的,你咋知道新的参数的估计就⽐原来的好啊?为什么这种⽅法⾏得通呢?有没有失效的时候呢?什么时候失

效呢?⽤到这个⽅法需要注意什么问题呢?呵呵,⼀下⼦抛出那么多问题,搞得我适应不过来了,不过这证明了你有很好的搞研究的潜质啊。呵

呵,其实这些问题就是数学家需要解决的问题。在数学上是可以稳当的证明的或者得出结论的。那咱们⽤数学来把上⾯的问题重新描述下。(在这

⾥可以知道,不管多么复杂或者简单的物理世界的思想,都需要通过数学⼯具进⾏建模抽象才得以使⽤并发挥其强⼤的作⽤,⽽且,这⾥⾯蕴含的

数学往往能带给你更多想象不到的东西,这就是数学的精妙所在啊)


文章投稿或转载声明

本文链接:https://www.en369.cn/fanwen/xinxi-8-140436-0.html

来源:范文频道-369作文网版权所有,转载请保留出处。本站文章发布于 2023-01-25 05:16:25

发表评论

验证码:
用户名: 密码: 匿名发表
评论列表 (有 条评论
2人围观
参与讨论