极大似然估计和最大后验估计-程序员宅基地

技术标签: 机器学习  

https://baijiahao.baidu.com/s?id=1593811166204755239&wfr=spider&for=pc

机器学习中,一般只得到业务产生的数据集D,机器学习目的是通过数据D了解该项业务的过去(建模)和未来(预测和分类)。但你手头上只有数据集D,没有其他任何辅助信息,那么如何建模?

1.概率假设合理吗?

我们总是假设数据集D由某种概率分布生成(数据生成模型),甚至假设数据集D由高斯分布生成,一旦确定了高斯分布的参数,相当于我们掌握了数据的生成机制,这样就能预测业务的未来。但是,这种假设总是让人看起来不放心,这种假设合理吗?幸运的是,概率论里的中心极限定理保证了这种假设的合理性,中心极限定理表明,只要数据集D足够大,就可认为它由高斯分布生成。下图充分说明了这一点。

样本足够大时服从高斯分布

因此,即使数据集D的样本不够大,我们也会假设数据集D服从高斯分布,这时没有人会怀疑假设的合理性。高斯分布由期望和方差两个参数决定,但我们手头上只有数据集D和数据集D服从高斯分布这两条信息,并不知道高斯分布的参数的有关信息。因此估计高斯分布的参数成为我们首要任务,因为参数一旦确定下来,数据集D的生成模型也就确定下来,预测未来成为可能。关于高斯分布,我想进一步解释,不难看出,概率密度函数在期望值处取最大值,这说明了随机变量落在期望值周围的概率最大(通俗点来说就是我们大多数人生活在平均水平之中),这是密度函数名称的来源。

一维高斯分布及参数

高斯分布

2.极大似然然估计

从线性回归模型谈起,给定数据集[X,y],参数W,误差r服从高斯分布N(0,α^2),线性回归模型表示为:

线性回归模型

利用最小二乘法求参数W,即

最小二乘法求参数

这是一个解析解,让人满意的结果。但问题是当X中含有线性相关的特征时(特征重叠),矩阵不可逆,这时解不存在,需要选择正则化方法处理,如岭回归和lasso回归。大家应该发现这样的问题,最小二乘法与假设“误差r服从高斯分布N(0,α^2)”没有任何关系。但这个假设是合理的,只要有足够多的样本和好模型,误差自然大部分集中在0附近,并服从高斯分布。通过这个假设也可以倒逼训练出一个好模型。极大似然估计从假设“误差r服从高斯分布N(0,α^2)”开始,利用样本的独立性,有效估计参数。

首先考虑极大似然估计的通用模型,假设数据集D服从一个参数为W的概率分布f(x)=p(D=x|W)(含义为在知道W的条件下,数据集D取样本x的概率密度函数值),这里f(x)=p(D=x|W)是概率密度函数(对于连续型随机变量用概率密度函数代替概率),p(D|W)为数据集D的联合概率分布,根据样本的独立性,p(D|W)为所有样本的概率密度函数值f(x)的乘积。我们称p(D|W)为参数W的似然函数,log(p(D|W))为参数W的对数似然函数,记为L(W|D)=log(p(D|W))。现在首要任务是估计W。既然样本数据集D已经出现,概率直觉告诉我们,D出现的概率比所有其他样本数据集D'出现的概率都要大,即L(W|D)>L(W|D')。极大似然估计就是求一个参数W使得

下面用极大似然估计求解线性回归模型。

线性回归属于监督学习,X是特征,y是对应的值(即数据集D),应把X看成已知的参数,W为待估计的参数。假设误差r服从高斯分布N(0,α^2),这推出p(y|W)=N(W^TX,α^2)。根据极大似然估计

这说明了最小二乘法和极大似然估计在假设“误差r服从高斯分布N(0,α^2)”下是等价的。

极大似然估计基于朴素的概率直觉,有时得到的结果与实际情况有所偏差。从下图可以看出,不同的取样导致与实际情况偏差较大,因此使用极大似然估计应保持警惕。

思考1:在线性回归模型中,假设误差r服从贝塔分布,用极大似然估计参数,结果如何?

思考2:在线性回归模型中,假设误差r服从拉普拉斯分布,用极大似然估计参数,结果如何?

贝塔分布

拉普拉斯分布

3.最大后验估计

我在文章《贝叶斯定理》里详细介绍了贝叶斯定理以及先验(prior)、后验(posterior)、似然(likelihood)等概念。贝叶斯定理如下:

其中p(D)为标准化常数。贝叶斯定理可表述为:

目前,我们手头上有数据集D和数据集D服从高斯分布这两条信息,关于高斯分布的参数W,我们没有额外的信息,在这种情况下,我们只能用极大似然估计这些参数,这是我们能想到的方法。如果在建模之前能获知这些参数的额外信息,即先验p(W),那么我们可以利用这个先验建立更加精准的模型。这就是我们下面要讲的最大后验估计。根据贝叶斯定理,最大后验估计就是求参数W使得

计算上述最大值是一个挑战,但在一些特殊情况下,比如先验p(W)是一个高斯先验,我们是可以计算的。

现在我们可以讨论极大似然估计和最大后验估计的关系了。在极大似然估计中,我们不知道p(W),这相当于p(W)是均匀分布(均匀分布是无聊的,参数服从均匀分布等于没有告诉你关于参数任何信息),不妨假设p(W)=1,这时我们有

因此,极大似然估计和先验为均匀分布下的最大后验估计是等价的。

4.线性回归模型的最大后验估计

在线性回归模型里,误差r服从高斯分布N(0,α^2),进一步我们假设系数W的先验p(W)=N(0,^2),利用最大后验估计参数W,使得后验p(W|y)最大,这里我省去推导过程,直接给出结论:

本质上,这是岭回归。因此充分利用先验信息,最大后验估计比极大似然估计更加鲁棒。

思考:在线性回归模型中,假设先验p(W)服从拉普拉斯分布,用最大后验估计参数,结果如何?

5.总结

最后我们总结最小二乘法、极大似然估计和最大后验估计的关系。在线性回归模型中,假设误差r服从高斯分布N(0,α^2),最小二乘法和极大似然估计是等价的。在线性回归模型中,假设误差r服从高斯分布N(0,α^2),假设先验p(W)服从高斯分布N(0,^2),最大后验估计结果是岭回归。在假设p(W)服从均匀分布下,极大似然估计和最大后验估计是等价的。总之,在充分利用先验的基础上,最大后验估计比极大似然估计更加鲁棒。

(坚持原创,你的关注、点赞和转发是我的动力!未经授权禁止转载!)

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/lgb_love/article/details/81737808

智能推荐

分布式光纤传感器的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告_预计2026年中国分布式传感器市场规模有多大-程序员宅基地

文章浏览阅读3.2k次。本文研究全球与中国市场分布式光纤传感器的发展现状及未来发展趋势,分别从生产和消费的角度分析分布式光纤传感器的主要生产地区、主要消费地区以及主要的生产商。重点分析全球与中国市场的主要厂商产品特点、产品规格、不同规格产品的价格、产量、产值及全球和中国市场主要生产商的市场份额。主要生产商包括:FISO TechnologiesBrugg KabelSensor HighwayOmnisensAFL GlobalQinetiQ GroupLockheed MartinOSENSA Innovati_预计2026年中国分布式传感器市场规模有多大

07_08 常用组合逻辑电路结构——为IC设计的延时估计铺垫_基4布斯算法代码-程序员宅基地

文章浏览阅读1.1k次,点赞2次,收藏12次。常用组合逻辑电路结构——为IC设计的延时估计铺垫学习目的:估计模块间的delay,确保写的代码的timing 综合能给到多少HZ,以满足需求!_基4布斯算法代码

OpenAI Manager助手(基于SpringBoot和Vue)_chatgpt网页版-程序员宅基地

文章浏览阅读3.3k次,点赞3次,收藏5次。OpenAI Manager助手(基于SpringBoot和Vue)_chatgpt网页版

关于美国计算机奥赛USACO,你想知道的都在这_usaco可以多次提交吗-程序员宅基地

文章浏览阅读2.2k次。USACO自1992年举办,到目前为止已经举办了27届,目的是为了帮助美国信息学国家队选拔IOI的队员,目前逐渐发展为全球热门的线上赛事,成为美国大学申请条件下,含金量相当高的官方竞赛。USACO的比赛成绩可以助力计算机专业留学,越来越多的学生进入了康奈尔,麻省理工,普林斯顿,哈佛和耶鲁等大学,这些同学的共同点是他们都参加了美国计算机科学竞赛(USACO),并且取得过非常好的成绩。适合参赛人群USACO适合国内在读学生有意向申请美国大学的或者想锻炼自己编程能力的同学,高三学生也可以参加12月的第_usaco可以多次提交吗

MySQL存储过程和自定义函数_mysql自定义函数和存储过程-程序员宅基地

文章浏览阅读394次。1.1 存储程序1.2 创建存储过程1.3 创建自定义函数1.3.1 示例1.4 自定义函数和存储过程的区别1.5 变量的使用1.6 定义条件和处理程序1.6.1 定义条件1.6.1.1 示例1.6.2 定义处理程序1.6.2.1 示例1.7 光标的使用1.7.1 声明光标1.7.2 打开光标1.7.3 使用光标1.7.4 关闭光标1.8 流程控制的使用1.8.1 IF语句1.8.2 CASE语句1.8.3 LOOP语句1.8.4 LEAVE语句1.8.5 ITERATE语句1.8.6 REPEAT语句。_mysql自定义函数和存储过程

半导体基础知识与PN结_本征半导体电流为0-程序员宅基地

文章浏览阅读188次。半导体二极管——集成电路最小组成单元。_本征半导体电流为0

随便推点

【Unity3d Shader】水面和岩浆效果_unity 岩浆shader-程序员宅基地

文章浏览阅读2.8k次,点赞3次,收藏18次。游戏水面特效实现方式太多。咱们这边介绍的是一最简单的UV动画(无顶点位移),整个mesh由4个顶点构成。实现了水面效果(左图),不动代码稍微修改下参数和贴图可以实现岩浆效果(右图)。有要思路是1,uv按时间去做正弦波移动2,在1的基础上加个凹凸图混合uv3,在1、2的基础上加个水流方向4,加上对雾效的支持,如没必要请自行删除雾效代码(把包含fog的几行代码删除)S..._unity 岩浆shader

广义线性模型——Logistic回归模型(1)_广义线性回归模型-程序员宅基地

文章浏览阅读5k次。广义线性模型是线性模型的扩展,它通过连接函数建立响应变量的数学期望值与线性组合的预测变量之间的关系。广义线性模型拟合的形式为:其中g(μY)是条件均值的函数(称为连接函数)。另外,你可放松Y为正态分布的假设,改为Y 服从指数分布族中的一种分布即可。设定好连接函数和概率分布后,便可以通过最大似然估计的多次迭代推导出各参数值。在大部分情况下,线性模型就可以通过一系列连续型或类别型预测变量来预测正态分布的响应变量的工作。但是,有时候我们要进行非正态因变量的分析,例如:(1)类别型.._广义线性回归模型

HTML+CSS大作业 环境网页设计与实现(垃圾分类) web前端开发技术 web课程设计 网页规划与设计_垃圾分类网页设计目标怎么写-程序员宅基地

文章浏览阅读69次。环境保护、 保护地球、 校园环保、垃圾分类、绿色家园、等网站的设计与制作。 总结了一些学生网页制作的经验:一般的网页需要融入以下知识点:div+css布局、浮动、定位、高级css、表格、表单及验证、js轮播图、音频 视频 Flash的应用、ul li、下拉导航栏、鼠标划过效果等知识点,网页的风格主题也很全面:如爱好、风景、校园、美食、动漫、游戏、咖啡、音乐、家乡、电影、名人、商城以及个人主页等主题,学生、新手可参考下方页面的布局和设计和HTML源码(有用点赞△) 一套A+的网_垃圾分类网页设计目标怎么写

C# .Net 发布后,把dll全部放在一个文件夹中,让软件目录更整洁_.net dll 全局目录-程序员宅基地

文章浏览阅读614次,点赞7次,收藏11次。之前找到一个修改 exe 中 DLL地址 的方法, 不太好使,虽然能正确启动, 但无法改变 exe 的工作目录,这就影响了.Net 中很多获取 exe 执行目录来拼接的地址 ( 相对路径 ),比如 wwwroot 和 代码中相对目录还有一些复制到目录的普通文件 等等,它们的地址都会指向原来 exe 的目录, 而不是自定义的 “lib” 目录,根本原因就是没有修改 exe 的工作目录这次来搞一个启动程序,把 .net 的所有东西都放在一个文件夹,在文件夹同级的目录制作一个 exe._.net dll 全局目录

BRIEF特征点描述算法_breif description calculation 特征点-程序员宅基地

文章浏览阅读1.5k次。本文为转载,原博客地址:http://blog.csdn.net/hujingshuang/article/details/46910259简介 BRIEF是2010年的一篇名为《BRIEF:Binary Robust Independent Elementary Features》的文章中提出,BRIEF是对已检测到的特征点进行描述,它是一种二进制编码的描述子,摈弃了利用区域灰度..._breif description calculation 特征点

房屋租赁管理系统的设计和实现,SpringBoot计算机毕业设计论文_基于spring boot的房屋租赁系统论文-程序员宅基地

文章浏览阅读4.1k次,点赞21次,收藏79次。本文是《基于SpringBoot的房屋租赁管理系统》的配套原创说明文档,可以给应届毕业生提供格式撰写参考,也可以给开发类似系统的朋友们提供功能业务设计思路。_基于spring boot的房屋租赁系统论文