深度学习 第1讲:深度学习简介和感知机原理与实现_python 单层感知机 深度学习-程序员宅基地

技术标签: 机器学习  深度学习  人工智能  

而对于阅读深度学习系列文章的广大数据爱好者而言,小编希望大家能有一些机器学习基础,而且小编不会去刻意用很多通俗的语言去描述数学和计算机科学相关的术语和概念,当然小编也会尽力把主要的知识点说的够敞亮,希望大家理解。那么闲话少说,我们正式开启深度学习的学习之旅~

1

机器学习与深度学习

要是说到深度学习,恐怕不得不先提一下机器学习,解释好二者之间的关系。相信大家心中应该有自己对于机器学习概念的理解。小编这里就一句话简单概括一下:机器学习就是从历史数据中探索和训练出数据的普遍规律,将其归纳为相应的数学模型,并对未知的数据进行预测的过程。至于在这个过程中我们碰到的各种各样的问题,比如数据质量、模型评价标准、训练优化方法、过拟合等一系列关乎机器学习模型生死的问题,小编就不展开来说了,自己去补机器学习知识哈。

在机器学习中,我们有很多很多已经相当成熟了的模型和算法。(这里厘一下模型和算法的概念,小编认为,通常我们所说的像SVM之类的所谓机器学习十大算法其实不应该称之为算法,更应该称其为模型,机器学习的算法应该是在给定模型和训练策略的情况下采取的优化算法,比如梯度下降、牛顿法之类。当然,一般情况下将模型和算法混合称呼也不碍事,毕竟模型中本身就包含着计算规则的意思。)在这很多种机器学习模型中,有一种很厉害的模型,那就是人工神经网络。这种模型从早期的感知机发展而来,对任何函数都有较好的拟合性,但自上个世纪90年代一直到2012年深度学习集中爆发前夕,神经网络受制于计算资源的限制和较差的可解释性,一直处于发展的低谷阶段。之后大数据兴起,计算资源也迅速跟上,加之2012年ImageNet竞赛冠军采用的AlexNet卷积神经网络一举将图片预测的 top5 错误率降至16.4%,震惊了当时的学界和业界。从此之后,原本处于研究边缘状态的神经网络又迅速热了起来,深度学习也逐渐占据了计算机视觉的主导地位。

扯了这么多,无非就是想让大家知道,以神经网络为核心的深度学习理论是机器学习的一个领域分支,所以深度学习其本质上也必须是遵循一些机器学习的基本要义和法则的。传统的机器学习中,我们需要训练的是结构化的数值数据,比如说预测销售量、预测某人是否按时还款等等。但在深度学习中,我们的训练输入就不大是常规的数据了,它可能是一张图像、一段语言、一段对话语料或是一段视频。深度学习要做的就是我丢一张猫的图片到神经网络里,它的输出是猫或者cat这样的标签,丢进去一段语音,它输出的是你好这样的文本。所以机器学习/深度学习的核心任务就是找(训练)一个模型,它能够将我们的输入转化为正确的输出。

(图片来自台湾大学李宏毅教授的deep learning tutorial ppt)

2

感知机与神经网络

就像上面那幅图展示的一样,深度学习看起来就像是一个黑箱子,给定输入之后就出来预测结果,中间的细节很难搞清楚。在实际生产环境下,调用像 tensorflow 这样优秀的深度学习计算框架能够帮助我们快速搭建起一个深度学习项目,但在学习深度学习的过程中,小编并不建议大家一开始就上手各种深度学习框架,希望大家能和小编一道,在把基本的原理搞明白之后利用 python 或者 R 自己手动去编写模型和实现算法细节。

所以,为了学习各种结构的神经网络,我们需要从头开始。感知机作为神经网络和支持向量机的理论基础,相信任何有机器学习基础的同学都清楚其模型细节。简单而言,感知机就是一个旨在建立一个线性超平面对线性可分的数据集进行分类的线性模型。其基本结构如下所示:

上图从左到右为感知机模型的计算执行方向,模型接受了X1、X2、X3三个输入,将输入与权值参数W进行加权求和并经过 sigmoid 函数进行激活,将激活结果作为 y 进行输出。这便是感知机执行前向计算的基本过程。这样就行了吗?当然不行。按照李航老师的统计学习三要素来打分,刚刚我们只解释了模型,对策略和算法并未解释。当我们执行完前向计算得到输出之后,模型需要根据你的输出和实际的输出按照损失函数计算当前损失,计算损失函数关于权值和偏置的梯度,然后根据梯度下降法更新权值和偏置。经过不断的迭代调整权值和偏置使得损失最小,这便是完整的单层感知机的训练过程。

输入为图像的感知机计算过程(图片来自吴恩达老师deeplearningai作业截图)

上述的单层感知机包含两层神经元,即输入与输出神经元,可以非常容易的实现逻辑与、或和非等线性可分情形,但终归而言,这样的一层感知机的学习能力是非常有限的,对于像异或这样的非线性情形,单层感知机就搞不定了。其学习过程会呈现一定程度的振荡,权值参数 w 难以稳定下来,最终不能求得合适的解。

单层感知机难以解决异或问题(截图于周志华老师的《机器学习》)

对于非线性可分的情况,在感知机基础上一般有了两个解决方向,一个就是著名的支持向量机模型,旨在通过核函数映射来处理非线性的情况,这里我们不多谈,读者朋友们可以去回顾复习机器学习中有关的内容,而另一种就是神经网络模型。这里的神经网络模型也叫多层感知机(MLP: Muti-Layer Perception),与单层的感知机在结构上的区别主要在于 MLP 多了若干隐藏层,这使得神经网络对非线性的情况拟合能力大大增强。

一个单隐层的人工神经网络的结构如下图所示:

可以看到相较于两层神经元的单层感知机,多层感知机中间多了一个隐藏层,称为隐藏层的含义在于神经网络的训练过程中我们只能观察到输入和输出层的数据,对于中间的隐藏层我们是看不见的,因而在深度神经网络(DNN)中,对于中间看不见又难以进行解释的隐藏层又有个黑箱子的称呼。

含隐藏层的神经网络是如何训练的呢?跟感知机一样,神经网络的训练依然是包含前向计算和反向传播两个主要过程。当然,单层感知机没有反向传播的概念,通常是直接建立损失函数对权值和偏置参数的梯度优化。前向计算过程这里不再细述,就是权值偏置与输入的线性加权和激活操作,在隐藏层上有个嵌套的过程。这里我们重点讲一下反向传播算法(Error BackPropagation,因而也叫误差逆传播),作为神经网络的训练算法,反向传播算法可谓是目前最成功的神经网络学习算法了。我们通常说的 BP 神经网络也就是指应用反向传播算法进行训练的神经网络模型。

那反向传播算法究竟是怎样个工作机制呢?前方高能,需要大家自己补习微积分知识。因为小编实在是没有不借助公式把反向传播讲清楚的能力。假设以一个两层(即单隐层)网络为例,也就是上图中的网络结构,小编带大家详细推导一下反向传播的基本过程。

我们假设输入层为 X ,输入层与隐藏层之间的权值和偏置分别为 W1 和 b1,线性加权计算结果为 Z1 = W1*X + b1,采用 sigmoid 激活函数,隐藏层是激活输出为 a1 = σ(Z1)。而隐藏层到输出层的权值和偏置分别为 W2 和 b2,线性加权计算结果为 Z2 = W2*a1+ b2,激活输出为 a2 = σ(Z2)。所以这个两层网络的前向计算过程为 X-Z1-a1-Z2-a2。

所以反向传播的直观理解就是将上述前向计算过程反过来,但必须是梯度计算的方向反过来,假设我们这里采用交叉熵损失函数:

反向传播是基于梯度下降策略的,主要是以目标参数的负梯度方向对参数进行更新,所以基于损失函数对前向计算过程中各个变量进行梯度计算就是非常必要的了。将前向计算过程反过来,那基于损失函数的梯度计算顺序就是 da2-dZ2-dW2-db2-da1-dZ1-dW1-db1。一大堆微分符号!聪明如你应该可以看到我们马上要进行一波链式求导操作。我们从输出 a2 开始进行反向推导。输出层激活输出为 a2,那首先计算损失函数L(y, a) 关于 a2 的微分 da2,影响输出 a2 的是谁呢?由前向传播可知 a2 是由 Z2 经激活函数激活计算而来的,所以计算损失函数关于 Z2 的导数 dZ2 必须经由 a2 进行复合函数求导,即微积分上常说的链式求导法则。然后继续往前推,影响 Z2 的又是哪些变量呢?由前向计算 Z2 = W2*a1+ b2 可知影响 Z2 的有 W2、a1 和 b2,继续按照链式求导法则进行求导即可。最终以交叉熵损失函数为代表的两层神经网络的反向传播向量化求导计算公式如下所示:

在有了梯度计算结果之后,我们便可根据权值更新公式对权值和偏置参数进行更新了,具体计算公式如下,其中 η 为学习率,是个超参数,需要我们在训练时手动指定,当然也可以对其进行调参取得最优超参数。

以上便是 BP 神经网络模型和算法的基本工作流程,简单而言就是前向计算得到输出,反向传播调整参数,最后以得到损失最小时的参数为最优学习参数。神经网络的基本总结流程如下图所示:

训练一个 BP 神经网络并非难事,我们有足够优秀的深度学习计算框架通过几行代码就可以搭建起一个全连接网络。但是为了学习和掌握神经网络的基本思维范式和锻炼实际的编码能力,希望大家能够利用 python 或者 R 在不调用任何算法包的情况下根据算法原理手动实现一遍神经网络模型。最后以一个神经网络可视化的动图给大家动态的展示一下神经网络的训练过程:

第一讲的内容到这里就结束了,在深度学习第一讲中,我们了解了深度学习和机器学习的基本关系和发展历程,对神经网络的理论基础有了更深层次的学习和掌握。咱们下期见!


每一个HTML文档中,都有一个不可或缺的标签:<head>,在几乎所有的HTML文档里, 我们都可以看到类似下面这段代码:

html{color:#000;overflow-y:scroll;overflow:-moz-scrollbars}
body,button,input,select,textarea{font-size:12px;font-family:Arial,sans-serif}
h1,h2,h3,h4,h5,h6{font-size:100%}
em{font-style:normal}
small{font-size:12px}
ol,ul{list-style:none}
a{text-decoration:none}
a:hover{text-decoration:underline}
legend{color:#000}
fieldset,img{border:0}
button,input,select,textarea{font-size:100%}
table{border-collapse:collapse;border-spacing:0}
img{-ms-interpolation-mode:bicubic}
textarea{resize:vertical}
.left{float:left}
.right{float:right}
.overflow{overflow:hidden}
.hide{display:none}
.block{display:block}
.inline{display:inline}
.error{color:red;font-size:12px}
button,label{cursor:pointer}
.clearfix:after{content:'\20';display:block;height:0;clear:both}
.clearfix{zoom:1}
.clear{clear:both;height:0;line-height:0;font-size:0;visibility:hidden;overflow:hidden}
.wordwrap{word-break:break-all;word-wrap:break-word}
.s-yahei{font-family:arial,'Microsoft Yahei','微软雅黑'}
pre.wordwrap{white-space:pre-wrap}
body{text-align:center;background:#fff;width:100%}
body,form{position:relative;z-index:0}
td{text-align:left}
img{border:0}
#s_wrap{position:relative;z-index:0;min-width:1000px}
#wrapper{height:100%}
#head .s-ps-islite{_padding-bottom:370px}
#head_wrapper.s-ps-islite{padding-bottom:370px}#head_wrapper.s-ps-islite #s_lm_wrap{bottom:298px;background:0 0!important;filter:none!important}#head_wrapper.s-ps-islite .s_form{position:relative;z-index:1}#head_wrapper.s-ps-islite .fm{position:absolute;bottom:0}#head_wrapper.s-ps-islite .s-p-top{position:absolute;bottom:40px;width:100%;height:181px}#head_wrapper.s-ps-islite #s_lg_img,#head_wrapper.s-ps-islite#s_lg_img_aging,#head_wrapper.s-ps-islite #s_lg_img_new{position:static;margin:33px auto 0 auto}.s_lm_hide{display:none!important}#head_wrapper.s-down #s_lm_wrap{display:none}.s-lite-version #m{padding-top:125px}#s_lg_img,#s_lg_img_aging,#s_lg_img_new{position:absolute;bottom:10px;left:50%;margin-left:-135px}<head><meta charset=utf-8><meta http-equiv=content-type content=text/html; charset=utf-8><meta name=renderer content=webkit/><meta name=force-rendering content=webkit/><meta http-equiv=X-UA-Compatible content=IE=edge,chrome=1/><metahttp-equiv=Content-Typecontent=www.czjy.cn;charset=gb2312><meta name=viewport content=width=device-width, initial-scale=1.0, minimum-scale=1.0, maximum-scale=1.0, user-scalable=no></head>.s-ps-sug table{width:100%;background:#fff;cursor:default}.s-ps-sug td{color:#000;font:14px arial;height:25px;line-height:25px;padding:0 8px}.s-ps-sug td b{color:#000}.s-ps-sug .mo{background:#ebebeb;cursor:pointer}.s-ps-sug .ml{background:#fff}.s-ps-sug td.sug_storage{color:#7a77c8}.s-ps-sug td.sug_storage b{color:#7a77c8}.s-ps-sug .sug_del{font-size:12px;color:#666;text-decoration:underline;float:right;cursor:pointer;display:none}.s-ps-sug .sug_del{font-size:12px;color:#666;text-decoration:underline;float:right;cursor:pointer;display:none}.s-ps-sug .mo .sug_del{display:block}
.s-ps-sug .sug_ala{border-bottom:1px solid #e6e6e6}

head标签作为一个容器,主要包含了用于描述 HTML 文档自身信息(元数据)的标签,这些标签一般不会在页面中被显示出来。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/RunMews/article/details/131153682

智能推荐

aes解密流程图_(转)AES 加密算法的原理详解-程序员宅基地

文章浏览阅读1.9k次。(转)AES 加密算法的原理详解原文链接如下:AES简介高级加密标准(AES,Advanced Encryption Standard)为最常见的对称加密算法(微信小程序加密传输就是用这个加密算法的)。对称加密算法也就是加密和解密用相同的密钥,具体的加密流程如下图:下面简单介绍下各个部分的作用与意义:明文P没有经过加密的数据。密钥K用来加密明文的密码,在对称加密算法中,加密与解密的密钥是相同的。密..._aes cbc 原理图

Android如何使用XML自定义属性

在res/values文件下定义一个attrs.xml文件,代码如下:在布局中使用,示例代码如下:

Java OCR tesseract 图像智能字符识别技术 Java代码实现_tesocr jave-程序员宅基地

文章浏览阅读10w+次,点赞173次,收藏149次。接着上一篇OCR所说的,上一篇给大家介绍了tesseract 在命令行的简单用法,当然了要继承到我们的程序中,还是需要代码实现的,下面给大家分享下java实现的例子。拿代码扫描上面的图片,然后输出结果。主要思想就是利用Java调用系统任务。下面是核心代码:package com.zhy.test;import java.io.BufferedReader;import_tesocr jave

我用Python分析了1500家电商的销售数据,竟发现了进口车厘子的秘密_爬虫 淘宝车厘子-程序员宅基地

文章浏览阅读519次,点赞2次,收藏2次。图片来源:互联网众所周知,中国是智利车厘子最主要的出口对象,占据了其95%的市场份额。智利驻华大使馆商务参赞娜塔曾表示:“2020-2021产季车厘子实现了丰收,预计今年有50万吨左右的车厘子进入中国市场。”自2020年12月中旬开始,智利海运车厘子陆续到达中国,运输成本较此前空运方式大幅下滑。这意味着,国内消费者将能以更低的价格买到车厘子。然而,近日国内已有多地进口车厘子核酸检测结果为阳性,在这种情况下,你还敢大呼“车厘子自由”吗?01 数据获取本文利用Python采集了淘宝网1585.._爬虫 淘宝车厘子

列式存储-程序员宅基地

文章浏览阅读1.1k次。OLAP中数据存储的问题OLAP 需要队列进行选择,行式存储按行存数据,使用索引加快对数据的查找(索引包括聚集索引(表记录的排列顺序与索引的排列顺序一致)和非聚簇索引(非聚集索引指定了表中记录的逻辑顺序,但记录的物理顺序和索引的顺序不一致))。这种方式对按列的存储和检索不是很高效,查询某一列数据需要将所有行的数据扫描一次,而且对统计分析也不友好。列式存储原理若使用列式存储可以只用扫描出需要的列,行、列存储的对比。文件格式parquet 文件格式:如下图所示:parquet file = hea_列式存储

C语言字符串详解-程序员宅基地

文章浏览阅读4.3w次,点赞184次,收藏1.2k次。我们可以把字符串储存在char类型的数组中,如果char类型的数组末尾包含一个表示字符串末尾的空字符\0,则该数组中的内容就构成了一个字符串因为字符串需要用\0结尾,所以在定义字符串的时候,字符数组的长度要预留多一个字节用来存放\0,\0就是数字0例如。_c语言字符串

随便推点

ACM的算法(觉得很好,有层次感)_前向星 acm算法与实现-程序员宅基地

文章浏览阅读644次。ACM的算法(觉得很好,有层次感)POJ上的一些水题(可用来练手和增加自信) (poj3299,poj2159,poj2739,poj1083,poj2262,poj1503,poj3006,poj2255,poj3094) 初期: 一.基本算法: (1)枚举. (poj1753,poj2965) (2)贪心(poj1328,poj2109,poj2586) _前向星 acm算法与实现

php笔记-程序员宅基地

文章浏览阅读57次。【1】windows下php运行环境安装【2】php连接MySQL【3】centos7下用yum的方式安装php7.2【4】编译式安装php【5】php日志文件【6】php.ini配置【7】php-fpm.conf重要参数详解【8】扩展mysql【1】windows下php运行环境安装参考连接#下载地址https://windows.php.net/download#php-7.3#解压安装包至任意目录#结合apache或nginx进行配置即可###名词解释...

前后端分离之Spring Security Api验证实践-程序员宅基地

文章浏览阅读1.3k次。前后端分离之Spring Security Api验证实践为什么需要RESTful重定向问题为什么需要RESTful使用RESTful之前,会发现各种奇葩的url命名,对url的功能经常需要结合源代码来确认,让人头痛,使用RESTful规范之后,很多问题得以解决。仅仅依靠URL和Method就能定为功能。重定向问题需要重新定义逻辑(JDK8推荐使用Lambda表达式)登录 ,默认下..._spring security api

图像处理之常见二值化方法汇总-程序员宅基地

文章浏览阅读10w+次,点赞25次,收藏117次。图像处理之常见二值化方法汇总图像二值化是图像分析与处理中最常见最重要的处理手段,二值处理方法也非常多。越精准的方法计算量也越大。本文主要介绍四种常见的二值处理方法,通常情况下可以满足大多数图像处理的需要。主要本文讨论的方法仅针对RGB色彩空间。 方法一:该方法非常简单,对RGB彩色图像灰度化以后,扫描图像的每个像素值,值小于127的将像素值设为0(黑色),值大于等于12_二值化

GUI程序开发_gui开发-程序员宅基地

文章浏览阅读1.9k次。JAVA程序设计与应用开发(第2版)——《GUI清华大学出版社》_gui开发

PYTHON实训总结及体会500字,PYTHON实训总结思考建议_python实验体会-程序员宅基地

文章浏览阅读491次。大家好,给大家分享一下PYTHON实训总结及体会1500字,很多人还不知道这一点。这将使你在做实验时的难度加大。然后两下子就将实验报告做完。但学到的知识与难度成正比。一定要将课本上的知识吃透。【篇一:实验心得体会】就像以前做物理实验一样。在老师讲解时就会听不懂。你要清楚电桥的各种接法。这将使你极大地浪费时间。在做测试技术的实验前。因为这是做实验的基础。_python实验体会

推荐文章

热门文章

相关标签