第一章 数据与大数据_数据与大数据是什么意思-程序员宅基地

技术标签: 大数据导论  大数据  

大数据导论

昨天出去玩了回来之后实在是太困太困了,早上看了一些内容,在晚上的时候电脑都准备打开来写写,但是就完全睁不开眼睛了,今天来补一下。这两次看的都还是一些概念性的问题,没有关于技术的,实在是有点好多,有点枯燥,但是了解到了一些我之前不知道的东西,其实也挺好。

第一章 数据与大数据

这一章讲的是一些关于数据的定义以及大数据所面临的一些挑战、从国家层面制定的一些将大数据运用到生活中的政策等问题。

1.1
数据---->大数据---->多边定义和理解出发(价值期望)不同的领域对于大数据有着不同的期望。
数据:描述事物的符号记录,是信息的载体,信息是知识的载体。
数据的特征:异构、分布、多态、多模式
异构▼
在这里插入图片描述
分布▼
在这里插入图片描述
多态▼
在这里插入图片描述

知识发现:从数据中识别出有效的、新颖的、潜在有用的。将低级层数据转换为高层知识。
其中一个常用的技术手段就是数据挖掘

·数据挖掘常与计算机科学有关,并通过统计、在线分析、处理、情报检索、机器学习、专家系统等诸多方法实现,分析方法有聚类、分类、管理规则、发现、预测…

1.2.2大数据难题

从计算机角度来看数据
(1)数据获取将物理信号转换成计算机可以存储的数据,涉及传感、采样、A/D 转换以及在Bit基础上的字节化和数据化。
(2)存储意味着将数据存储在什么介质上及如何管理和组织
(3)数据使用一位针对某个具体的应用目标,使用计算机相关技术完成问题建模和求解。

所谓大数据,就是大到无法通过现有的手段在合理的时间内达到截取、管理、处理并整理成为人类所能解读的信息 说的好玄乎哦~

4v:volume、variety、velocity、value
其实还有好多个4v,这些特征都是尝试从数据层、计算层和应用层进行的大数据特征的描述。

大数据暗含三个方面的难题属性
1、规模属性:量级大
2、技术属性:大数据价值实现依赖一系列的技术,数据层、算法层和应用开发层等多个方面。
3、价值属性:各边角色对大数据价值都有共识,期望也各不相同。

1.2.3大数据溯源

这一板块讲的是关于大数据如何在各个领域中发展起来以及一些产业如何给大数据一些支撑。
大数据受到广大的关注~
一.基础科学的发展
之前一本科幻题材的书中说人类的进步还是得关注基础科学的发展呀,也不知道到底啥是基础科学。百科一下自己还是挺无知的啊!▼
在这里插入图片描述
1、传感材料技术==>数据采集的渠道和方式变多
2、芯片技术= =>采集速度和精度不断提高
3.存储材料技术= =>可以保存越来越多的数据

二、烟囱式软件开发
应用场景的不同以及用户的需求不同,软件呈“烟囱式”开发,相应不同的需求。不同软件系统处于最原始价值期望主动或被动生成数据,在实现其最原始的价值期望后存放的不同的业务系统中。如何挖掘这样孤立的数据已经成为人们在大数据的需求。
os:越来越多的软件产生越来越多的数据,每个人用的软件各不一样,如何将自己使用的软件数据能够结合起来一起分析找到一些价值是现在人们对于大数据的需求。

三、技术的持续进步
高性能计算与技术不断提升,人们想获得更多的价值,便自然地进一步产生更加膨胀的需求。
大数据为目标应用提供赋能作用。
人类制造并采集数据的度领先于处理技术的发展,人们面临“数据规模超过现有数据工具获取、存储、管理和分析能力的数据集”。

1.2.4大数据应用现状

大数据已成为认识复杂系统的思维、手段,促进经济转型与增长的新引擎。提升国家综合能力、、、反正都是好的e
1.2.4.1 政策环境

2012年美国奥巴马政府发布《大数据研究 和发展倡议》
2013年澳大利亚发布了公共服务大数据战略
2014年中国政府在两会政府工作报告中,首次将大数据纳入国家战略
“政务云”提升政府服务和监管效率、造福广大群众
《运用大数据加强对市场主体的服务和监管的若干意见》
2015年中国政府发布《国务院关于印发促进大数据发展行动纲要的通知》
2015年10月26日 将“国家大数据战略”写入党的全体会议,标志着大数据战略正式上升为国家战略。
os:要是平时多关注一点国家新闻政策这些就不至于写不出来一篇关于大数据应用的论文了,就是说我的关注点到底还是太狭窄了,很多东西都不知道。

与国际相比,我国存在较大的差距
1、理论和核心技术落后
2、数据治理体系未完成
3、应用发展不均衡
os:1、我们国家发布关于大数据的政策都比其他国家晚,肯定还有许多的东西很不完善,身边有些同学对自己这个专业简直信心满满,盲目无知就有点好玩了。
2、这一点对于我们来说还是有点遥远,也没有太多的了解,很空大
3、当然这一点是很明显的,对于我说还没有感觉到大数据太多的应用,但是大数据就在身边,只是自己不了解!!

对大数据的认可和期待是否落实取决于是否能将大数据相关政策务实地落地并创造真正的价值。

综上:大数据的应用环境可以概括为:应用需求迫切、应用场景丰富、有政策法规支撑、有IT基础设施支撑多变普遍认同,有助于大数据广泛应用,推进。

1.2.4.4大数据产业

1.大数据数据源类
1>数据市场:将收集到的数据通过一个平台给数据的需求方
2>数据收集:主动收集和整合某类数据,然后将这些数据销售至潜在的目标用户群
3>个人数据:传感器及各类穿戴设备的应用(我一直在想能不能把我们之前的那个自控力手环能够实现,但是一直是在想,我并没有做出什么实际的行动去让这个想法实现,所以真的就能垃圾哦!)

2.大数据分析类
数据分析时大数据核心

——————2021.1.23 看————————
我快晕厥

大数据时代的数据分析具有的典型特征如下:
(1)需要在目标驱动下设计面向(甲方)利益最大化的整体解决方案,包括数据获取、存取、数据分析和计算架构、运维架构等。
(2)数据可视化的需求被刻意提高,提高良好的用户体验方式,允许客户以可视化方式回溯(二次研判)
(3)如何充分复用和最大化数据分析师的能力被提到很重要的位置。

3.大数据基础设施类
基本流程 : 数据采集——>数据存储——>数据分析——>系统实现——>系统运维
(1)Hadoop是市场占有率和认知度最高的一个分布式系统基础架构,核心是HDFS和MapReduce,前者提供存储,后者提供计算。
(2)不同技术和策略的存储型厂商。
(3)数据组织和管理 :SQL:持久化数据,支持事物ACID特性
NoSQL:解决大规模数据集合
NewSQL:新的课拓展、高性能的数据库简称,有前两种数据库的特性。
(4)系统运维保障方面
见书16页

4.大数据应用类
广告优化、出版工具、市场营销、行业应用、大数据应用服务、提供商等

5.跨基础设施分析
传统巨头 IT(包括微软、IBM、oracle等)在既有产品线上进行延伸而展开的相关开发并同意归并到“跨基础设施分析”

6.开源项目
开源(open soure),即可开放源代码,代码可被公众使用的软件。在大数据方面的开源工具包括四个领域:
(1)数据存储:Hbase(NoSQL数据库)、MySQL(sql数据库)
(2)开发平台:Apache Hadoop平台、openstack(平台)
(3)开发工具和集成:Apache Mahout(机器学习编程语言)、Python(脚本语言)、r语言(预测分析编程语言)
(4)分析和报告工具:Gephi、splunk(IT分析平台)
大数据开源社区对于大数据技术的发展有积极作用、提供源代码下载。。
os:这一部分好多东西我不知道,但是至少了解了一些,比如开源社区是什么,之前一直听到但是也不知道是啥,满足了。

1.3大数据多边定义

“Data of a very large size,typically to the extent that its manipulation and management present significant logistical challenges”
From Oxford English Dictionary
在书上这一部分有许多的专家对大数据有了自己的定义,有从数据的量上定义的又从数据价值上定义的。
所谓大数据时指数据本身及为了实现“数据——>价值”这一截止逻辑而设计的工具、平台和系统的合集。

1.3.2 大数据分类

(1)根据数据类型进行描述,如文本大数据、音频大数据从中发现价值,一个栗子:利用音频大数据进行说话人身份识别、内容识别、情绪识别、互译等嫁接在不同的应用场景实现不同的价值期望。

在未来,融合不同的数据类型的大数据研究会是一个重要的研究方向
(2)根据行业应用或应用领域分类:电商大数据、工业大数据、医疗大数据等,为各领域提供服务。
(3)根据数据组织形态进行描述(来自不同业务系统)如社交大数据、芝麻信用。、

1.3.3多边研究视角
1.3.3.1哲学层

大数据是什么?从哪里来?到哪里去?本质是什么?我们真的需要吗?如何拥抱大数据?

1.3.3.2科学层面

传统的计算理论在大数据场景下是否还有效?针对大量数据是否可计算?

1.3.3.3技术层面

在这里插入图片描述
在技术层次,在具体计算环境中,从多个数据源中采集数据,然后汇聚在一起,然后通过对数据进行处理和分析,为具体的应用提供服务。

四个技术要点
(1)数据采集与汇聚
通过不同的数据获取协议从不同的数据源中获得数据并将这些数据以某一种形式进行集成和连接。
在这个技术中存在许多难点,详见书24页
(2)数据存储与管理
数据存储方案的选型往往需要综合考虑源自数据层、应用层和实际应用场景及部署的条件等多种因素
(3)数据处理与分析
通过对数据进行有效的处理和分析,达到为应用目标服务的目的,有两种常见方法如下:
<1>在领域知识丰富基础上,以逻辑为基础,利用领域知识,然后领域此知识对数据进行加工处理,然后直接为应用服务。
<2>以机器学习和数据挖掘为基础,通过对历史数据进行建模获得知识,然后利用此知识对数据进行加工处理,然后直接为应用服务。
(4)计算环境
目前用于提高性能计算的策略有3类:
<1>充分提升和挖掘单个计算节点的计算性能,如通过对计算主机进行CPU、内存、硬盘的扩容尝试提升单个计算节点的性能。
<2>通过图形处理器GPU技术提升计算机计算性能。
<3>将复杂的任务“分而治之”,引入分布式计算机构以提升计算性能。目前主流的分布式计算架构有Hadoop、Spark、storm

1.3.4数据智能与数据科学

计算的本质是进行如y=H(x)的计算
H(·)就是算法或者软件(程序)
x:输入和数据;
y:利用某个算法处理后的结果

大数据时代的研究和以往的研究不同,数据是增量到来的,输入的数据是有相关性的,从算法+数据的角度进行研究。

计算机科学是关于算法的科学,数据科学是关于数据的科学。

数据的背后是网络,网络的背后是人,研究网络数据实际上是研究人组成的社会网络。

1.4大数据价值期望

大数据是提升国家总是治理能力新途径,政府可以通过大数据揭示大政治、经济、社会事务中传统技术难以解决的问题。不同角色团体对大数据的价值期望依次如下所述:

1.4.1战略资源

大数据被许多国家上升为国家战略,出台了许多政策支撑大数据的运营。

1.4.2竞争资本

(1)产业界
大数据被认为是企业竞争力的源泉,也是新型模式和商业模式和商业模式创新设计的基础。
在大数据产业链中,逐渐形成了3中典型的公司形态
数据公司:Kaggle、LinkedIn、Twitter
技术型公司:Amazon、Microsoft
思维型公司:DeepMind

(2)学术界
出于关键技术预研的担当,围绕大数据所涉及的各类科学理论和关键技术展开研究、积淀形成越来越丰富成果,为大数据应用提供了坚实的理论技术支撑。
大数据方面的开元工具分为四个:数据存储(Hbase)、开发平台(H到adoop)开发工具和集成(Apache Mahout)、分析和报告工具(Talend)

(3)教育界
越来越重视大数据人才的培养,体现在置办培训班;从发展战略角度,也有意部署大数据专业建设战略。

1.4.3商品形式

数据是可以买卖的。
知名数据服务商有微团数市场,我国数据交易已经有了一定发展,主要如下四种:
(1)基于大数据交易所:贵阳大数据交易所
(2)基于行业特定领域:基于行业数据标准交易实现数据统一评估、统一管理、统一采集、统一交易,从而实现特定行业的数据交易
(3)数据资源企业推动的大数据交易
(4)互联网派生出的大数据交易

1.4.4研究范式

范式(Paradigm)指的是从事某一科学的研究者群体本体论、认识论和方法论的基本承诺,是科学家们所共同接受的一组假说、理论、准则和方法的总和,这些东西形成科学家心理上的共同信念。
所谓范式,就是某种必须遵循的规则或大家都在用的套路。

科学研究范式有四种,分别是实验归纳、模型推演、仿真模拟、数据密集型科学发现(科学大数据)

(1)实验归纳(第一范式)
主要已记录和描述自然现象为特征,培根指出一切真理都必须以大量的事实材料为依据,并提出寻找因果联系的科学归纳法。
(2)模型推演(第二范式)
偏重理论总结合理性总结,强调普遍的理论认识而非直接使用意义的科学。强调数据模型的构建。
(3)仿真模拟(第三范式)
是假设驱动的,即先提出可能的理论,再搜集数据,然后通过计算来验证。计算机有告诉计算的优势,
(4)数据密集型科学发现(第四范式)
人们希望通过已经有(并不断地、有意识的富集)的大量数据的有效分析和计算,得出未知的理论,让计算机自己从海量的数据中发现模式,也就是共性,客观的求出结果。

1.5大数据价值实现

1.5.1大数据应用逻辑

从大数据价值实现的角度出发,可拓展价值可通过以下几个渠道加以发掘:
(1)数据本身可拓展价值
任何一个单独数据源的数据其存在都有其最原始的价值期望,这个价值期望实现后,其就以成本的形式存在,这往往需要想象力和机遇。
(2)和其他数据源数据连接后实现
任何一个单独数据源的数据价值或许比较有限,但和其他数据源的数据以某种方式能够连接在一起就会有更多的语义价值。

1.5.2大数据工程管理

应用为本是大数据项目建设的底线,涉及以下几个问题:
1.应用场景挖掘
(1)从利益角色的只能定位、可用性需求、用户体验需求角度出发、研判亿用户为中心的痛点和利益增长点。
(2)从既有业务功能,任务或者功能驱动角度出发,研判以既有业务为中心的可拓展功能和新增功能。
(3)从数据本身出发,通过对数据所表示的实体内涵以及从该数据中发现的实体关系等找出相应的应用场景,往往是数据,思维和想象力的驱动。

2.应用场景评估
(1)应用场景应该具有良好的,甚至坚实的IT基础
(2)应用场景应该具备做够规模的数据(包括数据的厚度,活度、混杂度等)
(3)应用场景应该具备足够的先验领域知识或者能否从既有的数据中挖掘出有效的知识(模型)也是一个重要的考察指标。

3.应用目标实现
大数据项目的建设过程是一个典型的工程化行为,需要用工程化的思想来指导并解决其中的各种问题,研究内容包括技术、方法、工具和管理。
(1)项目计划阶段
明确做什么、是否可做
(2)项目开发阶段
需求调研和分析、方案设计和技术选型、项目开发和测试、需求迭代分析和研判。
常见的流程 采集——>存取——>建模——>系统
(3)项目运维阶段
软件运维、技术运维、价值运维 (这一块是最重要的一部分,运营大数据项目平台获得期望的收益)

1.5.3大数据实施逻辑

(1)运行环境在部署以个大数据项目(产品)时必须关注该项目(产品)的运行环境,包括整个国家的法律、社会也包括整个项目的运行环境。
(2)服务平台需要考虑未来的大数据平台提供怎样的服务以及为谁服务?
(3)应用系统大数据项目建设有典型的“大数据 小应用”特点,围绕这些痛点进行增值应用的开发,从数据中挖掘更多有价值的东西应该是一种常态。
(4)数据建设
(5)标准规范数据

1.6大数据技术图谱

1.6.1大数据生命周期

数据采集、数据存取、数据应用是数据生命周期中的三类基本操作
(1)数据采集,数据来源至少有四种:
<1>传感器:将物理信号——>电信号——>计算机可计算表达的字节
所谓的万物数字化就是通过此方法实现。
<2>业务系统在执行特定的业务活动室生成的大量数据
<3>用火通过软件人机交互等主动输入的数据
<4>通过科学实验搜集和汇聚

(2)数据存取
将数据以某种便于组织、管理和后续存取的方式进行可信存储并提供透明、高吞吐的读取。

(3)数据应用

1.6. 2大数据关键环节

数据、技术、思维是大数据价值实现的3个基本要素

数据渠道层==>数据基础设施层= =>应用基础实施层= =>应用层(面向具体的应用需求制定开发垂直应用系统或平台)

1.6.3大数据关键技术

更有用:应用场景的精确研判以及技术方案实现
更精准:从数据中发掘的洞见是否准确
更高效:高效运营及大数据处理和分析的高效吞吐率。

GOD!终于读完了第一章,感觉都是在讲大数据好好好,内容蛮多的呀,不过了解到了一些之前想知道但是一直忘记去了解的东西,比如之前在何同学视频中听到的第三范式今天就学到了,并且了解到了第四范式的知识,哈哈哈哈哈这就很满足!

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/fenfyue/article/details/113044545

智能推荐

location.href 实现点击下载功能-程序员宅基地

文章浏览阅读7.9k次。如果页面上要实现一个点击下载的功能,传统做法是使用一个 a 标签,然后将该标签的 href 属性地址指向下载文件在服务端的地址(相对地址或者绝对地址),比如这样:能这样实现是因为,在浏览器地址栏输入一个文件地址,如果该文件能在浏览器上打开,那么就直接打开,比如 html 文件,jpg文件等;但是如果该文件不能在浏览器上打开,就会变为下载。但是有时候这样做会显得有点复杂。比如说我在一个移动端页..._ios 的 location.href 能下载文件嘛

新塘N76E003红外遥控解码程序_n76e003做遥控器发射程序-程序员宅基地

文章浏览阅读5k次。 一直用的STM8S003的单片机,后来价格涨到三块多不得不换。拿上新塘N76E003芯片,资源中规中矩,相比用习惯Cortex M 内核微控制器和STM8,用这个芯片资源就有些少了,先来个简单的红外遥控解码。(打算用外部IO中断来触发解码的,调试时发现会无规律的触发IO中断,只得用IO扫描方式去解红外遥控信号。)以日本NEC的编码协议组成: 引导码,16bit用户码(地址码),8b..._n76e003做遥控器发射程序

ReentrantLock使用示例_reentrantlock用法示例-程序员宅基地

文章浏览阅读612次。import java.util.concurrent.locks.Lock;import java.util.concurrent.locks.ReentrantLock;public class ExplicitLockInfo { private static final Lock lock = new ReentrantLock(); private static int sharedData = 0; public static void main(String[._reentrantlock用法示例

程序猿容易轻视的注释和送礼的八项原则_程序员给领导送礼-程序员宅基地

文章浏览阅读869次,点赞4次,收藏2次。送礼虽然事小,但是情商却一见高低,解密程序猿必须了解的八项送礼原则!_程序员给领导送礼

Python socket解析HTTP请求内容_python的socket收到的前端内容是请求头-程序员宅基地

文章浏览阅读3k次。思路:1. 解析HTTP请求的头部 HTTP请求头部的结束符行为"\r\n",可以按行读取HTTP请求头的内容,如果读到一行为"\r\n",说明HTTP请求头结束。2.请求头里面含有Content-Length参数 如果HTTP请求里面有Content-Length参数,说明HTTP请求的内容大小是确定的,请求直接读取Content-Length的值,然后读取相应字节的的内容..._python的socket收到的前端内容是请求头

【oracle数据文件损坏处理】-程序员宅基地

文章浏览阅读67次。2、在sqlplus中登录 conn mkgk/mkgk as sysdba,执行一下内容。2和6的状态是“status”,代表需要恢复。1、查看datafile信息(文件号、是否在线和路径名字)(此操作是为将数据文件6的状态改为在线)

随便推点

rpc error: code = 2 desc = oci runtime error: exec failed: container_linux.go:247: starting containe-程序员宅基地

文章浏览阅读1w次。问题由于Docker 安装的比较老,docker exec -it test bash 存在Bug问题如下:rpc error: code = 2 desc = oci runtime error: exec failed: container_linux.go:247: starting container process caused "process_linux.go:110: d..._rpc error: code = 2 desc = oci runtime error: exec failed: container_linux.g

想要秒变“优牙人”,只需要uya.ren-程序员宅基地

文章浏览阅读592次。最近“牙”可是大火接二连三的喜上热搜前有乘风破浪的姐姐们招商图曝光却现脸垮口红粘牙后有沙雕男孩黄子韬吃饭咬断临时牙齿#黄子韬 照亮全场的大牙#冲上微博热搜既然牙齿如此重要这家uya.ren就很有必要了解一下了Dang Dang Danguya.ren——牙齐齐来了!牙齐齐前身是一家牙齿正畸的远程医疗服务平台但空中医疗并不能真正解决患者的问题于是改变思路,从互联网医疗转向线下布局目前是专注牙科行业发展解决方案的互联网医疗平台._uya.ren

【11g Performance 】11 The Query Optimizer_11 the following information is available about t-程序员宅基地

文章浏览阅读282次。11The Query OptimizerThis chapter discusses SQL processing, optimization methods, and how thequery optimizer(usually called theoptimizer) chooses a specific plan to execute SQL.The chapter con..._11 the following information is available about t

Android 遍历文件夹,搜索指定扩展名的文件_1278-程序员宅基地

文章浏览阅读1k次。private List lstFile =new ArrayList(); //结果 List public void GetFiles(String Path, String Extension,boolean IsIterative) //搜索目录,扩展名,是否进入子文件夹{ File[] files =new File(Path).listFiles(_1278

辉哥基于android S 分析过度动画以及窗口动画_窗口动画和过渡动画区别-程序员宅基地

文章浏览阅读4.7k次,点赞4次,收藏12次。动画分析android 内有很多类型 这里主要讲过度动画和窗口动画的实现原理,包括动画如何启动以及后续如何更新帧数据。android 分了各种动画 比如过度动画或者窗口动画 然后过度动画又分了好多种什么Activity 打开动画 关闭动画等等,这里不要被这些花里胡哨的分类给搞昏了头,这里不管分了多少类,其实也只是区别场景而已,比如是app内子activity打开就为TRANSIT_OLD_ACTIVITY_OPEN ,然后应用间切换 其实本质也就是TASK 间切换 就为TRANSIT..._窗口动画和过渡动画区别

DS18B20嵌入式驱动程序_ds18b20驱动程序-程序员宅基地

文章浏览阅读3.4k次。DS18B20的特点:DS18B20 单线数字温度传感器,即“一线器件”,其具有独特的优点:( 1 )采用单总线的接口方式 与微处理器连接时仅需要一条口线即可实现微处理器与 DS18B20 的双向通讯。单总线具有经济性好,抗干扰能力强,适合于恶劣环境的现场温度测量,使用方便等优点,使用户可轻松地组建传感器网络,为测量系统的构建引入全新概念。( 2 )测量温度范围宽,测量精度高 DS18..._ds18b20驱动程序

推荐文章

热门文章

相关标签