大数据技术概论-程序员宅基地

技术标签: 大数据  

大数据技术概论

大数据技术的产生
大数据的基本概念
●大数据简介:
大数据是规模非常巨大和复杂的数据集,传统数据库管理工具处理起来面临很多问题,比如说获取、存储、检索、共享、分析和可视化,数据量达到PB、EB或ZB的级别。
大数据有三个V:
一是数据量(Volume),数据量是持续快速增加的;
二是高速(Velocity)的数据;三是多样化(Variety)数据类型和来源。
随着云时代的来临,大数(Big data)也吸引了越来越多的关注。支撑大数据以及云计算的底层原则是一样的,即规模化、自动化、资源配置、自愈性。
●大数据的处理流程
数据采集数据统计分析数据挖掘
1.数据采集:
利用多种轻型数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作,具有并发性高的特点。经常使用的产品有:MySQL,Oracle,HBase,RedisMongoDB和等,并且这些产品的特点各不相同
2.统计分析:
将海量的来自前端的数据快速导入到一个集中的大型分布式数据库或者分布式存储集群,利用分布式技术来对存储于其内的集中的海量数据进行普通的查询和分类汇总等,以此满足大多数常见的分析需求。会面临:导入数据量大,查询涉及的数据量大,查询请求多的挑战。
3数据挖掘
基于前面的查询数据进行数括挖掘,来满足高级别的数据分析需求:这一步面临算法复杂,并且计算涉及的数据量和计算量都大的难题。一般使用R/SAS等统计软件。
●大数据在各个领的应用
咨询业:BM对50000名咨询顾问的档案建立了数学模型,从而计算机可以对不同的项目自动挑选出最合适的团队。广告业:硅谷的最优边界公司对网上广告提供了优化服务,对每一条网上广告都可以计算出反应率和投资收益率市场营业:
UMBRIA公司通过数值计算选择博客网站上应该跳出来的广告产品,通过向量数学,可以确认汉堡王的广告的确对年轻人的目标客户最有效媒体业:
纽约的 INFORM公司运用几何学原理将文章根据单词和词组进行转换,存入虚图书馆,然后根据读者档案挑选出最适合读者阅读的文章提供给读者社交网络:
社交网络产生了海量用户以及实时和完整的数据,同时社交网络也记录了用户群体的情绪,通过深入挖握这些数据来了解用户,然后将这些分析后的数据信息推给需要的品牌商家或是微博营销公司。
●IBM的大数据战略
基于“3A5步”动态路线图,IBM提出了“大数
据平台”架构。该平台的四大核心能力包括
Hadoop系统、流计算
(StreamComputing)、数据仓库(DataWarehouse)和信息整合与治理(InformationIntegration and Governance)。在这里插入图片描述
大数据产生的原因
1,互联网的发展,产生海量可获得的非结构化数据。
2,传统数据库在处理非结构化数据出现瓶颈。
3,分布式技术和搜索技术的发展。
大数据概念的提出
1、“大数据的名称来自于未来学家托夫勒所著的《第三次浪潮》尽管“大数据”这个词直到最近才受到人们的高度关注,但早在1980年,茗名未来学家托夫勒在其所著的《第三次浪潮》中就热情地将“大数据”称颂为“第三次浪潮的华彩乐章”。《自然》杂志在2008年月推出了名为大数据”的封面专栏。从2009年开始“大数据”才成为互联网技术行业中的热门词汇。
2、最早应用大数据的是麦肯锡公司(McKinsey)对“大数据”进行收集和分析的设想,来自于世界著名的管理咨询公司麦肯锡公司。麦肯锡公司右到了各种网络平台记录的个人淘备潜在的商业价值,于是投入大量人力秘密进行调研,在2011年6月发布了关于大数据”的报告:该报告对“大数据”的影响、关键技术和应用领域等都进行了详尽的分析。麦肯锡的报告得到了金融界的高度重视,而后逐渐受到了各行各业关注。
3、“大数据的特点由维克托迈尔恩伯格和肯尼斯库克耶在大数据时代》中提出过维克托迈尔舍恩怕格和肯尼克耶编写的大数据时代中提出:“大数据的4V特点: volume(数据量大)、 Velocity入和处理速度快)、 Variely(数据多样性)、 Value(价值密度低)。这些特点基本上得到了大家的认可,凡提到“大数据特点的文章,基本上采用了这4个特点。
4、在云计算出现之后大数据才凸显其真正价值自从有了云计算服务器,“大数据”才有了可以运行的轨道,才可以实现其真正的价值有人就形象地将种“大数据的应用比作一辆辆汽车”,支撑起这些“汽车”运行的“公路“就是云计算,最名的实例就是Google搜索引擎面对海量Weh数据:Google于2006年首先提出云计算的概念。支撑Gogl内部各种“大数据应用的,正是 Gougle公司自行研发的云计算服务器。
“大数据”的基本判断标准
什么样的数据才是“大数据”?透过层层的迷雾和众说纷纭,可以讲:有了云计算服务器才有了“大数据”应用的价值。维克托曾说过:“假设你要测量一个葡萄园的温度,但是整个葡萄园只有一个温度测量仪,那你就必须确保这个测试仪是精确的而且能够一直工作。反过来,如果每100棵葡萄树就有一个测量仪,有些测试的数据可能会是错误的,也可能会更加混乱,但众多的读数合起来就可以提供一个更加准确的结果。因为这里面包含了更多的数据,而它提供的价值不仅能抵消掉错误数据造成的影响,还能提供更多的额外价值。现在想想增加读数频率的这个事情。如果每隔一分钟就测量一下温度,十次甚至百次的话,不仅读数可能出错,连时间先后都可能搞混。试想,如果信息在网络中流动,那么一条记录很可能在传输过程中被延迟,在其到达的时候已经没有意义了,甚至干脆在奔涌的信息洪流中彻底迷失。虽然得到的信息不再准确,但收集到的数量庞大的信息让我们放弃严格精确的选择变得更为划算为了高频率而放弃了精确性,结果观察到了一些本可能被错过的变化。虽然如果能够下足够多的工夫,这些错误是可以避免的,但在很多情况下,与致力于避免错误相比,对错误的包容会带来更多好处。为了规模的扩大,我们接受适量错误的存在。”其中描述葡萄园测量仪采集的数据就是大数据。大数据实质上是全面、混杂的并且具有数据量大、输入和处理速度快、数据多样性、价值密度低特点的数据。
第四范式——大数据对科学研究产生的影响
吉姆·格雷是一个传奇人物。他是1998年图灵奖得主,著名的计算机科学家。2007年1月28日,他在自己酷爱的航海运动中驾驶帆船失踪于茫茫大海之上。短短17天之前,1月11日,他在加州山景城召开的NRC-CSTB(National Research Council-Computer Science and Telecommunications Board)上,发表了他的著名演讲:科学方法的一次革命。在这篇演讲中,吉姆·格雷将科学研究的范式分为四类——除了之前的实验范式、理论范式、仿真范式之外

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_51491739/article/details/111386346

智能推荐

JAVA复习笔记02-程序员宅基地

文章浏览阅读122次。16、interface中的成员变量默认为public static final类型,方法只能是public(默认为public)17、内部类访问外部类成员:Outer.this.num;18、一道有趣的题目  使用内部类实现该程序。(答案附在本文末尾)interface Inter { void show();}clas..._public

智慧交通与汽车智能化构建“交通强国”-程序员宅基地

文章浏览阅读1k次。智慧交通正在成为新基建的主力军,伴随着新能源汽车和汽车融入智能制造产业链的结构性深化,智慧交通产业构架成为中国经济发展进入新常态下融入碳中和、碳达峰的绿色发展和以新基建为代表的的中国智能制..._智能交通 智慧交通 芯片

阿里云服务器在docker上部署MySQL(图文详细教程)_阿里云服务器docker安装数据库-程序员宅基地

文章浏览阅读1.4k次。阿里云服务器在docker上部署MySQL(图文详细教程)设置容器、运行容情做数据挂载、端口映射、目录映射。_阿里云服务器docker安装数据库

Openjudge:向量点积计算_python 给定两个n维向量a=(a1,a2,...,an)和b=(b1,b2,...,bn),求-程序员宅基地

文章浏览阅读1.5k次。描述在线性代数、计算几何中,向量点积是一种十分重要的运算。给定两个n维向量a=(a1,a2,…,an)和b=(b1,b2,…,bn),求点积a·b=a1b1+a2b2+…+anbn。输入第一行是一个整数n。1 <= n <= 1000。第二行包含n个整数a1,a2,…,an。第三行包含n个整数b1,b2,…,bn。相邻整数之间用单个空格隔开。输出一个整数,即两个向量的点积结果。样例输入31 4 62 1 5样例输出36n = int(input())s = li_python 给定两个n维向量a=(a1,a2,...,an)和b=(b1,b2,...,bn),求点积a·b=a1b1+a2b

Openjudge:求三个数的和_python如果三个数全部是整数,则结果也是整数。如果三个数中有小数,则结果-程序员宅基地

文章浏览阅读3.8k次。描述输入三个整数或小数,输出它们的和如果结果是整数,就保留小数点后面一位的0(用python写则不用特别处理,程序自然会如此)输入​输入三个整数或小数输出和样例输入1 2.3 4.7样例输出8.0代码:s = input().split()a = float(s[0])b = float(s[1])c = float(s[2])print(a+b+c)..._python如果三个数全部是整数,则结果也是整数。如果三个数中有小数,则结果

最简单的视音频播放示例7:SDL2播放RGB/YUV_用c语言调用sdl2播放yuv-程序员宅基地

文章浏览阅读627次。//////////////转载:雷神博客http://blog.csdn.net/leixiaohua1020/article/details/40525591/////////////本文记录SDL播放视频的技术。在这里使用的版本是SDL2。实际上SDL本身并不提供视音频播放的功能,它只是封装了视音频播放的底层API。在Windows平台下,SDL封装了Direct3D_用c语言调用sdl2播放yuv

随便推点

android,ListView_zy-2021-10-21-0119-程序员宅基地

文章浏览阅读999次。Activity页public class MainActivity extends AppCompatActivity { private ListView mlv1; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout.activity_main);_zy-2021-10-21-0119

DOMJavascript总结_javascript curtd-程序员宅基地

文章浏览阅读1.6k次。1,动态设置事件: function F1(){ alert('In F1'); } function F2{ alert(In F2); }_javascript curtd

R语言ggplot2可视化:使用ggplot2可视化散点图、使用labs参数自定义X轴的轴标签文本(customize X axis labels)_r语言中的labs()的用法-程序员宅基地

文章浏览阅读685次。R语言ggplot2可视化:使用ggplot2可视化散点图、使用labs参数自定义X轴的轴标签文本(customize X axis labels)_r语言中的labs()的用法

What is the difference between L1 and L2 regularization?_the differences between l1 snd l2-程序员宅基地

文章浏览阅读4.1k次。今天讨论班一个师姐讲到L1 norm还有L2 norm 的regularization问题,还有晚上和一个同学也讨论到这个问题,具体什么时候用L1,什么时候用L2,论文上写道一般当成分中有几个成分是principal factor的时候我们会使用L1 norm penalty,但是为什么L1会有这个效果。一个网上的讨论:http://www.quora.com/Machine-Lear_the differences between l1 snd l2

Java抽象类/抽象方法定义及其特性详解_抽象方法怎么定义-程序员宅基地

文章浏览阅读8.7k次,点赞13次,收藏40次。类的继承结构中,越往上的类越具有通用性,也就越抽象。当它抽象到一定程度,就变成概念成框架,不能再产生实例化的对象了。例如“交通工具”,就无法用它来产生一个实例。对应这一现象,Java中提供了抽象类,它只能作为父类,不能实例化。定义抽象类的作用是将一类对象的共同特点抽象出来,成为代表该类共同特性的抽象概念,其后在描述某一具体对象时,只要添加与其他子类对象的不同之处,而不需要重复类的共同特性。这样就使得程序概念层次分明,开发更高效。与抽象类紧密相连的是抽象方法一它总是用在抽象类或接口中。_抽象方法怎么定义

从海外客户端Bidding看,移动开发者应如何应对竞价模式变化?_admob竞价和瀑布的区别和文档-程序员宅基地

文章浏览阅读2.0k次。从海外客户端Bidding看,移动开发者应如何应对竞价模式变化2021年,对于渴望通过广告进行变现的移动开发者来说,可能注定是风云变幻的一年,也将是移动互联网广告程序化购买这个行业程碑式的一年,对此很多国内出海开发者会有更早的感触。自2020年三四季度始,大洋彼岸的美国就掀起了一轮“移动流量的客户端竞价革命”。其实,对于流量竞价(Realtime Bidding)很多PC时代的开发者并不陌生,简而言之,流量竞价就是APP的每一次广告曝光的机会都可以分发至多个买方平台,比如DS、Adnetwork_admob竞价和瀑布的区别和文档

推荐文章

热门文章

相关标签