浅谈大数据技术_栖溪阁晓生的博客-程序员ITS203_浅谈大数据

技术标签: 大数据技术  大数据  

现如今,大数据技术已经渗透到我们生活的方方面面,人们也很乐于谈及大数据。但是,什么是大数据?大数据是如何产生的?大数据涉及哪些技术?大数据给我们带来了什么好处?对我们产生了什么影响? 也许并不是所有人都能讲的很清楚明白,本文将针对大数据时代的发展,大数据的概念,影响和应用等方面来讲述大数据,希望你对大数据能够产生新的认识。

一、大数据的发展

截至目前,我们正在经历第三次信息化浪潮。第一次是在1980年左右,个人计算机时代的来临,比较有代表的企业有Inter、AMD、IBM、苹果、微软、联想等,主要解决的是信息处理的问题;第二次是在1995年前后,我们进入了互联网的时代,信息传输得到了很好的发展,代表企业有雅虎、谷歌、阿里巴巴、百度、腾讯等;第三次是发生在2010年前后,物联网、云计算和大数据的时代,这个时代所要解决的问题是信息量的保爆炸,接下来也会涌现出一批新市场的标杆企业。 IBM前首席执行官郭士纳提出:IT领域每隔十五年就会迎来一次重大改革。

大数据的发展需要技术的支撑,而大数据技术能得以实现,也是因为信息科技的不断发展,现如今

  1. 存储设备容量的不断增加

在这里插入图片描述

  1. CPU处理能力大幅提升

在这里插入图片描述

  1. 网络带宽不断增加

在这里插入图片描述

大数据的发展经历了以下三个阶段:

第一个阶段是在上世界90年代至本世界初,这个阶段属于大数据的萌芽期。随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。

到了20实际起初的前十年,web2.0应用发展迅猛,非结构化数据大量产生,传统的处理方法很难以应付,这也带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始大行其道。这个阶段是大数据的成熟期。

2010年后,也就是大数据的第三阶段:大规模应用期。大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高。

二、什么是大数据

大数据最直观的理解,就是数据量很大,但是多大才算是大呢?根据IDC作出的估测,数据一直以每年50%的速度增长,也就意味着数据每两年就增长一倍。 人类在近两年产生的数据相当于之前产生的全部数据量。预计到2020年,全球将总共拥有35ZB(1ZB=1024EB,1EB=1024PB,1PB=1024TB,1TB=1024GB)的数据量。

其实,大数据不仅仅在与数据量大,大数据还包含了“快速化”、“多样化”、“价值化”等多种属性。

大数据的处理速度很快,数据从生产到消耗,可用于生成决策的时间是非常短的,也就是大数据中的1秒定律(或称:秒级定律):就是说对处理速度有要求,一般要在秒级时间范围内给出分析结果,时间太长就失去价值了.这个速度要求是大数据处理技术和传统的数据挖掘技术最大的区别。

大数据的多样化体现在大数据的数据由10%的结构化数据(存储在数据库中),90%非机构化数据组成,这和人类信息密切相关。如在企业中我们常用的Email、文档、文件,web的文本、图像、视频,以及我们日常用的微信,Twitter、Facebook、Blog等。

大数据的数据量很大,但是其价值密度也很低,例如:我们路上随处可见的视频监控,在连续不断的监控过程中,产生的大量数据其实都是没什么用的;但是如果发生事故,仅仅就几秒的数据,就会产生极高的价值。所以说尽管大数据的数据价值密度低,但是其商业价值却很高。

三、大数据的影响

《大数据时代》这本书中讲到的大数据在思维方面的影响,大数据完全颠覆了传统的思维方式。主要体现在以下三点:

  1. 全样而非抽样
  2. 效率而非精确
  3. 相关而非因果

现如今,你在使用淘宝购物、百度搜索等应用的时候,你就会发现,它总能给你推荐你想要看的,这是大数据决策的体现,依据大数据分析,去匹配你属于哪一类人群,而从给你推荐这一类人群喜好的东西。

大数据的新起,也让数据分析师,数据科学家,大数据工程师,数据可视化等职业成为了热门。现如今大数据已经无处不在,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业都融入了大数据的印记。

在这里插入图片描述

有这样一个大数据应用的故事:

Netflix原本是通过邮寄方式租赁DVD成为了北美家喻户晓的在线影片租赁提供商。但是面对互联网的冲击,盈利每况愈下。于是,Netflix转向线上,但转型并不成功,一直被资本市场唱空。Netflix后来运用大数据技术分析他们网站以往产生的数据后发现,喜欢BBC剧、导演大卫·芬奇(David Fincher)和老戏骨凯文·史派西(Kevin Spacey)的用户存在交集,一部影片如果同时满足这几个要素,就可能大卖。之后他们花1亿美元买下了一部早在1990年就播出的BBC电视剧《纸牌屋》的版权(几乎是美国一般电视剧价钱的两倍),并请来大卫·芬奇担任导演,凯文·史派西担当男主角。 显然他们这样做使得Netflix获得了成功,《纸牌屋》不仅是Netflix网站上有史以来观看量最高的剧集,也在美国及四十多个国家大热。《纸牌屋》也开启了大数据对于影视产业的全面渗透。

四、大数据技术

大数据技术分为下面四个层面:

  1. 数据采集

    利用ETL工具将分布的、异构数据源中的数据如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集中,成为联机分析处理、数据挖掘的基础;或者也可以把实时采集的数据作为流计算系统的输入,进行实时处理分析。

  2. 数据存储和管理

    利用分布式文件系统、数据仓库、关系数据库,NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理

  3. 数据处理与分析

    利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好的理解数据、分析数据

  4. 数据隐私和安全

    从大数据中挖掘潜在的商业价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全。

大数据的核心技术主要是: 分布式存储(HDFS)分布式处理(MapReduce)

五、大数据与云计算、物联网的关系

大数据、云计算和物联网目前代表了IT领域最新的技术趋势,他们三者之间是相辅相成的,由区别也有联系。

1、 云计算

云计算实现了通过网络提供可伸缩、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地地获得所需得各种IT资源。

在这里插入图片描述

云计算技术: 虚拟化、分布式存储、分布式计算、多租户等

2、 物联网

物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式连在一起,形成人与物、物与物相联,实现信息化和远程管理控制。

在这里插入图片描述

物联网的技术:识别和感知技术(二维码、RFID、传感器等)、网络与通信技术、数据挖掘与融合技术等

在这里插入图片描述

3、三者关系

在这里插入图片描述

六、参考资料

  1. 大数据技术原理与应用MOOC
  2. <<大数据时代>> 维克托·迈尔-舍恩伯格 著
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_39455881/article/details/106935274

智能推荐

ios Objective-c 获取省市区工具_zyw658000的博客-程序员ITS203

使用方法:通过父节点获取所有下一级子节点.没有的话sonNode返回nil ShengShiQuModel * zhongGuo = [XMUtils getShengShiQu]; NSLog(@"%@",zhongGuo.name); for (ShengShiQuModel *sheng in zhongGuo.sonNode) { ...

centos7 Minimal安装没有ifconfig_高坤NO丶1的博客-程序员ITS203

转载 centos7 Minimal安装没有ifconfighttps://www.cnblogs.com/baby123/p/6962353.html

Cat1,NB-IOT的区别_aresxue的博客-程序员ITS203_cat1和nb区别

“Cat.X”是指LTE UE-Category。LTE里定义了QoS的等级对于最早的LTE Cat4,然后针对物联网,先后推出了NB-IOT和eMTC。Cat1也叫eMTC,或者LTE-M。从目前的情况看,NB-IOT主要针对的是固定不动的物联网设备。他们需求是超长待机,但是数据量极低。而从目前的基站覆盖来看,虽然NB支持eDRX模式,但是小区切换,仍然是问题。所以,更多的,还是PS...

微信小程序云开发(3)— 云函数_DanownWang的博客-程序员ITS203_云函数demo

云函数基础介绍一般选择云开发,project.config.json 文件中已经配置好了云开发的本地根目录{ "cloudfunctionRoot": "cloudfunctions/"}假设我们在云函数目录里已经创建了一个getData文件夹cloudfunctions/getData/index.js// 云函数入口文件const cloud = require('wx-server-sdk')cloud.init()const db = cloud.database()

ModuleNotFoundError: No module named 'XXX'_MercyYoHo的博客-程序员ITS203

系统环境:windows7做好准备工作以及环境配置之后使用pycharm运行odoo点击绿色三角即可运行odoo第一次运行提示错误信息:Traceback (most recent call last):File “D:/Program Files/odoo/odoo11/odoo-bin”, line 5, in import odooFile “D:\Program File...

随便推点

Quartz任务调度简介--浅谈CronTrigger的作用_菜鸟在进步的博客-程序员ITS203

CronTrigger的作用: 基于日历的作用调度器,而不像SimpleTrigger那样精确的指定时间间隔,比SimpleTrigger更常用. Cron表达式: 用于配置CronTrigger实例。 是有7个表达式组成的字符串。描述了时间表的详细信息。 格式[秒] [分] [小时] [日] [月] [周] [年] ...

sql 判断分钟是偶数数据_在sql数据库 中如何判断一个字段的数据是否为奇数或偶数..._weixin_39585761的博客-程序员ITS203

{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里云数据库专家保驾护航,为用户的数据库应用系统进行性能和风险评估,参与配合进行数据压测演练,提供数据库优化方面专业建议,在业务高峰期与用户共同保障数据库系统平...

android Json解析详解(详细代码)_宁静致远NC的博客-程序员ITS203

JSON的定义:       一种轻量级的数据交换格式,具有良好的可读和便于快速编写的特性。业内主流技术为其提供了完整的解决方案(有点类似于正则表达式 ,获得了当今大部分语言的支持),从而可以在不同平台间进行数据交换。JSON采用兼容性很高的文本格式,同时也具备类似于C语言体系的行为– Json.orgJSON Vs XML1.JSON和XML的数据可读性基本相同

除了知识图谱,图还能做什么?_科技星象的博客-程序员ITS203

作者:鲍翰林 TigerGraph高级解决方案顾问摘要:本文将围绕三个方面,重点介绍图数据库和图分析的价值,并列举一些图分析应用的场景、工具和路径等。提到图,大家可能不怎么了解,但是提到知识图谱(knowledge graph),绝对是当前的热门话题。近年来,各个行业涌现出大量的垂直应用及服务提供商,各个企业,从技术到业务的各个条线,纷纷学习知识图谱的概念、技术、建设方法。知识图谱,是对现实世界的抽象,通过点和边描述实体之间的关系,构成一个大型的语义网络,提供一种从关系的视角来观察世界的方法

mysql 存储过程 (不同数据库)从一个表复制到另一个表_网络改变中国的博客-程序员ITS203

begin DELETE FROM test_cpos_store.t_sn_mc_market; -- 声明一个标志done, 用来判断游标是否遍历完成 DECLARE done INT DEFAULT 0; -- 声明一个变量,用来存放从游标中提取的数据 -- 特别注意这里的名字不能与由游标中使用的列明相同,否则得到的数据都是NULL DECLARE marketCode ch...

linux进程管理相关命令_weixin_33946605的博客-程序员ITS203

进程管理相关命令pstree: 命令以树状图的方式展现进程之间的派生关系,显示效果比较直观。 选项: -a:显示每个程序的完整指令,包含路径,参数或是常驻服务的标示; -c:不使用精简标示法; -G:使用VT100终端机的列绘图字符; -h:列出树状图时,特别标明现在执行的程序; -H&lt;程序识别码&gt;:此参数的效果和指定"-h"参数类似,...

推荐文章

热门文章

相关标签