大数据:对大数据的理解_rsxrsxrsx的博客-程序员ITS203_对大数据的理解

技术标签: 大数据  

学了这么久大数据,学了好多主流大数据框架,从来没有主观意义上去深度地思考过大数据。

现在对于大数据我讲讲自己的想法。

1 大数据的产生

为什么会有大数据?

随着互联网的发展,现在大部分日常生活都通过网络变得十分便捷,吃穿住行等等的日常生活都离不开网络。使用网络就避免不了留下信息,或是你输入的信息、或是你点击一次按钮、又或是你滑动滚动条。这都是一条条数据,数据愈加庞大,进而形成了大数据这一现象。

而在公司中的大数据一般来源于日常运营的数据和用户的行为数据。

2 大数据特点

①数据量庞大:即使现在以TB,甚至PB为单位都不足以计量这庞大的数据量

②数据类型繁多:数据来源多,且数据大多是半结构化数据、非结构化数据

③数据增长速度快:对于数据的处理分析时,如果是实时处理就必须要考虑增长速度

④数据价值密度低:虽然量大,真正需要的数据占比很低

⑤数据真实:

对于以上特点,其实可以简单概括,也就是我们平常所说的5个V

3 大数据的存储

分布式存储数据,存储在多个节点上的nosql数据库,通过副本机制保证数据安全。

这里有两个概念:oltp、olap。

oltp联机事务处理:是面向传统的关系型数据库,是对数据量较小的数据进行增删改查。比如web上的一次点击、一次浏览等操作。

olap联机分析处理:面向分布式的数据仓库,是对数据量庞大的数据进行查询分析。对数据的筛选和分析,比如获取并分析web上某类数据的TopN。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/rsxrsxrsx/article/details/121317390

智能推荐

2022-2028年中国美容行业发展趋势前瞻与投资战略规划分析报告_普通网友的博客-程序员ITS203

2022-2028年中国美容行业发展趋势前瞻与投资战略规划分析报告第一章 美容行业相关概述第二章 2016-2021年国际美容市场分析2.1 国际美容市场发展情况2.1.1 医疗美容市场规模2.1.2 医美细分市场结构2.1.3 美容个护运行情况2.1.4 美容仪器发展分析2.2 美国美容市场分析2.2.1 美容行业运行情况2.2.2 整形美容市场状况2.2.3 美容仪器发展状况2.2.4 医美行业监管启示2.3 韩国美容市场分析2.3.1 医疗美容发展历程2.3...

CVPR2018 | 细粒度分类 : Learning a Discriminative Filter Bank within a CNN(DFL-CNN) 及tensorflow实现_孟让的博客-程序员ITS203

摘要近期细分类模型都在其加强mid-level学习能力。先前达到此目的,1)通过一个辅助网络把局部信息加入到分类主网络,2)通过复杂的特征解码方法获取更高阶的特征统计。本文展示的方法可以在端到端内部加强mid-level学习能力,在无需额外辅助网络或者标注框情况下通过学习一行卷积核获取类别定性小块。这种卷积核行在卷积神经网络结构内部的,需要适当的非随机初始化,和非对称的多流网络结构。1. 前言...

Spark开发环境搭建_正说杂谈的博客-程序员ITS203

开发环境Spark 2.4.4使用Scala2.12:Java安装bash-3.2$ java -versionjava version "1.8.0_211"Java(TM) SE Runtime Environment (build 1.8.0_211-b12)Java HotSpot(TM) 64-Bit Server VM (build 25.211-b12, mixed m...

求助万年历 Multisim仿真_slw10060205的博客-程序员ITS203

SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如:TYPEASCIIHTMLSingle backticks'Isn't this fun?'‘Isn’t this fun?’Quotes"Isn't this fun?"“Isn’t this fun?”Dashes-- is en-dash, --- is em-d...

【无标题】_普通网友的博客-程序员ITS203

中国生态修复行业发展前景调研及投资战略分析报告2022-2027年新版^*^*^*^*^*^*^*^*^*^*^*^*^*^*^*^*^*^*^*^*^*^*^*^*^*^*^*^*^*^*^*^*^*^【报告目录】: 第一章 生态修复行业基本介绍第二章 2019-2021年生态修复行业发展环境分析2.1 经济环境2.1.1 全球经济形势分析2.1.2 中国宏观经济概况2.1.3 国内固定资产投资2.1.4 国内宏观经济展望2.2 生态环境2.2.1 国内环境状况综述...

kettle连接Oracle数据库报错解决_hyfstyle的博客-程序员ITS203

kettle7.1连接Oracle数据库正常,但是今天连接另一个版本的Oracle数据库报错网上说是Oracle的ojdbc相关的jar包版本问题,除了换jar包还有个方法可解决:(DESCRIPTION = (ADDRESS = (PROTOCOL = TCP)(HOST = 10.XX.XX.XX)(PORT = 1521))(CONNECT_DATA = (SERVER = DEDIC...

随便推点

基于肤色二值化图像的手势识别及指尖检测的方法改良优化_YePeanut的博客-程序员ITS203

最近两三天在学习Opencv相关的计算机视觉知识,为了做项目的手势识别交互,在网上看了许多相关资料。想把一些学习心得分享给有需要的人,如果有更好的方法欢迎探讨交流。

Sqoop--导入:MySQL →HDFS_韩家小志的博客-程序员ITS203

MySQL →HDFS1、准备测试数据2、导入HDFS问题1:如何指定输出的HDFS的地址呢?问题2:能不能手动调节MapTask的个数?问题3:能不能手动执行列与列之间的分隔符?问题4:能不能提前删除输出目录呢?1、准备测试数据MySQL创建数据库==【在MySQL中执行】==create database sqoop;use sqoop;MySQL创建数据表==【在MySQL中执行】==CREATE TABLE `tb_tohdfs` (`id` int(11) NOT NULL

【centos8】用kvm安装虚拟机_稔稔的博客-程序员ITS203

一 环境准备pc机 1T硬盘 16G内存 vmware workstation 15安装 centos8 操作系统;配置支持虚拟化二 安装 qemu-kvm[[email protected] ~]# yum install qemu-kvmCentOS-8 - AppStream 6.3 kB/s...

SpringCloud启动报错:Error creating bean with name configurationPropertiesBeans_-添砖Java的博客-程序员ITS203

记录一下学习微服务,springcloud踩坑报错Error creating bean with name configurationPropertiesBeans问题出现:版本不兼容在springcloud官网版本点进去有对应的兼容的版本一个错排查了半天,这谁顶得住啊!!!...

优雅设计封装基于Okhttp3的网络框架(三):多线程下载功能核心实现 及 线程池、队列机制、终止线程解析_鸽一门的博客-程序员ITS203

通过前两篇博文的学习,已经带领大家学习了HTTP协议与Okhttp相关内容的学习,并且在上篇博文已经完成了初始编码工作:定义好了网络请求接口DownloadCallback 和网络请求类HttpManager,可以完成同步、异步请求操作,而接下来将编码实现多线程下载功能的核心代码,通过多个线程之间的管理和调度来处理下载任务,最后再引入队列机制来完善功能。此篇文章将学习:多线程核心功能编写,线程池原理,队列机制

java的md5实现类_Central-Perk的博客-程序员ITS203

/*************************************************md5 类实现了RSA Data Security, Inc.在提交给IETF的RFC1321中的MD5 message-digest 算法。*************************************************/public class MD5 {