大数据的关键技术(一)_大数据关键技术-程序员宅基地

技术标签: linq  # 信息技术导论——大数据  big data  gnu  

一、大数据处理的基本流程——采集、存储、分析和实现

        ①数据采集->②数据归整->③数据存储->④数据处理->⑤数据呈现

二、大数据技术

  • 数据采集宇预处理
  • 数据采集和管理
  • 数据处理与分析
  • 数据安全与隐私保护

(一)数据采集与预处理:联机分析处理(OLAP)与实时处理分析

 (二)数据存储与管理:对结构、非结构、半结构等海量数据进行存储(关系数据库、非关系数据库、数据仓库、分布式文件系统)

(三)数据处理与分析:利用 MapReduce 等结合着机器学习和数据挖掘算法实现数据分析和处理

(四)数据隐私和安全保护:构建出隐私数据保护体系和数据安全体系,保护个人隐私和数据安全。


三、Hadoop技术——分布式系统基础架构

(1) Hadoop 是用于处理(运算分析)海量数据的技术平台,且是采用分布式集群的方式。
2) 功能
①、存储:提供海量数据的存储服务;
②、计算:提供分析海量数据的编程框架及运行平台;
3)三大核心组件:
①、 HDFS:hadoop 分布式文件系统海量数据的存储(集群服务)
②、 MapReduce :分布式运算框架(编程框架)(导 jar 包程序)
③、 Yarn :资源调度管理集群


 四、MapReduce技术

(1)MapReduce 是 Hadoop 核心技术之一。
2)MapReduce 框架的核心步骤主要分两部分:Map 和 Reduce。
3)为分布式计算的程序设计提供了良好的编程接口,并且屏蔽了底层通信原理,使得程序员只需关心 业务逻辑本事,就可轻易的编写出基于集群的分布式并行程序。
4)“Map”就是将一个任务分解成为多个子任务并行的执行;
5)“Reduce”就是将分解后多任务处理的结果汇总起来,得出最后的分析结果并输出。
(6)MapReduce 的功能:
①、 数据划分和计算任务调度 :将 job 分成多个数据块来计算,并自动调度计算节点来处理这些数据块。
②、 数据/代码互定位 :减少数据通信,从数据所在的本地机架上寻找可用节点以减少通信延迟。
③、 系统优化 :为了减少数据通信开销,中间结果数据进入 Reduce 节点前会进行一定的合并处理
④、 出错检测和恢复 : MapReduce 需要能检测并隔离出错节点,并调度分配新的节点接管出错节点的计算任务,维护数据存储的可靠性。

五、NoSQL技术

(1)NoSQL 数据库是非关系型数据库,它主要是用来解决半结构化数据和非结构化数据的存储问题。 (mongoDB、redis、hbase 等)
2)NoSQL 是一种非关系型 DMS,不需要固定的架构,可以避免 joins 链接,并且易于扩展。
3)NoSQL 技术功能:
①、数据管理:提供查询窗口和命令窗口功能。
②、结构管理:提供库、文档和索引等对象管理功能。
③、实时性能展示:提供核心性能指标的实时展示。

六、大数据计算模式

  • 批处理计算
  • 流计算
  • 图计算
  • 查询分析计算

(一)批处理计算

        批处理计算主要解决针对大规模数据的批量处理,也是我们日常数据分析工作中常见的一类数据处理需求。

MapReduce

Spark

 (二)流计算

        批处理计算主要解决针对大规模数据的批量处理,也是我们日常数据分析工作中常见的一类数据处理需求。

流数据

(三)图计算

        在大数据时代,许多大数据都是以大规模图或网络的形式呈现,如社交网络、传染病传播途径、交通事故对路网的影响等,此外,许多非图结构的大数据也常常会被转换为图模型后再进行处理分析。

(四)查询分析计算

           针对超大规模数据的存储管理和查询分析,需要提供实时或准实时的响应,才能很好地满足企业经营管理需求。

 

 

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/xiaofengdada/article/details/123308227

智能推荐

FPGA vivado2019 vitis导入sdk工程, vivado VITIS导入SDK工程_vivado2019没有sdk-程序员宅基地

文章浏览阅读1w次,点赞14次,收藏63次。2019之前的工程是SDK开发的, 在2019上没有launch sdk这个选项, 而是在tools/Vitis下1 升级工程这里要升级忽略2 report ip检查状态,然后升级 IP3 生产bit流这个过程有点久, 等待弹窗出来就OK4 Export Hardware5 tools/ launch vitis 启动vitis6 导入SDK环境选择eclips选择工程目录, 点击finish..._vivado2019没有sdk

记flume部署过程中遇到的问题以及解决方法(持续更新)_ubuntu发送flume文件夹到节点一直处于发送状态-程序员宅基地

文章浏览阅读1.2k次。项目需求是将线上服务器生成的日志信息实时导入kafka,采用agent和collector分层传输,app的数据通过thrift传给agent,agent通过avro sink将数据发给collector,collector将数据汇集后,发送给kafka,拓扑结构如下:现将调试过程中遇到的问题以及解决方法记录如下:1、 [ERROR - org.apache.thrift.server.Abstr..._ubuntu发送flume文件夹到节点一直处于发送状态

Python+Pandas数据清洗的步骤_数据清洗和准备(pandas)字符串操作-程序员宅基地

文章浏览阅读1.4k次,点赞4次,收藏26次。清洗数据是数据预处理的一个重要步骤,Pandas 提供了许多功能和方法来帮助您进行数据清洗。以下是一般情况下使用 Pandas 清洗数据的常见步骤:_数据清洗和准备(pandas)字符串操作

不到三个月,我在CSDN的第一个一万-程序员宅基地

文章浏览阅读2k次。不到三个月,我在CSDN的第一个一万

Invalid number of channels in input image: > 'VScn::contains(scn)' > where > 'scn' is 1_> invalid number of channels in input image: > 'vs-程序员宅基地

文章浏览阅读3.2w次,点赞5次,收藏12次。在做图片语义分割的项目,对图片数据标注后,又对数据进行扩增,然后倒入图片,进行模型训练,但是读图片的时候提示如下错误。 image = cv2.cvtColor(cv2.imread(path,-1), cv2.COLOR_BGR2RGB)cv2.error: OpenCV(3.4.3) /io/opencv/modules/imgproc/src/color.hpp:255: err..._> invalid number of channels in input image: > 'vscn::contains(scn)' > where

Dedecms5.7数据结构说明文档_数据结构说明文件-程序员宅基地

文章浏览阅读1.4k次。Dedecms5.7数据结构说明文档1、dede_addonarticle:附加文章表 表名:dede_addonarticle(ENGINE=MyISAM/CHARSET=utf8)说明:附加文章表 字段名说明描述具体参数aid文章ID_数据结构说明文件

随便推点

Ha-NeRF: Hallucinated Neural Radiance Fields in the Wild 代码复现与解读_ha nerf-程序员宅基地

文章浏览阅读482次。code:本机环境: python 3.6.3,torch 1.8.1+cu102,pytorch-lightning 1.1.5。_ha nerf

android: spinner及setDropDownViewResource的使用及自定义Spinner样式-程序员宅基地

文章浏览阅读215次。Spinner下拉列表一般使用非常简单。直接上代码1.布局文件 1 <LinearLayout ="http://schemas.android.com/apk/res/android" 2 xmlns:tools="http://schemas.android.com/tools" 3 android:layout..._setdropdownviewresource怎样自定义主题

Centos7 安装JDK-程序员宅基地

文章浏览阅读80次。在centos上安装JDK,我安装的是JDK11。 查看centos上是否已经安装了JAVA: rpm -qa | grep java 如果已经安装了java,就卸载掉: rpm -e --nodeps 包名 接下来下载jdk包,下载地址:https://www.oracle.com/java/technologies/javase-jdk11-downloads.html 解压jdk: # 找到文件存放的目录,我的目录是/u...

MFC中几种常用的字符串分割方法_cstring分割字符串cstringarray存储-程序员宅基地

文章浏览阅读3w次,点赞13次,收藏42次。本文总结了几种常用的MFC字符串分割的方法,以方便自己以后查阅,也希望能帮助到有需要帮助的人。1、CString 自带的函数Tokenize1CStringT Tokenize( _In_ PCXSTR pszTokens, _Inout_ int& iStart ) const_cstring分割字符串cstringarray存储

蓝鲸安全ctf打卡隐写篇----第一期_00000000.png ctf-程序员宅基地

文章浏览阅读1.9k次,点赞2次,收藏5次。第一期1.雨中龙猫考查base64编码和图片源码隐写题目给出答案格式whalectf{xxx},将whalectf进行base64编码:d2hhbGVjdGY=notepad++打开源码搜索,发现并不能搜索到因为base64编码过程会重新以6位分组,所以whalectf后面的字母可能会对whalectf的编码影响,所以搜索前几位d2hhbGVj得到d2hhbGVjdGZ7TG进行解..._00000000.png ctf

在python中处理字符串中的空格和换行符_python 解析带换行符的字符串-程序员宅基地

文章浏览阅读4.1k次。在python中处理字符串中的空格和换行符 string中提供了很多方法处理字符串,有空格和换行符往往影响我们观看文本,下面介绍一种处理方法。 一、去除空格 strip() " xyz ".strip() # returns "xyz" " xyz ".lstrip()_python 解析带换行符的字符串

推荐文章

热门文章

相关标签