大数据理论体系_大数据的基本理论体系-程序员宅基地

技术标签: 大数据理论体系  大数据  

序言

2018~2021 年期间,笔者阅读了200+大数据相关的书籍和专栏。

本专栏为笔者,在多年读书笔记的基础上,结合自身的大数据开发心得体会,呕心沥血之作。

来点关注吧,万分感谢!

本专栏姊妹篇

1000个问题搞定大数据技术体系

100个问题搞定Java虚拟机

技术分享 PPT

这里分享一下笔者曾经使用过的关于大数据怎样入门的技术分享 PPT:

大数据从0到1 .pptx

目录结构

  1. 大数据是什么?
  2. 大数据有哪些特征?
  3. 大数据和云计算有什么关系?
  4. 大数据和人工智能有什么关系?
  5. 大数据是如何发展起来的?
  6. 大数据处理的基本流程是什么?
  7. 数据质量如何评测?
  8. 什么是ETL?
  9. 大数据开发主要做什么?
  10. 大数据技术框架有哪些类型?
  11. 为什么说数据不动代码动?移动计算比移动数据更划算?
  12. DAG对大数据处理有什么好处?
  13. 批处理和流处理如何区分? 有边界数据和无边界数据如何区分?
  14. 批处理中如何提高CPU利用率?
  15. 什么是事件时间和处理时间?
  16. Workflow设计模式指的什么?
  17. 分布式锁是什么?如何实现?
  18. 分布式事务是什么?如何实现?
  19. 分布式锁和分布式事务有什么区别?
  20. CAP定理是什么?
  21. BASE理论是什么?
  22. 分布式系统有哪些衡量指标?
  23. 一致性模型有哪些?
  24. SLA是什么?
  25. 如何预估系统QPS?
  26. 你怎么看待发布订阅模式的?
  27. 发布与订阅模式和观察者模式有什么不同?
  28. 分布式系统数据分片有哪些方式?
  29. 一致性哈希是什么?
  30. 为什么要将数据序列化?
  31. 数据压缩算法该如何选择?
  32. 分布式系统中序列化框架该如何选择?
  33. Protobuf是什么?
  34. Apache Thrift是什么?
  35. Apache Avro是什么?
  36. Kryo是什么?
  37. 列式存储和行式存储有什么区别?
  38. 列式存储格式该如何选择?
  39. ORCFile是什么?
  40. Parquet是什么
  41. 数据仓库是什么?
  42. 数据仓库与数据库的区别?
  43. OLTP和OLAP的区别?
  44. 数据仓库是如何分层的?
  45. 数据仓库是如何建模的?
  46. 什么是事实表和维度表?
  47. 什么是商业智能(BI)?
  48. 从系统架构角度出发,服务器该如何分类?
  49. MPPDB是什么?
  50. MPPDB和Hadoop有什么区别?
  51. 数据仓库应该选择哪种服务器架构?
  52. 并行计算模型有哪些?
  53. BSP和MapReduce有什么区别?
  54. OLAP有哪些实现方法?
  55. Cube技术是什么?
  56. NoSQL是什么?
  57. 负载均衡是什么?
  58. 负载均衡算法有哪些?
  59. 分布式系统中转发如何实现?
  60. 大数据资源调度框架有什么作用?
  61. 资源调度有什么技术难点?
  62. 多租户技术是什么?
  63. 你认为传统的Yarn、Mesos调度方案存在哪些缺陷?
  64. 什么是倒排索引?
  65. 什么是企业数据?
  66. 什么是数据湖?为什么需要数据湖?
  67. 数据湖中数据的生命周期是怎样的?
  68. 数据仓库、数据集市和数据湖有什么区别?
  69. 什么是Lambda架构?
  70. 什么是Kappa架构?
  71. 如何将Lambda架构应用到数据湖?数据湖中的功能模块有哪些?
  72. 企业数据湖面临哪些挑战?
  73. RAID技术到底是什么?
  74. 为什么需要工作流调度系统?
  75. 为什么要有消息队列/消息引擎系统?
  76. 什么是云原生数据库?
  77. 数据库领域的未来发展趋势是怎样的?

参考文献

  1. 极客时间专栏《从0开始学大数据》李智慧
  2. 极客时间专栏《大规模数据处理实战》蔡元楠
  3. 《云计算中的大数据技术与应用》 梁凡著
  4. 《大数据开发与应用》青岛英谷教育科技股份有限公司,山东工商学院编著
  5. 《大数据技术体系详解:原理、架构与实战》董西成著
  6. 《Hadoop大数据挖掘从入门到进阶实战:视频教学版》邓杰编著
  7. 《大数据架构详解:从数据获取到深度学习》朱洁,罗华霖编著
  8. 《Kafka权威指南》(美)妮哈・纳克海德( Neha Narkhede),(美)格温・沙皮拉( Gwen Shapira) (美)托德・帕利诺( Todd Paino)著;薛命灯译》/(美)妮哈・纳克海德( Neha Narkhede),(美)格温・沙皮拉( Gwen Shapira) (美)托德・帕利诺( Todd Paino)著;薛命灯译
  9. 《Hadoop大数据技术原理与应用》黑马程序员编著
  10. 《企业数据湖》(印)汤姆斯・约翰(Tomcy John),(印)潘卡・米斯拉(Pankaj Misra)著张世武,李想,张浩林译
  11. 《大数据技术及应用探究》胡沛,韩璞著
  12. 《Hadoop & Spark大数据开发实战》肖睿、雷刚跃主编
  13. CS-Notes
  14. ClickHouse官网
  15. ClickHouse深度揭秘
  16. 什么是分布式事务以及有哪些解决方案?
  17. 分布式理论(二)——Base 理论
  18. 分布式系统衡量指标
  19. 百度百科 顺序一致性模型
  20. 通俗易懂 强一致性、弱一致性、最终一致性、读写一致性、单调读、因果一致性 的区别与联系
  21. 分布式系统学习——数据分片
  22. 带着问题学习分布式系统之数据分片
  23. 百度百科 一致性哈希
  24. Apache Thrift系列详解(一) - 概述与入门
  25. 初探Protostuff的使用
  26. 高性能的序列化与反序列化:kryo的简单使用
  27. 大数据小视角2:ORCFile与Parquet,开源圈背后的生意
  28. 新一代列式存储格式Parquet
  29. Parquet的那些事(一)基本原理
  30. 再来聊一聊Parquet 列式存储格式
  31. MPP(大规模并行处理)简介
  32. MPP架构
  33. 百度百科 NoSQL
  34. 大数据里常见的几种压缩格式压缩
  35. zstd,未来可期的数据压缩算法
  36. Is zstd splitabble in hadoop/spark/etc?
  37. 阿里云李飞飞:什么是云原生数据库
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/Shockang/article/details/115609804

智能推荐

python服务器端开发面试_【网易游戏Python面试】python 服务端开发-看准网-程序员宅基地

文章浏览阅读145次。10.21终面已参加,希望能顺利通过终面拿到offer~一共三轮,电话面试+笔试+视频面试,视频面试3V110月19日投的新媒体运营的简历,HR说因为是周末,等工作日再联系我,在周一下午三点我接到了电话成功通过简历筛选和电话面试,整个电话面试的过程长,大概10分钟左右,因为前期稍微做了一些准备,所以还算对答如流,整个过程顺利,HR现场告诉我通过面试,并随即给我发了笔试题,让我准备一下,最晚三天之..._网易 python游戏服务器

MVC层次划分简述_mvc分层-程序员宅基地

文章浏览阅读6.5k次,点赞12次,收藏38次。MVC层次划分简述写在前面的一段话:首先要知道MVC和三层架构之间有什么关系:MVC:【 Model(数据模型) - View(视图) - Controller(控制器) 】三层架构:【 Presentation tier(展现层) - Application tier(应用层)+Date tier(数据访问层) 】很多人都有一个误解,认为Spring MVC的M、V、C对..._mvc分层

Flink的sink实战之三:cassandra3_flink cassandra-程序员宅基地

文章浏览阅读2.9k次。实践flink数据集sink到cassandra3_flink cassandra

使用docker安装codimd,搭建你自己的在线协作markdown编辑器_群晖 docker 搭建 codimd-程序员宅基地

文章浏览阅读7.1k次,点赞4次,收藏12次。文章目录一、前言二、codimd是什么?2.1 源于hackmd的超好用markdown编辑器2.2 codimd的作用三、安装和使用3.1 安装前需要知道的3.2 安装步骤3.2.1 创建数据库3.2.2 安装git3.2.3 安装docker3.2.4 安装docker compose3.2.5 安装codimd3.2.6 检查是否安装成功3.2.7 放行端口3.2.8 测试使用3.3 开始写..._群晖 docker 搭建 codimd

Json和ajax-程序员宅基地

文章浏览阅读335次。Json json 可以定义多种类型 var jsonObj = { "key1":123, "key2":"name", "key3":[12,"age",true], //数组 "key4":false, "key5":{ //存一个json对象 "key6":456, "key7":"number" }} json其实就是一个Object对象, 他的key值 可以看成对象的一个属性, 获取他的value值...

ssm超市账单管理系统a2e96【独家源码】 应对计算机毕业设计困难的解决方案-程序员宅基地

文章浏览阅读87次。选题背景:超市账单管理系统是一种针对超市行业的管理工具,旨在提供高效、准确、便捷的账单管理服务。随着城市化进程的加快和人们生活水平的提高,超市作为日常生活必需品的主要供应渠道之一,扮演着重要的角色。然而,传统的超市账单管理方式存在一些问题,如手工记录容易出错、数据整理繁琐、信息不透明等。因此,开发一个科技化的超市账单管理系统成为了必要之举。选题意义:首先,超市账单管理系统的开发可以提高账单管理的效率。传统的超市账单管理方式通常需要员工手动记录商品销售信息,并进行数据整理和汇总。这种方式容易出现人为错

随便推点

bookmarks_2021_9_28_拾度智能科技 att7022eu-程序员宅基地

文章浏览阅读1.7k次。书签栏通讯 s7-1200与s7-200smart通讯-工业支持中心-西门子中国IO_deviceS7-1200PROFINET通信ET 200SP 安装视频 - ID: 95886218 - Industry Support Siemens云平台接入在线文档 - 低代码开发嵌入式设备 | 物一世 WareExpress在linux下使用c语言实现MQTT通信(一.MQTT原理介绍及流程图)_qq_44041062的博客-程序员宅基地C mqtt_百度搜索开发快M_拾度智能科技 att7022eu

国家取消职称英语与计算机,全国职称英语考试取消-程序员宅基地

文章浏览阅读1.6k次。职称英语全称为全国专业技术人员职称英语等级考试,是由国家人事部组织实施的一项国家级外语考试。1.概述全国专业技术人员职称英语等级考试是由人力资源和社会保障部组织实施的一项外语考试,它根据英语在不同专业领域活动中的应用特点,结合专业技术人员掌握和应用英语的实际情况,对申报不同级别职称的专业技术人员的英语水平提出了不同的要求。该考试根据专业技术人员使用英语的实际情况,把考试的重点放在了阅读理解上面。全..._全国专业技术人员职称英语等级考试 北京 取消

where里能用max吗_网络里能找到真爱吗?-程序员宅基地

文章浏览阅读42次。恋爱指导篇 知心的小爱“真爱”是一个永不过时的话题,古代的人找对象,靠的是媒妁之言,父母定婚姻。现代的人靠的是相亲,自由恋爱,按理找一个喜欢的人结婚会很幸福,近几年反而离率更高了。古代人认识的人少,交流工具少,最多信鸽传书,信物传情。现代要认识一个人很容易了,最初是电话信息联系。前几年是qq,微信摇一摇,近两年是抖音,快手随便找一找。虽然找对象,寻伴侣更方便了,为何大部分人还是感觉更迷茫,不快乐...

刷题记录第八十天-修剪二叉搜索树-程序员宅基地

文章浏览阅读109次。【代码】刷题记录第八十天-修剪二叉搜索树。

dcm4che,WADO相关-程序员宅基地

文章浏览阅读248次。关于 dcm4che WADO WADO:Web Access to DICOM Objects dcm4che 是一个为医疗保健企业的开源应用程序和工具集合。这些应用程序已经开发了Java编程语言的性能和便携性,在JDK 1.6及更高版本支持部署。在dcm4che项目的核心是一个强大的执行DICOM标准的。该dcm4che-1.x和dcm4che-2.X DICOM Tool..._dcm4che实现wado服务

linux查看zk日志,14.1 zookeeper日志查看-程序员宅基地

文章浏览阅读2.2k次。zookeeper服务器会产生三类日志:事务日志、快照日志和log4j日志。在zookeeper默认配置文件zoo.cfg(可以修改文件名)中有一个配置项dataDir,该配置项用于配置zookeeper快照日志和事务日志的存储地址。在官方提供的默认参考配置文件zoo_sample.cfg中,只有dataDir配置项。其实在实际应用中,还可以为事务日志专门配置存储地址,配置项名称为dataLogD..._linux查看zookeeper日志

推荐文章

热门文章

相关标签