”Spark面试题“ 的搜索结果

Spark高频面试题

标签:   spark

     Spark高频面试题 1.Spark Streaming和Flink的区别? 下面我们就分几个方面介绍两个框架的主要区别: 1)架构模型Spark Streaming 在运行时的主要角色包括:Master、Worker、Driver、Executor,Flink 在运行时主要...

     有一点非常重要,就是由于RDD有前后依赖关系,遇到宽依赖关系,例如,遇到reduceBykey等宽依赖操作的算子,Spark将根据宽依赖划分Stage,Stage内部通过Pipeline操作,通过Block Manager获取相关的数据,因为具体的...

     1、什么是宽依赖,什么是窄依赖?哪些算子是宽依赖,哪些是窄依赖? 窄依赖就是一个父RDD分区对应一个子RDD分区,如map,filter 或者多个父RDD分区对应一个子RDD分区,如co-partioned join 宽依赖是一个父RDD分区...

     大数据Spark面试题汇总,共有79道面试题以及题目的解答 部分题目如下: 1. spark 的有几种部署模式,每种模式特点? 2. Spark 为什么比 mapreduce 快? 3. 简单说一下 hadoop 和 spark 的 shuffle 相同和差异? 5. ...

Spark 面试题

标签:   spark  面试

     2. Spark的优化? 3. Task与Job之间的关系 4. 任务提交流程(18步图) 5. RDD的弹性表现在哪里? 6. Transform 类型的RDD与action类型的RDD各有哪些? 7. 发生Shuffle的算子有哪些? 8. Spark Streaming对应kafka中...

     hadoop/spark面试题 总结于网络 转自:https://www.cnblogs.com/jchubby/p/5449379.html 1、简答说一下hadoop的map-reduce编程模型 首先map task会从本地文件系统读取数据,转换成key-value形式...

     大数据面试题汇总大数据面试题汇总 - 简书 spark 资源调优 1、列式存储和行式存储的区别 行存储,数据行存储,一个文件可表达一个二维表。适用于一般的业务场景如CSV文件,文本文件 因为这里的行结构是固定的...

     Hadoop 有哪些组件? (1)HDFS集群:负责海量数据的存储,集群中的角色主要有 NameNode / DataNode/SecondaryNameNode。 (2)YARN集群:负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /...

     1.spark中的RDD是什么,有哪些特性? 答:RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合 Dataset:就是一个集合,...

     Hadoop 相关试题 Hive 相关试题 1、 hive表关联查询,如何解决数据倾斜的问题? 倾斜原因: map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特点、建表时考虑不周、等原因造成的...

     一、简答题 1.Spark master使用zookeeper进行HA的,有哪些元数据保存在Zookeeper? 答:spark通过这个参数spark.deploy.zookeeper.dir指定master元数据在zookeeper中保存的位置,包括Worker,Driver和Application...

     一、你是怎么理解Spark,它的特点是什么?Spark是一个基于内存的,用于大规模数据处理(离线计算、实时计算、快速查询(交互式查询))的统一分析引擎。...

     1、你觉得spark 可以完全替代hadoop 么? Spark 会替代 MR,Spark 存储依赖 HDFS,资源调度依赖 YARN,集群管理依赖 Zookeeper。 2、Spark消费 Kafka,分布式的情况下,如何保证消息的顺序? Kafka 分布式的单位是 ...

     网上搜索一些spark方面的面试题,整理下后面用 https://blog.csdn.net/Lwj879525930/article/details/82559596

10  
9  
8  
7  
6  
5  
4  
3  
2  
1