spark - 程序员宅基地

在YARN上运行Spark的常用配置参数讲解

本文针对在YARN上运行Spark的常用配置参数进行讲解 1. 在yarn上启动spark application 确保HADOOP_CONF_DIR或YARN_CONF_DIR指向包含Hadoop集群(客户端)配置文件的目录。这些configs用于写入HDFS并连接YARN ...

Spark on Yarn详解

标签： spark

Spark on Yarn详解 Spark 可以跑在很多集群上，比如跑在local上，跑在Standalone上，跑在Apache Mesos上，跑在Hadoop YARN上等等。不管你Spark跑在什么上面，它的代码都是一样的，区别只是–master的时候不一样。...

SparkCore、SparkSQL、SparkStreaming三者之间的区别和联系

标签： spark

【SparkCore、SparkSQL、SparkStreaming三者之间的区别和联系

Java-Spark系列1-spark概述

标签： spark big data Spark概述

大数据技术栈二.Spark概述2.1 MapReduce框架局限性2.2 Hadoop生态圈中的各种框架2.3 Spark2.3.1 Spark的优势2.3.2 Spark特点2.3.3 SPRAK 2 新特性一.大数据技术栈如下图，当前的一个大数据技术栈: 如上所示: ...

Spark -- 读取mysql的4种方式和各自的应用场景

标签： mysql spark 数据库

spark read mysql

spark环境配置

标签： spark 大数据

mv spark-2.1.2-bin-hadoop2.7 ./spark 解压到目标目录即完成安装， spark 解压后主要包含如下子目录： bin/ (工具程序目录) conf/ (配置文件目录) jars/ (scala Jar 包目录) python/ (python package 目录) ...

漫谈大数据 - Spark on Hive & Hive on Spark

标签： sql hive spark

Spark on Hive & Hive on Spark你分清了吗

hive on spark 配置和 spark on hive

标签： spark hive

Hive on Spark：Hive既作为存储元数据又负责SQL的解析优化，语法是HQL语法，执行引擎变成了Spark，Spark负责采用RDD执行。 Spark on Hive : Hive只作为存储元数据，Spark负责SQL解析优化，语法是SparkSQL语法，...

java-maven环境配置Unresolved dependency: ‘org.apache.spark:spark-tags_2.12:jar:3.4.0-SNAPSHOT

标签： java spark maven

java环境配置真是麻烦

Spark的操作实践

标签： spark big data scala

1.Spark基本知识总结 2.Spark的操作实践： 2.1 Spark的安装部署 2.2 Scala语言编程实践 2.3 基于Spark shell的WordCount实践 2.4 基于IDEA+Maven的Spark编程实践 2.5 pySpark实践 1. Spark基本知识的总结 Spark借鉴...

Spark-Shell操作

标签： spark 大数据 scala

Spark-Shell操作 spark-shell简述 spark-shell是REPL（Read-Eval-Print Loop，交互式解释器），它为我们提供了交互式执行环境，表达式计算完成以后就会立即输出结果，而不必等到整个程序运行完毕，因此可以及时...

spark读写clickhouse

标签： spark scala big data

spark读取clickhouse数据一：这种jdbc的连接加载的是全量表数据 val prop = new java.util.Properties prop.setProperty("user", "default") prop.setProperty("password", "123456") prop.setProperty("driver...

【hive on spark】hive on spark任务报错Connection to remote Spark driver was lost

标签： hive spark hadoop

hue执行不用引擎sql导致任务中断

Hadoop和Spark的对比

标签： spark hadoop big data

Hadoop和Spark都是并行计算，Hadoop一个作业称为一个Job，Job里面分为Map Task和Reduce Task阶段，每个Task都在自己的进程中运行，当Task结束时，进程也会随之结束；好处在于进程之间是互相独立的，每个task独享...

图解大数据 | 基于Spark RDD的大数据处理分析

标签： spark big data scala

RDD(弹性分布式数据集合)是Spark的基本数据结构，Spark中的所有数据都是通过RDD的形式进行组织。本文讲解RDD的属性、创建方式、广播与累加器等重要知识点，并图解RDD高频算子。

Spark详解（一、Spark概述）

标签： spark scala big data

Spark是一种基于内存的快速的、通用、可拓展的大数据分析计算引擎。一、Spark与MapReduce Hadoop框架中的MapReduce计算引擎，也是一种大数据分析计算引擎。那既然已经又来MR那我们为何还要开发Spark计算模型呢？...

【Spark学习】Spark思维导图（超详细！）

标签： spark

花了将近一个月时间学习了Spark，为了总结所学知识，我用ProcessOn绘制了几张Spark思维导图这里是Spark思维导图地址 Spark思维导图地址注意：需要有ProcessOn账号才能查看 1.Spark 入门 2.Spark Core 3.Spark ...

spark 参数配置及内存模型

标签： spark 大数据 hadoop

1spark 提交主要参数 1.1 num-executors 此数量代表 spark的executors数量，所有的task在executor中运行。 1.2 executor-cores 此数值代表每个 executor中可以并行运行的task数。一般一个任务使用1核，此值...

Spark提交任务

标签： spark scala java

Spark_Submit脚本参数 Spark-submit脚本提交任务时最简易的命令格式如下： ./bin/spark-submit \ --master spark://localhost:7077 \ 任务包任务参数而实际开发中用的一般是如下的格式 ./bin/spark-submit \ --...

Spark-SQL连接Hive 的五种方法

标签： hive spark sql

因为 Spark Thrift Server 的接口和协议都和 HiveServer2 完全一致，因此我们部署好 Spark Thrift Server 后，可以直接使用 hive 的 beeline 访问 Spark Thrift Server 执行相关语句。3.运行bin/目录下的spark-sql....