技术标签: ClickHouse clickhouse 大数据
语法:
CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster]
(
name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1] [TTL expr1],
name2 [type2] [DEFAULT|MATERIALIZED|ALIAS expr2] [TTL expr2],
...
INDEX index_name1 expr1 TYPE type1(...) GRANULARITY value1,
INDEX index_name2 expr2 TYPE type2(...) GRANULARITY value2
) ENGINE = MergeTree()
ORDER BY expr
[PARTITION BY expr]
[PRIMARY KEY expr]
[SAMPLE BY expr]
[TTL expr [DELETE|TO DISK 'xxx'|TO VOLUME 'xxx'], ...]
[SETTINGS name=value, ...]
配置选项:
ENGINE = MergeTree() ORDER BY (a, b, intHash32(UserID) SAMPLE BY intHash32(UserID)
TTL date + INTERVAl 1 DAY
DELETE
规则。MergeTree 表引擎中的数据是拥有物理存储的,数据会按照分区目录的形式保存到磁盘上。
一张数据表的完整物理结构分为3个层级,分别为数据表目录、分区目录以及各分区下具体的数据文件。
完整分区目录的命名公式:PartitionID_MinBlockNum_MaxBlockNum_Level
MergeTree 与其他数据库不同的是,每一批数据的写入,MergeTree 都会生成一批新的分区目录。也就是说,对于同一个分区而言,也会存在多个分区目录的情况。
在之后的某个时刻(写入后的10~15分钟,也可以手动执行 optimize table xxxx final
语句),ClickHouse会通过后台任务再将属于相同分区的多个目录合并成一个新的目录。
已经存在的旧分区目录并不会立即被删除,而是在之后的某个时刻通过后台任务删除(默认8分钟)。
新目录名称的合并方式遵循的规则:
名称变化过程:
分区目录创建、合并、删除的过程:
MergeTree 的主键使用 PRIMARY KEY 定义,待主键定义之后,MergeTree 会依据 index_granularity 间隔(默认8192行),为数据表生成一级索引并保存至 primary.idx 文件内,索引数据按照 PRIMARY KEY 排序。
primary.idx 文件内的一级索引采用稀疏索引实现。
稀疏索引的优势是仅用少量的索引标记就能够记录大量数据的区间位置信息,且数据量越大优势越明显。由于稀疏索引占有空间小,所以primaray.idx内的索引数据常驻内存,取用速度自然极快。
索引文件查看命令:od -An -i -w4 primary.idx
索引粒度就如同标尺一般,会丈量整个数据的长度,并依照刻度对数据进行标注,最终将数据标记成多个间隔的小段。
由于是稀疏索引,所以 MergeTree 需要间隔 index_granularity 行数据才会生成一条索引记录,其索引值会依据声明的主键字段获取。
一个压缩数据块由头信息和压缩数据两部分组成。
数据写入过程:
优势:
数据标记作为衔接一级索引和数据的桥梁,其像极了做过标记小抄的书签,而且每个章节都拥有各自的书签。
数据标记和索引区间是对齐的。
为了能够与数据衔接,[Column].mrk数据标记文件也与[Column].bin文件一一对应,用于记录数据在.bin文件中的偏移量信息。
一行标记数据使用一个元组表示,元组内包含两个整型数值的偏移量信息。
查看标记文件的命令:
od -An -l xxx.mrk
MergeTree 在读取数据时,必须通过标记数据的位置信息才能够找到所需要的数据。整个查找过程大致可以分为读取压缩数据块和读取数据两个步骤。
当一个间隔 (index_granularity) 内的数据未压缩大小 size < 64KB 时,则多个数据标记对应一个压缩数据块。
当一个间隔 (index_granularity) 内的数据未压缩大小 64KB <= size <= 1MB 时,则一个数据标记对应一个压缩数据块。
当一个间隔 (index_granularity) 内的数据未压缩大小 size >1MB 时,则一个数据标记对应多个压缩数据块。
数据写入的第一步是生成分区目录,伴随着每一批数据的写入,都会生成一个新的分区目录。在后续的某一时刻,属于相同分区的目录会依照规则合并到一起;接着,按照 index_granularity 索引粒度,会分别生成 primary.idx 一级索引、每一个列字段的 .mrk 数据标记和 .bin 压缩数据文件。
数据查询的本质,可以看作一个不断减小数据范围的过程。在最理想的情况下,MergeTree 首先可以依次借助分区索引、一级索引和二级索引,将数据扫描缩至最小。然后再借助数据标记,将需要解压与计算的数据范围缩至最小。
TTL 即 Time To Live,顾名思义,它表示数据的存活时间。在 MergeTree 中,可以为某个列字段或整张表设置 TTL。
设置TTL:
-- create_time 是日期类型,code 字段被设置的TTL是在create_time的取值向后延续10秒。
CREATE TABLE ttl_table_v1 (
id String,
create_time DateTime,
code String TTL create_time + INTERVAL 10 SECOND
)
ENGINE = MergeTree
ORDER by id
CREATE TABLE ttl_table_v2 (
id String,
create_time DateTime,
code String TTL create_time + INTERVAL 10 SECOND
)
ENGINE = MergeTree
PARTITION BY toYYYYMM(create_time)
ORDER by create_time
TTL create_time + INTERVAL 1 DAY
{
"columns":[{
"name":"code","min":1557478860,"max":1557651660}],"table":{
"min":1557565200,"max":1557738000}}
## columns 是保存列级别TTL信息
## table 是保存表级别TTL信息
## min 和 max 则保存了当前数据分区内,TTL指定日期字段的最小值、最大值分别与INTERVAL表达式计算后的时间戳。
19.15 版本之前,MergeTree 只支持单路径存储,所有的数据都会被写入 config.xml 配置中path 指定的路径下,即使服务器挂载了多块磁盘,也无法有效利用这些存储空间。
19.15 版本开始,MergeTree 实现了自定义存储策略的功能,支持以数据分区为最小移动单元,将分区目录写入多块磁盘目录。
存储策略:
配置方式:
<storage_configuration>
<disks>
<disk_name_a> <!-- 自定义磁盘名称 -->
<path>/chbase/data</path> <!-- 磁盘路径 -->
<keep_free_space_bytes>1073741824</keep_free_space_bytes> <!-- 指定指定磁盘的预留空间,单位字节 -->
</disk_name_a>
<disk_name_b>
<path>…</path>
<keep_free_space_bytes>...</keep_free_space_bytes>
</disk_name_b>
</disks>
<policies>
<default_jbod> <!-- 自定义策略名称 -->
<volumes>
<jbod> <!-- 自定义名称磁盘组 -->
<disk>disk_name_a</disk>
<disk>disk_name_b</disk>
</jbod>
</volumes>
</default_jbod>
</policies>
</storage_configuration>
MergeTree 拥有主键,但是它的主键却没有唯一键的约束。这意味着即便多行数据的主键相同,它们还是能够被正常写入。
ReplacingMergeTree 就是在这种背景下为了数据去重而设计的,它能够在合并分区时删除重复的数据。
ReplacingMergeTree 是以分区为单位删除重复数据的。
ReplacingMergeTree 的可选参数:
ENGINE = ReplacingMergeTree([ver])
ver 表示版本列,类型为 UInt*, Date 或 DateTime。可选参数。
在数据合并时,ReplacingMergeTree 从相同排序键的行中选择一行留下:
用户只需查询数据的汇总结果,不关心明细数据,并且数据的汇总条件是预先明确的,而 SummingMergeTree 就是能够在合并分区时,按照预先定义的条件聚合汇总数据,将同一分组下的多行数据汇总合并成一行。
使用方式:
文章浏览阅读1.6w次,点赞20次,收藏87次。Hyperion高光谱数据——影像获取+预处理最近在用Hyperion做植被分类,利用高光谱的优势,应该能得到比Landsat精度更高的结果。按照以下几项对数据准备工作总结:Hyperion数据的免费下载影像预处理的必要性利用ENVI补丁Workshop进行处理——对出现的bug进行修改最小噪声变换(MNF)改进锯齿现象Firstly–Download the Image主要在美国地质勘探_pie软件 hyperion数据
文章浏览阅读1.6k次。网上有很多答案,看了让人不知道在说什么,一个行之有效的解决方案是在“stdafx.h”中添加#define POINTER_64 __ptr64。已验证有效。缺点是每生成一个新项目,都要添加一次。_vs2010 语法错误: 缺少“;”(在标识符“pvoid64”的前面)
文章浏览阅读392次。1 # Write your MySQL query statement belowselect max(salary) as SecondHighestSalary from Employee where salary not in (select max(salary) from Employee )Write a SQL query to get the second hig_leedcode sql
文章浏览阅读1.1w次,点赞74次,收藏324次。嵌入式软件笔试,嵌入式软件面试,程序员简历书写,Linux驱动工程师笔试,Linux驱动工程师面试,BSP工程师笔试,BSP工程师面试,应届生秋招,应届生春招,C/C++笔试题目,C/C++面试题目,C/C++程序员,BSP工程师_嵌入式工程师笔试面试指南
文章浏览阅读800次。传送门:点击打开链接题意:轮流取石子。1.在一堆中取任意个数.2.在两堆中取相同个数。最后取完的人胜利,问先手是否必赢思路:威佐夫博弈博弈,满足黄金分割,且每个数字只会出现一次。具体求法见代码#include#include#include#include#include#include#include#include#include#include#include_博弈 分割石子
文章浏览阅读2k次。blinker支持多种智能音响控制,如天猫精灵、百度小度、小米小爱、京东叮咚等。这里以天猫精灵控制为例,blinker DIY支持将设备模拟成三种类型的智能家居:插座、灯、传感器。Blinker支持多种语音助手控制,如天猫精灵、百度小度,本节以天猫精灵控制为例。示例程序及blinker模块天猫精灵基本接入方法通常语音助手都是对特定的设备类型进行支持,确定设备类型后,才能响应对应的语音指令。使用bl..._blinker支持micpython么
文章浏览阅读80次。【这里想说,因为自己也走了很多弯路过来的,所以才下定决心整理,收集过程虽不易,但想到能帮助到一部分想成为Java架构师或者是想职业提升P6-P7-P8的人,心里也是甜的!有需要的伙伴请点㊦方】↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓。数据库隔离级别,每层级别分别用什么方法实现,三级封锁协议,共享锁排它锁,mvcc 多版本并发控制协议,间隙锁。数据库表怎么设计的?_索引会不会使插入、删除作效率变低,怎么解决?
文章浏览阅读3.3k次。其中,延迟队列是 Redis 的一个重要应用场景,它被广泛应用于异步任务的调度、消息队列的实现以及秒杀、抢购等高并发场景的处理。在实现延迟队列时,我们可以使用 Redis 的有序集合来保存待执行的任务,其中元素的分值表示任务的执行时间,元素的值表示任务的内容。使用 ZADD 命令将任务添加到有序集合中,将任务的执行时间作为元素的分值,将任务的内容作为元素的值。使用 ZADD 命令将任务添加到有序集合中,将任务的执行时间作为元素的分值,将任务的内容作为元素的值。一、Redis 有序集合实现延迟队列。
文章浏览阅读701次,点赞23次,收藏7次。1.背景介绍Python是一种强大的编程语言,它具有简洁的语法和易于学习。Python的文件操作是一种常用的编程技术,可以让程序员更方便地读取和写入文件。在本文中,我们将深入探讨Python的文件操作,涵盖了核心概念、算法原理、具体操作步骤、数学模型公式、代码实例以及未来发展趋势。1.1 Python的文件操作背景Python的文件操作是一种基本的编程技能,它允许程序员在程序中读取和写...
文章浏览阅读1k次。1.SVM和LR(逻辑回归)1.1 相同点都是线性分类器。本质上都是求一个最佳分类超平面。都是监督学习算法。 都是判别模型。通过决策函数,判别输入特征之间的差别来进行分类。常见的判别模型有:KNN、SVM、LR。 常见的生成模型有:朴素贝叶斯,隐马尔可夫模型。1.2 不同点损失函数不同,LR的损失函数为交叉熵;svm的损失函数自带正则化,而LR需要在损失函数的基础上加上正则化。 两个模型对数据和参数的敏感程度不同。SVM算法中仅支持向量起作用,大部分样本的增减对模型无影响;而L_机器学习的模型比较
文章浏览阅读901次,点赞3次,收藏10次。C语言操作单链表
文章浏览阅读1.6k次,点赞32次,收藏47次。本文简单记录了博主的一次打靶经历,涉及wordpress扫描与爆破、social-warfare远程代码执行漏洞、sudo命令提权等_sosimple 写入试验场