基于DataX的海量时序数据迁移实战:从MySQL到TDengine3.x_datax脚本tdengine多表导出-程序员宅基地

技术标签: TDengine  DataX  TDengine3.x  时序数据迁移  亿级数据迁移  MySQL  Database  

背景

MySQL 数据库中,设备历史数据单表过亿,如何快速、低成本地迁移到 TDengine3.x 中?

从标题可以看出,我们使用的数据迁移/同步工具是 DataX ,数据源( Source )为传统的关系型数据库 MySQL ,目标库( Sink )为新型的具有场景特色的时序数据库 TDengine

DataX:是阿里云DataWorks数据集成的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。 DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步功能。

MySQL:略。。

TDengine:是一款开源、高性能、云原生的时序数据库 (Time-Series Database, TSDB)。 TDengine 能被广泛运用于物联网、工业互联网、车联网、 IT 运维、金融等领域。除核心的时序数据库功能外, TDengine 还提供缓存、数据订阅、流式计算等功能,是一极简的时序数据处理平台,最大程度的减小系统设计的复杂度,降低研发和运营成本。

MySQLTDengine3.x 进行数据迁移,即面临异构数据的迁移。首先要了解下 MySQLTDengine 的数据模型方面的区别,具体可参考涛思数据官方提供的一个关于电表数据的模型对比:写给MySQL开发者的 TDengine入门指南

数据模型

以水库水位监测的案例说明,在 MySQL 中我们会有1张设备信息表(设备编号、厂家、型号等信息)和1张设备数据表(传感器采集的时序数据)。

2023-05-28-Device.jpg

2023-05-28-WaterTable.jpg

针对 MySQL 中的2张表,以 TDengine 的设计思想来建模:在迁移到 TDengine 后会变成1张超级表+N(设备的数量)张子表,且每张子表的名称对应 MySQL 设备信息表中的每个设备编码。具体地来说, TDengine 中的数据模型如下:

create database if not exists sensor;
create stable if not exists sensor.water(ts timestamp, level float, status int) tags(district_code nchar(6), unit_id nchar(36), sensor_code int);

这里仅创建了1张超级表,具体的子表会在进行数据迁移时,根据 MySQL 设备信息表中的设备编码自动创建。

2023-05-28-Desc.jpg

准备迁移工具

一开始我直接从https://github.com/taosdata/DataX的README中的:Download DataX下载地址下载的,但是后来才发现没有 TDengine3.x 版本的writer;然后直接下载https://github.com/taosdata/DataX的源码,本地编译生成了 jar 包,放到了 DataXplugin 目录中。

2023-05-28-mvn.jpg
Note:本地源码 mvn clean package -Dmaven.test.skip=true 构建生成 tdengine30writer-0.0.1-SNAPSHOT.jar 后,在 \datax\plugin\writer 下复制 tdenginewriter 目录,重命名为 tdengine30writer ,对应修改了其中的 plugin.jsonplugin_job_template.json ,以及 libs 目录下的 taos-jdbcdriver-3.0.2.jar

2023-05-28-Plugin.jpg
至此,工具就准备好了,剩下的就是编写数据迁移的配置脚本了。

迁移设备信息表

job-water.json :迁移配置脚本分两部分:一个是数据源,一个是目标库。迁移设备信息表这一步的结果就是创建了所有的子表:一个设备一张表。

  • 数据源
    “name”: “mysqlreader”, 迁移设备信息表时,对设备编码起别名为 tbnameTDengine 自动会将其作为子表的名称进行创建。

Note:这里在设备编码前加了一个字母d,因为在 TDengine 中表名不可以为数字。

  • 目标库

“name”: “tdengine30writer”, 在 column 部分罗列出数据源中查询出的列名,与 MySQL 数据源中的顺序和名称一一对应,表名 table 处直接写超级表的名称。

{
    
    "job": {
    
        "content": [
            {
    
                "reader": {
    
                    "name": "mysqlreader",
                    "parameter": {
    
                        "username": "root",
                        "password": "your-password",
                        "connection": [
                            {
    
                                "jdbcUrl": [
                                    "jdbc:mysql://your-ip:3306/iotdata?useSSL=false&serverTimezone=Asia/Shanghai"
                                ],
                                "querySql": [
                                    "select concat('d', code) as tbname, create_time as ts, sensor_code, district_code, unit_id from b_device WHERE sensor_code=2;"
                                ]
                            }
                        ]
                    }
                },
                "writer": {
    
                    "name": "tdengine30writer",
                    "parameter": {
    
                        "username": "root",
                        "password": "taosdata",
                        "column": [
                            "tbname",
                            "ts",
                            "sensor_code",
                            "district_code",
                            "unit_id"
                        ],
                        "connection": [
                            {
    
                                "table": [
                                    "water"
                                ],
                                "jdbcUrl": "jdbc:TAOS-RS://192.168.44.158:6041/sensor"
                            }
                        ],
                        "batchSize": 1000,
                        "ignoreTagsUnmatched": true
                    }
                }
            }
        ],
        "setting": {
    
            "speed": {
    
                "channel": 1
            }
        }
    }
}
  • 执行迁移/同步脚本
D:\datax\bin>datax.py ../job/job-water.json

迁移设备数据表

job-water-data.json :迁移配置脚本分两部分:一个是数据源,一个是目标库。迁移设备数据表这一步的结果便会将传感器数据根据设备编号写入对应的子表中。

  • 数据源

迁移设备数据表时,查询传感器采集的字段,同样对设备编码起别名为 tbnameTDengine 自动会将数据写入对应的子表。

  • 目标库

column 部分罗列出数据源中查询出的列名,与 MySQL 数据源中的顺序和名称一一对应,配置设备数据表时,需要注意,表名 table 处要写所有子表的名称。

{
    
    "job": {
    
        "content": [
            {
    
                "reader": {
    
                    "name": "mysqlreader",
                    "parameter": {
    
                        "username": "root",
                        "password": "your-password",
                        "connection": [
                            {
    
                                "jdbcUrl": [
                                    "jdbc:mysql://your-ip:3306/iotdata?useSSL=false&serverTimezone=Asia/Shanghai&net_write_timeout=600"
                                ],
                                "querySql": [
                                    "select concat('d', code) as tbname, create_time as ts, value as level, status from sensor_water;"
                                ]
                            }
                        ]
                    }
                },
                "writer": {
    
                    "name": "tdengine30writer",
                    "parameter": {
    
                        "username": "root",
                        "password": "taosdata",
                        "column": [
                            "tbname",
                            "ts",
                            "level",
                            "status"
                        ],
                        "connection": [
                            {
    
                                "table": [
                                    "d66057408201830",
                                    "d66057408063030",
                                    "d66057408027630",
                                    "d66057408208130",
                                    "d66057408009630",
                                    "d66057408000530",
                                    "d66057408067330",
                                    "d66057408025430"
                                ],
                                "jdbcUrl": "jdbc:TAOS-RS://192.168.44.158:6041/sensor"
                            }
                        ],
                        "encoding": "UTF-8",
                        "batchSize": 1000,
                        "ignoreTagsUnmatched": true
                    }
                }
            }
        ],
        "setting": {
    
            "speed": {
    
                "channel": 1
            }
        }
    }
}
  • 执行迁移/同步脚本
D:\datax\bin>datax.py ../job/job-water-data.json

使用DataX可能遇到的问题

DataX中文乱码

执行 D:\datax\bin>datax.py ../job/job.json 后,控制台上的中文输出乱码。

  • Solution:直接输入CHCP 65001回车,直到打开新窗口出现Active code page: 65001,再次执行job命令,中文正常显示。

2023-05-28-SubTable.jpg

插件加载失败, 未完成指定插件加载:[mysqlreader, tdengine20writer]

  • Solution:使用的插件名称要写正确

com.alibaba.datax.common.exception. DataXException: Code:[TDengineWriter-00], Description:[parameter value is missing]. - The parameter [username] is not set.

  • Solution:TDengine2.0和3.0的配置项不一样,因为我一开始是采用的TDengine2.0的配置来迁移的,根据3.0的文档修改参数即可。

java.lang. ClassCastException: java.lang. String cannot be cast to java.util. List

  • Solution:mysql的reader读取部分的jdbcUrl和querySql的值需要使用“[]”括起来,是jdbc固定的模板。

com.alibaba.datax.common.exception. DataXException: Code:[TDengineWriter-02], Description:[runtime exception]. - No suitable driver found for [“jdbc: TAOS-RS://192.168.44.158:6041/sensor”]

  • Solution:writer这边的"jdbcUrl": “jdbc: TAOS-RS://192.168.44.158:6041/sensor”,使用字符串而不是数组。

空指针错误:ERROR WriterRunner - Writer Runner Received Exceptions:

java.lang.NullPointerException: null
        at com.taosdata.jdbc.rs.RestfulDriver.connect(RestfulDriver.java:111) ~[taos-jdbcdriver-2.0.37.jar:na]
        at java.sql.DriverManager.getConnection(Unknown Source) ~[na:1.8.0_311]
        at java.sql.DriverManager.getConnection(Unknown Source) ~[na:1.8.0_311]
        at com.alibaba.datax.plugin.writer.tdenginewriter.DefaultDataHandler.handle(DefaultDataHandler.java:75) ~[tdenginewriter-0.0.1-SNAPSHOT.jar:na]
  • Solution:看到taos-jdbcdriver用的是2.0的jar包,下载DataX源码,编译生成tdengine30writer-0.0.1-SNAPSHOT.jar,并拷贝tdenginewriter文件夹为tdengine30writer,将tdengine30writer-0.0.1-SNAPSHOT.jar放到tdengine30writer中,删除tdenginewriter\libs其中taos-jdbcdriver-2.0.37.jar,添加taos-jdbcdriver-3.0.2.jar。

com.alibaba.datax.common.exception. DataXException: Code:[TDengineWriter-02], Description:[运行时异常]. - TDengine ERROR (2600): sql: describe 66057408201830, desc: syntax error near “66057408201830”

  • Solution:表名不可以为数字,我在编号前加了个字母d。

com.mysql.jdbc.exceptions.jdbc4. CommunicationsException: Application was streaming results when the connection failed. Consider raising value of ‘net_write_timeout’ on the server.

  • Solution:在数据源URL的连接上增加该参数,net_write_timeout/net_read_timeout设置稍微大一些,默认60s。
    例如: jdbc:mysql://your-ip:3306/iotdata?useSSL=false&serverTimezone=Asia/Shanghai&net_write_timeout=600

MySQL 中查看变量值: SHOW VARIABLES LIKE "net%"

2023-05-28-NetParam.jpg

小总结

以上便是基于 DataX 完成从 MySQLTDengine3.x 的时序数据迁移实战记录,借助 DataX 工具,通过配置文件驱动的方式完成了海量时序数据的快速迁移。

实际的迁移测试结果是,3000+个水库水位传感设备,历史数据单表1亿+,半天时间迁移了5000万+。

Reference


If you have any questions or any bugs are found, please feel free to contact me.

Your comments and suggestions are welcome!

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/u013810234/article/details/130910778

智能推荐

分布式光纤传感器的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告_预计2026年中国分布式传感器市场规模有多大-程序员宅基地

文章浏览阅读3.2k次。本文研究全球与中国市场分布式光纤传感器的发展现状及未来发展趋势,分别从生产和消费的角度分析分布式光纤传感器的主要生产地区、主要消费地区以及主要的生产商。重点分析全球与中国市场的主要厂商产品特点、产品规格、不同规格产品的价格、产量、产值及全球和中国市场主要生产商的市场份额。主要生产商包括:FISO TechnologiesBrugg KabelSensor HighwayOmnisensAFL GlobalQinetiQ GroupLockheed MartinOSENSA Innovati_预计2026年中国分布式传感器市场规模有多大

07_08 常用组合逻辑电路结构——为IC设计的延时估计铺垫_基4布斯算法代码-程序员宅基地

文章浏览阅读1.1k次,点赞2次,收藏12次。常用组合逻辑电路结构——为IC设计的延时估计铺垫学习目的:估计模块间的delay,确保写的代码的timing 综合能给到多少HZ,以满足需求!_基4布斯算法代码

OpenAI Manager助手(基于SpringBoot和Vue)_chatgpt网页版-程序员宅基地

文章浏览阅读3.3k次,点赞3次,收藏5次。OpenAI Manager助手(基于SpringBoot和Vue)_chatgpt网页版

关于美国计算机奥赛USACO,你想知道的都在这_usaco可以多次提交吗-程序员宅基地

文章浏览阅读2.2k次。USACO自1992年举办,到目前为止已经举办了27届,目的是为了帮助美国信息学国家队选拔IOI的队员,目前逐渐发展为全球热门的线上赛事,成为美国大学申请条件下,含金量相当高的官方竞赛。USACO的比赛成绩可以助力计算机专业留学,越来越多的学生进入了康奈尔,麻省理工,普林斯顿,哈佛和耶鲁等大学,这些同学的共同点是他们都参加了美国计算机科学竞赛(USACO),并且取得过非常好的成绩。适合参赛人群USACO适合国内在读学生有意向申请美国大学的或者想锻炼自己编程能力的同学,高三学生也可以参加12月的第_usaco可以多次提交吗

MySQL存储过程和自定义函数_mysql自定义函数和存储过程-程序员宅基地

文章浏览阅读394次。1.1 存储程序1.2 创建存储过程1.3 创建自定义函数1.3.1 示例1.4 自定义函数和存储过程的区别1.5 变量的使用1.6 定义条件和处理程序1.6.1 定义条件1.6.1.1 示例1.6.2 定义处理程序1.6.2.1 示例1.7 光标的使用1.7.1 声明光标1.7.2 打开光标1.7.3 使用光标1.7.4 关闭光标1.8 流程控制的使用1.8.1 IF语句1.8.2 CASE语句1.8.3 LOOP语句1.8.4 LEAVE语句1.8.5 ITERATE语句1.8.6 REPEAT语句。_mysql自定义函数和存储过程

半导体基础知识与PN结_本征半导体电流为0-程序员宅基地

文章浏览阅读188次。半导体二极管——集成电路最小组成单元。_本征半导体电流为0

随便推点

【Unity3d Shader】水面和岩浆效果_unity 岩浆shader-程序员宅基地

文章浏览阅读2.8k次,点赞3次,收藏18次。游戏水面特效实现方式太多。咱们这边介绍的是一最简单的UV动画(无顶点位移),整个mesh由4个顶点构成。实现了水面效果(左图),不动代码稍微修改下参数和贴图可以实现岩浆效果(右图)。有要思路是1,uv按时间去做正弦波移动2,在1的基础上加个凹凸图混合uv3,在1、2的基础上加个水流方向4,加上对雾效的支持,如没必要请自行删除雾效代码(把包含fog的几行代码删除)S..._unity 岩浆shader

广义线性模型——Logistic回归模型(1)_广义线性回归模型-程序员宅基地

文章浏览阅读5k次。广义线性模型是线性模型的扩展,它通过连接函数建立响应变量的数学期望值与线性组合的预测变量之间的关系。广义线性模型拟合的形式为:其中g(μY)是条件均值的函数(称为连接函数)。另外,你可放松Y为正态分布的假设,改为Y 服从指数分布族中的一种分布即可。设定好连接函数和概率分布后,便可以通过最大似然估计的多次迭代推导出各参数值。在大部分情况下,线性模型就可以通过一系列连续型或类别型预测变量来预测正态分布的响应变量的工作。但是,有时候我们要进行非正态因变量的分析,例如:(1)类别型.._广义线性回归模型

HTML+CSS大作业 环境网页设计与实现(垃圾分类) web前端开发技术 web课程设计 网页规划与设计_垃圾分类网页设计目标怎么写-程序员宅基地

文章浏览阅读69次。环境保护、 保护地球、 校园环保、垃圾分类、绿色家园、等网站的设计与制作。 总结了一些学生网页制作的经验:一般的网页需要融入以下知识点:div+css布局、浮动、定位、高级css、表格、表单及验证、js轮播图、音频 视频 Flash的应用、ul li、下拉导航栏、鼠标划过效果等知识点,网页的风格主题也很全面:如爱好、风景、校园、美食、动漫、游戏、咖啡、音乐、家乡、电影、名人、商城以及个人主页等主题,学生、新手可参考下方页面的布局和设计和HTML源码(有用点赞△) 一套A+的网_垃圾分类网页设计目标怎么写

C# .Net 发布后,把dll全部放在一个文件夹中,让软件目录更整洁_.net dll 全局目录-程序员宅基地

文章浏览阅读614次,点赞7次,收藏11次。之前找到一个修改 exe 中 DLL地址 的方法, 不太好使,虽然能正确启动, 但无法改变 exe 的工作目录,这就影响了.Net 中很多获取 exe 执行目录来拼接的地址 ( 相对路径 ),比如 wwwroot 和 代码中相对目录还有一些复制到目录的普通文件 等等,它们的地址都会指向原来 exe 的目录, 而不是自定义的 “lib” 目录,根本原因就是没有修改 exe 的工作目录这次来搞一个启动程序,把 .net 的所有东西都放在一个文件夹,在文件夹同级的目录制作一个 exe._.net dll 全局目录

BRIEF特征点描述算法_breif description calculation 特征点-程序员宅基地

文章浏览阅读1.5k次。本文为转载,原博客地址:http://blog.csdn.net/hujingshuang/article/details/46910259简介 BRIEF是2010年的一篇名为《BRIEF:Binary Robust Independent Elementary Features》的文章中提出,BRIEF是对已检测到的特征点进行描述,它是一种二进制编码的描述子,摈弃了利用区域灰度..._breif description calculation 特征点

房屋租赁管理系统的设计和实现,SpringBoot计算机毕业设计论文_基于spring boot的房屋租赁系统论文-程序员宅基地

文章浏览阅读4.1k次,点赞21次,收藏79次。本文是《基于SpringBoot的房屋租赁管理系统》的配套原创说明文档,可以给应届毕业生提供格式撰写参考,也可以给开发类似系统的朋友们提供功能业务设计思路。_基于spring boot的房屋租赁系统论文

推荐文章

热门文章

相关标签