导航：首页 > 互联网科技 >

DataPipeline的应用场景

发表于：2024-11-24 作者：热门IT资讯网编辑

编辑最后更新 2024年11月24日，这篇文章给大家分享的是有关DataPipeline的应用场景。小编觉得挺实用的，因此分享给大家学习。如下资料是关于DataPipeline的内容。一、对分库分表场景的支持场景说明在同一个数据任务中，对

这篇文章给大家分享的是有关DataPipeline的应用场景。小编觉得挺实用的，因此分享给大家学习。如下资料是关于DataPipeline的内容。

一、对分库分表场景的支持

场景说明

在同一个数据任务中，对源系统某张表，根据表中数据的业务逻辑，将数据同步到不同数据库的不同表中，例如：将集团的销售数据按照所属分公司的不同同步到对应的分公司数据库的销售数据表中。

场景适用说明

源/目的地：关系型数据库

读取模式：无限制

操作步骤

（1）根据设计确定分库分表规则；

（2）根据已定规则选择对应数据源并创建数据源；

（3）目的地将分库分表规则按照指定格式写入CSV文件；

（4）DP将根据已定义的CSV规则对源端数据进行分库分表写入目的地。

注：详细细节可联系DataPipeline提供开发文档说明。

二、自定义数据源场景

场景说明

目前，许多企业在数据传输的需求场景中，除了从上游不同业务数据库中实时、定时分配到下游系统外，还需从外部合作商、供应商中获取业务数据。此时，企业通常会根据需要编写不同的脚本，手动调用第三方系统提供的API接口，在抓取数据后，自行编写清洗逻辑，最后实现数据落地。DataPipeline的自定义数据源功能针对上面场景有以下几点优势:

统一管理数据获取逻辑，快速合并JAR减少脚本开发量; 2. 当上游发生变化时，无需对每一个数据传输任务进行调整; 3. 可结合DataPipeline的数据解析功能、清洗工具和目标初始化功能减少整体开发量，并提供监控和预警。
场景适用说明

源：自定义数据源

目的地：无限制

读取模式：定时模式

操作步骤

（1）创建自定义数据源，并上传JAR包（或调取已上传过的JAR包）；

（2）选择数据存放的目的地；

（3）使用清洗工具完成数据解析逻辑；

（4）配置目的地表结构，即可完成所有配置。

注：详情参考「自定义」数据源，解决复杂请求逻辑外部数据获取难题请添加链接描述

三、MySQL源Slave1挂掉后，使用Slave2同步如何保证数据不丢失

场景说明

为避免对MySQL主库产生影响，DataPipeline连接MySQL Slave1从库通过解析Binlog方式进行实时同步。但当Slave1挂掉时，为不影响任务，需要切换到Slave2从库继续进行实时同步。

但Slave2拿到的Binlog日志相较于Slave1有延迟，会导致缺失数据。

DataPipeline提供了回滚功能，用户可在DataPipeline上将原任务回滚到到某个时间段，确保不会缺失数据，拿到对应GTID，再通过该GTID找到Slave2对应的Binlog position等信息。该操作不会缺失数据，但可能会产生重复数据（如果目的地是关系型数据库且有主键，可根据主键去重）。