数据的收集方法6种(数据的收集方法6种七年级)

最近有很多读者朋友对数据的收集方法6种有疑问。由部分网友整理出相关内容希望能够解答你的疑惑,关于数据的收集方法6种七年级,本站也已经为你找到了问题的答案,希望能帮助到你。

离线同步

DataX离线数据同步框架。 DataX-Web版,通过一站式服务,更轻松的让使用者操作,需Clone并且配置相关信息即可使用。DataX也是支持使用代码调用,但是需要二次开发。

Kettle离线数据ETL框架。 Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。 Kettle提供Spoon图形化界面,操作都以图形化使用。能提供JAR包供开发人员调用。

sqoop离线在关系型数据库和hadoop组件之间进行数据迁移。Sqoop支持全量数据导入和增量数据导入(增量数据导入分两种,一是基于递增列的增量数据导入(Append方式)。二是基于时间列的增量数据导入(LastModified方式))。

实时同步

CDC是Change Data Capture(变更数据获取)的简称。可以基于增量日志,以极低的侵入性来完成增量数据捕获的工作。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。CDC主要分为基于查询和基于Binlog两种方式。

数据增量同步是ETL关键功能,在全量同步后,持续增量同步,保证数据的完整,正确和时效,通常有两种方式实现,双写和CDC。

Canal 提供增量数据实时订阅和消费。

canal常用于mysql,可以做如下事项:数据库镜像,数据库实时备份, 索引构建和实时维护 ,业务cache(缓存)刷新, 带业务逻辑的增量数据处理。

Maxwell实时将数据增量或全量发送到队列,轻量级工具。

Streamsets是一个大数据实时采集ETL工具,拖拽式可视化界面操作,可以实现不写一行代码完成数据的采集和流转。

Bifrost 可以将数据增量或全量、实时的同步到多个目标端。目标端支持Redis、MongoDB、MySQL、ClickHouse、Elasticsearchicon,

Memcache、RabbitMQ、Kafka、ActiveMQ、Http Server等

Debezium是一个实时捕获数据库数据变更的分布式服务,应用可以看到这些数据变更,以及处理他们。Debezium以更改事件流的形式记录每张表的行级变更。然后应用可以以事件流产生的顺序读取事件流变更记录。

Cloudcanal是增强的canal,有商业版和社区版。

实时同步需求场景:1 缓存失效 2 简化分布式事务 3 聚合ETL