火山引擎ByteHouse数据导入能力升级,助力企业强化数字基础建设
2023/10/16 10:58:00来源:全球建筑展览网
简介:近期,火山引擎开发者社区、火山引擎数智平台(VeDI)联合举办《数智化转型背景下的火山引擎大数据技术揭秘》为主题的线下Meeup,活动主要从数据分析、数据治理、研发提效等角度,带领数据领域从业者全面了解数智化转型背景下,火山引擎数据飞轮模式在数据资产建设上的技术与实践。火山引擎ByteHouse产品专家在本次活动中作了《基于ByteHouse引擎的增强型数据导入技术实践》的主题分享,介绍ByteHouse数据导入能力升级情况。
来源:中国网科学 | | 责任编辑:科学频道
随着ByteHouse内外部用户规模不断扩大,越来越多用户对数据导入提出更高的要求,这也为ByteHouse的数据导入能力带来了更大的挑战。
从字节跳动内部来看,ByteHouse主要以Kafka为实时导入的主要数据源。对于大部分内部用户而言,其数据体量偏大,用户更看重数据导入的性能、服务的稳定性以及导入能力的可扩展性。在数据延时性方面,用户的需求一般为秒级左右。
据火山引擎ByteHouse产品专家的介绍,基于以上场景和需求,ByteHouse首先基于ClickHouse引擎进行升级,其次又针对数据导入能力进行一系列定制性优化,主要包括两个方面,第一为MaterializedMySQL增强;第二个是HaKafka引擎。
在引擎优化方面,在TB级数据量级下,ClickHouse容易出现集群故障,还存在读性能较低、耗损内存的问题。针对这些痛点,ByteHouse自研的HaMergeTree和HaUniqueMergeTree可以降低负载,确保集群在单节点故障下能平稳运行服务,还能平衡读写性能,保障读取时性能一致。
在数据导入能力的定制化优化方面,社区版MaterializedMySQL不支持分布式表等功能,也存在无法定位问题、无法同步状态等运维问题。一方面,通过构建分布式模式的MaterializedMySQL库,用户可将每个表都对应同步至ByteHouse的一个分布式表,让数据不重复存储,充分利用分布式集群的计算能力,又降低了对源端的同步压力。另一方面,ByteHouse也提供可视化运维的功能,支持同步状态和任务管理,一旦出现系统运维故障,用户会收到异常警告。
而HaKafka引擎则是ByteHouse推出的一种特殊的表引擎,主要基于 ClickHouse社区的 Kafka engine进行了优化。用户可以通过一个Kafka消费表、分布式存储表、物化视图表,三元组实现数据消费、数据转换、数据写入功能。
目前,以上能力已经在短视频、营销实时数据监控、游戏广告数据分析等领域落地。以营销实时数据监控为例,在字节跳动内部,活动运营人员需要对营销活动效果进行实时监控,以便通过实时奖励发放来动态调整奖励流量分配,提升ROI收益。这类场景要求数据实时写入,对系统性能具备高要求。另外,为保障奖励不会发放错误,系统也需要保证数据在传输和落盘时都不丢失、不重复,且稳定运行。
火山引擎ByteHouse基于自研HaKafka引擎,能支持流式数据实时入库,用自研事务保障机制,确保数据精准一次传输,最后通过自研Unique引擎实现数据实时写入实时去重。在效果上,ByteHouse可以实现实时写入、实时分析30MB/s/node,活动运营人员可以根据不同用户群实时发放奖励,做到秒级延迟、秒级监控。
由于本网站信息均来源于用户发布及其他网络渠道提供,因此本站不完全保证信息的及时和准确性。本网转载,是本着为读者传递更多信息之目的,用户需自行确认或证实其内容的真实性再安排参展计划。如因展会改期、延期、取消展会计划等造成纠纷,请用户联系该展会承办公司,本网不承担相关法律责任。 如涉及版权等问题,请作者一周内来电或来函联系删除或修改。电话:010-84600936
- 最高资助5000万元!深圳发文重点支持绿色建筑材料产业发展丨政策
- 家居建材行业数据 | 9月BHI继续上涨 全国建材家居市场进入传统旺季
- 筑博会|建筑业转型升级与高质量发展论坛召开
- 标普:中国房地产即将触底,或将于2024年缓慢复苏
- 从XXL城市到可持续建筑,BCC国际建筑科技大会·深圳议题公布!
- 国网山东电科院邢家维:多能源互补协同控制技术在青岛中德生态园的示 范应用
- 深圳国际智能家居及建筑装饰展、CBD 2023中国建博会(深圳)6万平 米大展!观众预登记已开启
- 参加展会,终究还是为了签单
- 新房装修涨价40-50% 企业利润却不断被摊薄
- 爆款产品再升级,火星人新品360°秀出“厨房超能力”