新增功能
分类 | 功能描述 | 参考文档章节 |
---|---|---|
数据流转 |
新增基于 API 的实时入库能力,可直接数据写入ArgoDB的存储引擎,无需经过 SQL 引擎重放源库变更,其性能可达数百兆每秒,可满足大数据规模下的灵活性和高吞吐需求 |
|
新增通过 Slipstream 实时流入 Holodesk 行存表,进一步丰富对表类型的支持度,可用于频繁数据更新和点查场景 |
||
新增跨 TDDMS(星环分布式数据管理系统)读写数据能力,可通过单一查询入口访问多个 TDDMS 服务中的数据,例如关联查询数仓表和时序表,可进一步提升多模资源管控能力和数据流转效率 |
||
查询计算 |
新增 Skew Join 功能,通过均匀分发倾斜键值的方式改善 Join 性能,可提升数据倾斜场景下的查询性能数倍至数十倍,而且对比传统的改写 SQL 或广播小表的方式,拥有更好的便利性和普适性 |
|
新增动态更新细粒度索引功能,可在表数据变更后自动更新相应索引,与重建索引相比,此方法大幅降低了时间成本,效率提升可达百倍以上 |
||
新增时间旅行功能,可基于快照查询或恢复指定时间点下的表数据,可适用于数据审计、误操作恢复、历史数据分析等场景 |
\ |
|
数据存储 |
新增行存表,数据基于 Hash 分布存储,充分结合行存与分布式优势,可高效地服务于单条数据的写入和高并发点查场景 |
|
新增范围分区表的分区合并能力,可按需合并选定范围的分区,不仅大幅减少了元数据管理和任务调度开销,而且保留了分区裁剪过滤能力 |
||
新增读写分离能力,可基于统一的存储服务划分多个逻辑数据工作区,为不同的业务物理隔离所需计算/存储资源,表数据无需多余流转即可提供服务,进一步提升资源管控能力 |
\ |
功能优化
分类 | 功能描述 |
---|---|
查询优化 |
引入高性能 C++ 编译器,显著提高了对点查的响应速度(2~5 倍),适用于需要频繁访问特定数据项的应用场景 |
升级向量化查询引擎,新增对 Bucket Join 和 Cross Join 的支持,显著加强了 Join 查询的性能和效率 |
|
深度优化 RBO(基于规则的优化器),使其能够更有效地利用统计信息来加速查询响应,即使在数据量庞大的场景下,也能快速返回准确结果 |
|
优化查询结果集的数据获取性能,提高了整体查询响应速度 |
|
调整 Quark 服务的默认日志级别,将其从 INFO 降低至 WARN,显著减少了日志输出的频率,从而减轻了系统负担,特别是在执行短查询时,避免了不必要的日志记录开销,辅助提升查询处理的速度和系统的整体性能 |
|
优化 Rowkey 表的整体性能,对数据进行分层处理,在保持极速数据写入特性的基础上,大幅提升了查询和分析速度,有效避免了读时合并技术可能带来的性能瓶颈,可适用于实时数据监控和日志分析等场景。 |
|
事务优化 |
优化全局事务,通过将 Checkpoint 与事务处理过程解耦,进一步提升了流式数据入库的实时性,即使在高负载情况下,数据依然能够保持高度的新鲜度和实时更新 |
在使用 Slipstream 进行简单数据同步场景中,系统将自动启用全局事务处理机制,使事务数量不再依赖于分桶数,大幅减少了事务开销,使得可同步的表数量提升了近十倍 |
|
存储优化 |
支持调整默认建表类型为 Holodesk,进一步提升操作便利性,可通过将参数 hive.default.fileformat.argo 的值设置为 true 来实现 |