“数据仓湖” 是一种将数据仓库和数据湖的优势相结合的新型数据架构概念。
架构特点
融合存储:既包含数据仓库中经过清洗、转换和集成的结构化数据,又涵盖数据湖中原始的、未加工的多类型数据,如结构化、半结构化和非结构化数据,形成一个统一的存储体系。
分层架构:通常采用分层设计,如原始数据层、基础数据层、汇总数据层、应用数据层等,不同层次的数据具有不同的处理程度和用途,既能满足企业对数据标准化、规范化的需求,又能保留数据的原始性和灵活性。
数据处理
批流一体:支持批量数据处理和实时流数据处理。对于历史数据和批量数据,可以按照数据仓库的方式进行定期的 ETL 处理,确保数据的准确性和一致性;对于实时产生的流数据,能够实时接入并进行流处理,及时获取最新的业务信息。
多引擎协同:结合了数据仓库和数据湖的多种计算引擎,如数据仓库中的传统 SQL 引擎,以及数据湖中的大数据处理引擎,根据不同的业务场景和数据特点,选择合适的计算引擎进行数据处理,提高处理效率。
数据管理
数据治理:在数据仓湖架构中,数据治理更加全面和精细。一方面,对数据仓库中的数据进行严格的质量管理、元数据管理和数据安全管理,确保数据的准确性、一致性和安全性;另一方面,也对数据湖中的原始数据进行一定的治理,如数据分类、标签化等,提高数据的可管理性。
数据血缘:通过建立完善的数据血缘关系,清晰记录数据从原始来源到最终应用的整个流转过程,包括数据在数据仓库和数据湖之间的转换和传递,方便数据追溯和问题排查。
应用场景
综合分析:企业可以在数据仓湖中进行全面的数据分析,既包括基于数据仓库的传统报表分析、即席查询等,也包括基于数据湖的深度数据挖掘、机器学习等高级分析,为企业决策提供更丰富的依据。
实时决策:利用数据仓湖的实时流处理能力和丰富的数据资源,企业可以实时监控业务指标,及时发现业务问题,并快速做出决策,提高业务的响应速度和竞争力。
优势
灵活性与规范性并存:数据湖的存在使得企业能够灵活地存储和处理各种类型的原始数据,满足数据科学家等对数据探索和创新分析的需求;同时,数据仓库的规范结构又为企业提供了标准化的数据视图,方便业务人员进行常规的报表分析和查询。
成本优化:相比单独建设数据仓库和数据湖,数据仓湖架构在一定程度上可以优化成本。通过合理规划数据的存储和处理方式,避免了数据的重复存储和处理,提高了资源的利用率,降低了硬件和软件的采购成本以及运维成本。
加速创新:为企业的数据创新提供了更好的平台,数据科学家和分析师可以在数据仓湖中快速获取丰富的数据资源,进行各种创新的数据分析和模型开发,加速企业的数字化转型和业务创新。
