大数据+云+人工智能的整合
大数据和云计算技术都已经进入快速发展的第二个十年,随着人工智能技术的兴起和爆发,越来越多的企业趋向于将这三个新兴技术进行结合,打造下一代智能大数据云平台,基于其上打通并整合企业应用、数据资产和AI模型,构建新一代的智能数据业务基础架构,从而在从信息时代到数据时代的大趋势背景下完成企业基础架构的升级和改造。
目前财富50强的大部分企业都已经公布了企业的上云规划,而大量的初创企业更是从一开始就将基础IT架构构建在云上,并且基于云的架构来设计企业应用,即实现云原生应用。与此同时,国内外知名公有云服务商都在智能场景做深入探索,将大数据和AI作为下一波商业革命的武器,试图以云为载体,通过AI来改进企业用云处理大数据的方式。
星环科技作为大数据技术产品化发展的领导者,在数据云端化的浪潮下,也同样对云计算保持不断的研究和开发。我公司借助在大数据技术上的经验优势,采用云技术对大数据服务进行容器化,将大数据生态迁移到云上,最终开发出大数据云平台产品Transwarp Data Cloud,实现大数据 + 云 + 人工智能三者之间的成功融合。
大型企业的数据业务演进路线
随着数据时代的到来,以Google、Facebook、Amazon为代表的企业已经完成了从IT巨头到DT巨头的转变。这些公司借助其在大数据、云计算、人工智能的技术发展优势,快速实现业务数据化、数据资产化和企业经营数据化,加速商业价值的转化,在引领技术风向的同时获取了巨大的商业成功。这些大型企业基本按照下图所示路线一步步演进,并在数年内完成转换的过程。
数据统一化
在该阶段中,企业需构建出灵活的技术平台来支撑足够大的数据量级、超大的数据维度、多样化的数据类型,开始进行相关的数据统一化工作,包括构建统一的计算输出平台,统一的元数据管理和数据标准,并逐步将数据整合在该平台中。
数据资产化
实现数据统一化后,需要以数据分析等方式实现数据整合和最终资产化,同时通过有效的数据质量管理保证数据的质量和有效性。平台中积累的高质量数据越多,越会吸引更多的开发人员,促进企业根据数据的特点完成数据资产化工作,其中包括数据与业务字典的对接、数据管理流程等,从而将原始数据变为有价值的资产。
数据业务化
完成数据统一化和资产化后,企业便拥有强大的计算能力和丰富的数据资产,可以方便的构建数据业务。目前比较典型的能够产生巨大价值的数据业务主要分布在数据化运营、智能应用和在线数据服务等领域,它们通过大数据和人工智能技术的有效结合,从海量数据中快速发掘价值。
数据生态化
在该阶段,由于企业创造了统一的数据、计算和业务平台,因此更多的开发人员可以在该平台上做自助的业务开发,同时大量的业务又会产生新的数据和资产,吸引新的开发人员构建业务,数据、业务和开发人员形成正向反馈,构成完整的数据生态。
虽然企业在业务演进的过程中不一定严格按照以上四个阶段来发展,各个阶段可能存在一定的重合和反复迭代,但是随着大数据、云和人工智能技术的快速发展,基于这四个阶段的技术演进无论在技术上还是业务上都将会更加成熟,更切合企业的数据化战略。
Transwarp Data Cloud介绍
为了帮助企业完成数据业务的演进,星环科技结合公司在大数据平台TDH、云操作系统TOS、人工智能平台Sophon分别在大数据、容器云平台和人工智能领 域 的 技 术 优 势 ,研发出新一代智能大数据云平台Transwarp Data Cloud( 以下简称TDC ) ,为企业提供高效的基础技术平台,赋能部门业务,助力企业的数字化转型,促进数据和应用的生态建设,从而在数据化时代占据领先地位。
TDC能够以私有云、公有云或混合云的形式提供服务。在私有云领域,TDC可部署在大型企业内部,提供定制化的实现,集中数据资源和计算资源,为各个业务部门和分支机构提供数据分析服务,满足企业对大数据分析云的需求。对于公有云领域,TDC提供各种内部的数据产品和业务,云上的客户可以自主快速的构建集群创建应用,启动大数据业务,立即创建立即销毁,减少技术中心成本投入。TDC也可以用于混合云的构架,对于特定的需要对外提供服务的私有云企业,TDC支持接入公有云IaaS服务从而在业务高峰期提供良好的弹性扩展、精确计费等能力,提高企业的服务响应能力。
产品架构
原生云平台
底层是星环原生云操作系统Transwarp Operating System( TOS ) ,为云上的大数据应用部署以及资源管理提供全方位的实现支持。
服务管理框架
第二层是TDC的云管理框架,提供包括安全保护、多租户管理、微服务管理、计费系统等服务在内的云平台基础架构。
服务应用层
第三层是服务应用层,包含TDH和Sophon中的所有组件,以云产品形式提供大数据和AI服务。
控制平台
TDC在最上层提供统一的用户管理入口,让租户与用户快速部署大数据产品,以及实现项目管理和权限设置; 同时TDC提供数据资产目录、AI模型工厂和应用服务治理这三种高级数据服务支撑框架,加速数据业务创新。
赋能数据生态
星环通过云平台TDC结合三个支撑框架( AI模型工厂、数据资产服务、数据服务治理 )满足数据生态的构成需求,为企业数据生态赋能。
AI模型工厂
数据分析模型化( 将AI模型直接部署为API服务从而提供在线调用 )渐渐成为一种趋势,TDC支持将构建好的机器学习和人工智能模型包装为服务,并作为云产品由用户自主安装和使用,可以更方便的在企业内部创造和共享模型,让机器学习和人工智能平民化、普惠化,将其业务价值最大化。
数据资产
提供目前市场上稀缺的具有应用价值的数据资产相关功能,通过机器学习的方式自动分析数据,提供数据表管理,从而帮助企业对内部的海量数据进行归一化、资产化,不再受限于基于手工的数据资产管理,为价值创造提供先决条件。
服务治理
提供客户应用上架和管理服务,让用户在同一个平台完成应用开发、测试、部署过程,从而可以使用数据资产来创造价值,而有效的数据服务又能进一步创造新的数据资产。
TDC PaaS的优势
大数据云平台TDC作为PaaS( Platform as a Service )在实现大数据技术落地时利用云计算三项核心技术虚拟化技术、数据中心技术、多租户技术,继承了云平台资源弹性伸缩、自动修复、同一平台服务于多租户的能力,具备以下优势。
低成本
无需基础架构的重复构建,即开即用,不需要集群时可以随时销毁,提升计算和存储资源使用效率。
易用
以云产品为单位安装并管理大数据应用组件,自动建立大数据服务间的依赖; 提供统一、安全的运维产品和工具,降低运维成本。
弹性
按需开启和停止服务,按量计费,10分钟完成大数据服务部署。按需扩容和缩容,按需供给调度资源,批量任务与实时业务可以共享集群。
全面
涵盖数据完整生命周期的全图形化大数据服务,包含ETL、数仓、报表、检索、数据挖掘和数据库等大数据应用开发链中的各个环节。
稳定
融合星环多年大数据开发过程累积的创新性,产品经过落地部署,稳定可靠,大数据产品性能获得TPCx-HS、TPC-DS、TPC-H官方测试认可。
安全
完善的多租户模型和安全管控策略,精确到数据单元的权限管理,确保数据安全和资源管控。
功能介绍
大数据云产品
TDC在服务应用层提供了与大数据和人工智能相关的共七种产品,这些云产品由星环大数据生态中的基础组件构成,产品内部组件之间自动建立逻辑依赖从而实现完整的产品功能,可以覆盖数据处理与分析的常见场景。
数据仓库
构建一站式数据仓库服务,提供数据整合、加工、分析等全套数仓构建服务,帮助打造数据核心。
【应用场景】 ETL、批处理、数据湖、数据仓库
数据集市
适用于面向部门级的数据分析业务,提供包括交互式分析、OLAP Cube引擎、报表工具和调度工具,支持自动化的报表应用构建。
【应用场景】 自助交互式报表业务、经营仪表盘、高并发数据分析、多维度分析查询
实时计算
云上的流处理分析平台,对流数据进行实时采集和处理,构建实时数据仓库和实时应用,挖掘流式数据价值。
【应用场景】 实时数据分析 、 在线反欺诈 、 传感器网络分析 、 智能设备检测与故障预测
搜索引擎
PB级别高速全文检索服务,提供高并发支持,冷热数据隔离,以及字段精确、模糊检索和快速统计功能。
【应用场景】 行业搜索引擎 、 知识共享平台 、 信息检索服务
数据分析平台
为提供丰富的数据挖掘功能,内置60余种分布式机器学习算法和行业模型,实现数据到信息的转换。
【应用场景】 数据建模与挖掘 、 用户画像 、 预测分析 、 推荐系统
深度学习
人工智能开发平台,可进行机器学习和AI应用的开发,对各类数据实现高度智能化的处理。
【应用场景】 图像与视频识别 、 数据挖掘与建模 、 图形化建模与特征工程
关系数据库
构建企业关系型数据库,处理OLTP业务。支持复杂SQL查询,提供高稳定、可扩展、强一致保证。
【应用场景】 在线交易系统
多租户管控
TDC管理平台围绕项目、租户、用户等概念,实现权限和资源的合理划分与管理,由统一管理平台对多租户提供服务。租户管理员具有租户最高管理权限,负责权限的管理。租户内部以项目为单位管理产品实例,实现清晰合理的权限管理划分粒度。
由于引用了容器技术,TDC可实现多租户间的应用隔离、数据隔离、资源隔离、运行隔离,即使在同一平台上,彼此之间也完全透明,像运行在不同的基础架构。
此外,对于企业私有云,TDC可对企业内部租户提供统一的数据管理,企业共享数据被放置于共享数据区,高价值数据和敏感数据位于敏感数据区,从而保证统一的企业元数据管理和数据质量控制,维护统一的数据生命周期管理,推动数据资产化。
精确计费
TDC采用精准的计费架构,保证计费数据的准确性、安全性。同时该架构具有高可用、可扩展的性质,能够做到近实时的数据计算。
TDC平台为用户制定了合理透明的计费标准,分为硬件资源、大数据软件、数据服务、第三方应用四种费用类型进行计费。同时灵活支持多种计费单位,实现公平的计费模式。
另外TDC为平台经营者提供了丰富的费用管理功能,包括明确的租户账单明细,统一的经营分析报表,补账、销账、对账功能,租户配额设置,收费项目、价格设置,指定计费规则,以及费用折扣定制等,确保运营者自主控制与了解资金情况。
统一图形化运维监控
TDC内部部署日志管理服务Milano,对租户内部和平台实现统一的日志综合运维管理,提供以下六种功能。
TDC的运维管理系统在吞吐性、安全性、可用性上占据优势,为云平台提供高质量的运维服务。
全链路高吞吐
吞吐量最高可以达到TB级,单节点每秒日志收集可达数万条,3节点的监控集群每日收集日志可以达到20亿条。
全链路安全
日志数据经过Kerberos加密,不同租户的日志彼此隔离,用户读取和分析日志时需要得到安全认证。
全链路高可用
进行自身状态监控,保证数据高可用,数据不丢不重。
基于TDC的数据业务解决方案
TDC可以以公有云、私有云和数据服务云的形式为不同体量、不同业务类型、不同运作模式的企业提供针对性的服务,满足企业对大数据云平台的多种需求。