数据湖金融构建

数据湖

星环科技数据湖解决方案帮助企业对接各类业务系统，汇集各个数据源，实现数据的融通，并对数据进行分类分级、编目治理、安全设计以及质量控制等，实现入“湖”形成有效数据资源。

数据湖金融构建更多内容

行业资讯

复杂性和成本开销。技术路线选择：选择技术路线，包括基于Hadoop体系的数据湖向数据仓库能力扩展、基于自身云平台进行架构构建、独立数据库厂商推动的路径。湖上建仓：在数据湖基础上实现数仓的功能，代替传统数仓构建湖仓一体架构涉及多个步骤和技术选择，以下是构建湖仓一体架构的主要步骤和方法：数据源的准备：确定数据源，包括关系型数据库、非关系型数据库、文件系统等，并进行分类和整理，以确保可以顺利地获取数据格式。数据分析与可视化：利用BI工具直接在源数据上进行分析，无需复制和移动数据，提高分析效率并降低数据延时。监控与维护：实施监控和维护机制，确保数据的一致性和正确性，以及系统的稳定运行。技术架构设计：湖分离：实现存储和计算的完全分离，利用Serverless弹性算力技术，提供秒级扩缩容的能力。BI支持与成本优势：直接在源数据上使用BI工具进行分析，避免了在数据湖和数据仓库中分别操作两个数据副本的。仓湖融合：通过在数仓中加入跨源融合联邦查询的功能，打通内容存储，从而不需要经过ETL能够直接分析数据湖。

来自：官网 / 行业资讯

资源

金融行业数字化转型研究报告——如何构建金融数据底座

的“数据引擎”。顺应数字化转型的趋势方向，通过构建新型金融数据平台，能为金融企业重塑价值，激发金融企业关键能力域的提升。以数据为基础，从金融企业数字化转型脉络来看，新型金融数据平台需要集弹性化、多模化、智能化、敏捷化、安全化多种能力为一体。本篇报告将梳理金融科技在数据领域的发展及演变趋势，并从金融企业成功实践中提取构建新型金融数据平台的方法论，助力各金融企业打造自己的数据底座，为数字化转型赋能。生态呈现新的发展态势。《金融科技发展规划（2022-2025年）》提出，坚持“数字驱动、智慧为民、绿色低碳、公平普惠”的发展原则，以加强金融数据要素应用为基础，以深化金融供给侧结构性改革为目标，以加快金融机构数字化转型、强化金融科技审慎监管为主线，将数字元素注入金融服务全流程，将数字思维贯穿业务运营全链条，注重金融创新的科技驱动和数据赋能，推动我国金融科技从“立柱架梁”全面迈入“积厚成势”新阶段，力争到2025年实现整体水平与核心竞争力跨越式的提升。金融创新发展离不开数据的有力支撑。数据已成为金融数字化转型的基础性、战略性资源。金融机构需要高度重视数据要素，充分释放数据潜能，点燃金融数字化转型

来自：官网 / 资源中心

行业资讯

基于湖仓一体构建数据中台架构

基于湖仓一体构建数据中台架构，可以采取以下几个步骤和方法：理解湖仓一体的关键特征：湖仓一体结合了数据湖和数据仓库的优点，提供了灵活的数据存储和高效的分析能力。它支持结构化、半结构化和非结构化数据。应用场景：湖仓一体架构可以应用于企业数字化转型、数据中台建设等场景，帮助企业构建统一的数据平台，实现数据的共享和复用。，适合同时满足大数据分析和传统分析需求的场景。技术选型与架构设计：根据企业的具体需求，选择合适的湖仓一体技术方案。这可能包括基于Hadoop体系的数据湖向数据仓库能力扩展，或基于云平台或第三方对象存储的搭建，以及以数据库技术为基础的自研分布式平台。数据集成与存储：在数据中台中，数据仓库用于存储结构化数据，适合快速的BI和决策支撑，而数据湖可以存储任何格式的数据，通过挖掘能够发挥出数据的更大作用。元数据管理：实现湖仓一体的关键是元数据的统一管理。通过统一的元数据管理，确保数据在整个生命周期内的一致性、准确性和完整性。数据治理与质量控制：通过统一的数据治理机制，提高数据质量，降低数据风险。数据治理

来自：官网 / 行业资讯

行业资讯

云数据湖

云数据湖是一种基于云计算技术构建的数据湖架构，它将数据湖的功能与云计算的优势相结合，为企业提供了更加灵活、高效、低成本的大数据存储和分析解决方案。存储对象存储为主：通常基于云平台的对象存储服务构建。这些对象存储具有高可扩展性、高耐久性和低成本的特点，能够存储海量的各种类型数据。存储分层：利用云存储的分层特性，可将数据根据访问频率和成本等因素进行分层存储，如热数据存储在高性能存储层，冷数据存储在低成本存储层，实现成本与性能的优化平衡。数据加密与安全：云平台提供强大的安全机制，包括数据加密、访问控制、身份验证等，确保数据在存储和传输过程中的安全性和隐私性，企业无需自行搭建复杂的安全系统。数据处理与分析丰富的计算引擎选择：支持多种主流的大数据计算引擎，用户可根据不同的业务场景和数据处理需求灵活选择。同时，云平台通常会对这些计算引擎进行优化，提高运行效率和稳定性。Serverless分析服务：提供Serverless的数据分析服务，用户无需配置和管理计算集群，只需提交查询语句即可即时获取分析结果，按查询量计费，方便快捷且成本可控。交互式分析与可视化：集成了各种交互式分析工具和数据可视化

来自：官网 / 行业资讯

行业资讯

实时湖仓平台

星环科技基于ArgoDB构建的实时湖仓平台，提供统一元数据管理、多模式计算引擎、数据实时入湖、高性能查询响应、跨平台数据集成、数据治理与质量、数据安全与合规等能力，可实现落地即分析、实时数仓增量计算、一体化流式处理等。结合湖仓集一体技术架构，ArgoDB支持一种数据格式，满足数据实时入湖、数仓模型加工、高性能集市在线分析；通过行列混存技术实现基于一张表提供高并发精确查询、即席分析、复杂批处理等多种混合业务。实时入湖查询与分析：数据能够高吞吐低延时地实时接入平台存储，接入的结构化数据可以直接进行分析与查询，快速变现数据价值多模态数据统一管理：SQL入口、计算引擎、存储管理、资源管理四层统一同步：基于Raft协议数据一致性，支持故障自动迁移恢复，支持跨机房两地三中心部署，支持跨数据中心双活、多活，保障业务不中断湖仓集统一运维管理：平台统一运维，自动健康检查智能预警；平台统一权限管理，湖操作系统混合部署，最大化利用资源，让用户逐步实现国产化平滑替代目前，星环科技实时湖仓平台已经在金融、政府、交通、邮政、医疗、能源等行业以及大型国有企业落地应用，用创新的技术帮助用户打造自主可控、满足业务未来发展的数字底座。

来自：官网 / 行业资讯

行业资讯

金融大数据平台

金融大数据平台是金融机构利用大数据技术构建的，用于整合、存储、分析金融领域海量数据的综合性平台。数据来源与采集内部数据：包括金融机构自身业务系统产生的数据，如银行的存贷款业务数据、证券交易数据、保险数据库。数据仓库用于整合和存储经过清洗、转换后的金融数据，为数据分析提供统一的数据视图。数据处理层：运用数据清洗工具去除数据中的噪声、错误和重复信息，保证数据质量。通过数据转换操作将不同格式的数据标准化，便于后续分析。数据集成组件负责将来自不同数据源的数据整合到一起，解决数据的异构性问题。采用大数据处理框架对海量金融数据进行批量处理或实时处理，如计算风险指标、统计交易活跃度等。数据分析层：提供丰富的数据分析工具和算法，包括统计分析方法（如相关性分析、回归分析等）用于描述金融数据的基本特征和关系；机器学习算法（如决策树、支持向量机用于信用风险评估、客户分类）和深度学习算法（如神经网络用于金融市场预测）用于挖掘复杂的数据模式和规律。数据挖掘功能可以帮助发现隐藏在金融数据中的关联规则，如客户购买金融产品的组合模式、交易欺诈的行为特征等。数据服务层：通过API接口将数据分析结果提供给金融机构内部的

来自：官网 / 行业资讯

行业资讯

数据湖方案

数据湖解决方案是指一系列技术和工具的集合，它们共同工作以实现数据湖的构建、管理和分析。业务需求分析数据来源与类型：明确企业内部和外部的各种数据源，包括结构化数据库、半结构化数据、非结构化数据等。业务场景：确定数据湖需要支持的业务场景，如数据分析、数据挖掘、机器学习、实时报表生成、历史数据回溯等，以满足不同部门的需求。技术选型存储层分布式文件系统：选择布式文件系统或类似的分布式存储解决方案，提供任务，如数据清洗、转换、聚合等操作。流处理：选择流处理框架，实现对实时数据的即时处理和分析，例如实时监控系统指标、实时推荐系统等场景。交互式查询：支持用户以SQL方式对数据湖中的数据进行快速交互式查询。消息队列：作为数据的缓冲和传输层，实现不同数据源与数据湖之间的异步数据传输，确保数据的可靠性和顺序性，同时支持高吞吐量的数据接入。元数据管理ApacheAtlas：建立元数据管理系统，用于存储和管理数据湖中的元数据信息，包括数据的来源、格式、定义、血缘关系等，方便数据的查找、理解和治理。数据湖架构设计原始数据区：直接存储从各个数据源采集来的原始数据，保持数据的原始格式和完整性，不对数据进行任何

来自：官网 / 行业资讯

新闻

【精彩剧透】打破数据壁垒：湖仓一体助力金融行业打造新一代数据底座闭门研讨会

。通过高层次产、学、研、用界的交流和思想碰撞，本届峰会将为数据技术的发展提供新思路、新观点和新方向。1场主论坛3场平行论坛4场技术培训1场meetup17场闭门研讨会打破数据壁垒：湖仓一体助力金融行业打造新一代数据底座闭门研讨会，将邀请金融行业大咖，分享湖仓一体创新技术和成功实践，共探发展新未来。议程揭秘👇👇👇报名请联系客户经理2024向星力·未来数据技术峰会将于5月30-31日在上海隆重举办。峰会聚焦大模型、人工智能、数据要素、数字化转型等热门领域，将邀请业内知名专家、学者和企业代表，分享新研究成果、技术创新和实践经验

来自：官网 / 新闻资讯

行业资讯

搭建数据湖

搭建数据湖需明确业务需求并设计数据架构与技术选型，做好数据采集存储、处理分析、管理治理及应用开发集成工作，同时持续监控优化，从而构建起一个集多源数据存储、高效处理分析及安全管理于一体的综合性数据平台归档数据，可以存储在低成本的存储介质上。数据处理与分析计算引擎集成：将选定的计算引擎与数据湖集成，确保计算引擎能够高效地访问和处理数据湖中的数据。数据处理流程构建：根据业务需求，构建数据处理流程。可以使用数据处理框架，实现数据的清洗、转换、集成等操作。对于实时数据处理需求，可构建流处理管道，使用流计算引擎进行实时分析。数据管理与治理元数据管理：建立元数据管理系统，对数据湖中的数据进行元数据采集、存储常用的数据分析工具与数据湖集成，方便用户进行数据探索和分析。如应用开发：根据业务需求，开发数据湖应用。例如，构建数据可视化应用，将数据湖中的数据以直观的图表形式展示出来；开发数据预测应用，利用机器学习算法对数据湖中的数据进行预测分析。。以下是具体的搭建步骤：规划与设计明确业务需求：与业务部门密切合作，深入了解企业的业务流程、数据分析需求和决策支持需求，确定数据湖需要存储和处理的数据类型、规模和使用场景。数据架构设计：设计数据湖的

来自：官网 / 行业资讯

猜你喜欢

产品文档

5.17 索引（新）

索引是数据库中某些数据的冗余副本，目的是使查询性能更优。作为代价，数据库需要额外存储空间和较慢写入速度，因此决定哪些字段需要索引是一项重要且不易的任务。（新）StellarDB5.0.1版本不再对旧版本使用的manipulatecreate_index和manipulatedelete_index语法进行支持，在新版本中统一使用createindex和dropindex进行索引的创建和删除新增索引CREATEINDEX[IFNOTEXISTS]FOR(LabelName)ON[f1,f2,...];CREATEINDEX[IFNOTEXISTS]FOR[LabelName]ON[f1,f2,...];不支持对TIME_SERIES类型的属性创建索引默认情况下,对同一个Label的某个属性多次创建索引会报错;但如果带有IFNOTEXISTS,则不会抛出任何错误包裹点边LabelName的括号不同，注意区分示例1.在点labelperson的属性name和age上建立索引CREATEINDEXIFNOTEXISTSFOR(person)ON[name,age];示例2.在边labelask...

来自：官网 / 产品文档 / Transwarp StellarDB / 5.0

产品文档

5.2 TEoC 前置参数

通过beeline或JDBC时，设置参数configquery.langcypher;将查询语言切换为TEoC模式。根据使用场景选择查询模式（默认为immediate模式）immediate模式通常用于并发及短查询场景，查询结果和中间结果通常不超过百万。通过configcrux.execution.modeimmediate;切换。analysis模式通常用于分析场景，创建图、插入数据以及图算法相关的语句必须在该模式下进行。通过configcrux.execution.modeanalysis;切换。

来自：官网 / 产品文档 / Transwarp StellarDB / 5.0

产品文档

5.10 表达式

类型表达式类型例子十进制型整数10,-213十进制小数1.25,3.604E-14,-2.31十进制型长整数199345843592l,-12381543923L任意精度的有符号十进制数123bd,123.31BD八进制整数(0开头)084,-096字符串"星环",'信息科技'布尔类型true,false,TRUE,FALSE数组类型[1，2，3],["星环","信息科技"],[decimal(10.2,3,1),decimal(100.2,3,2)],[localdatetime("2021-01-18T09:50:12.627"),localdatetime("2021-11-18T03:50:12.113")]时间类型localdatetime("2021-01-18T09:50:12.627")Decimal类型decimal(10.2,3,1)地理空间类型point(20.5,30.5),point(-20.5,-30.5)时序类型{localdatetime("2023-01-01T15:16:17")::"nice"},{localdatetime("1997-01-01...

来自：官网 / 产品文档 / Transwarp StellarDB / 5.0

产品文档

7.1 自定义函数

StellarDB支持用户添加自定义函数，添加后可在cypher语句中使用。自定义函数实现自定义函数通过java/scala语言开发，可继承实现两种基类，编译成jar包，通过指定命令加载到StellarDB。需要实现的基类为如下两种，可自行选择继承合适的基类：继承UDF基类继承GenericUDF基类。继承UDF基类该类实现简单，功能较为单一。支持Quark的基本类型、数组和Map。适合实现简单的逻辑。继承org.apache.hadoop.hive.ql.exec.UDF类继承UDF类必须实现evaluate方法且返回值类型不能为void，支持定义多个evaluate方法不同参数列表用于处理不同类型数据。@Description(name="my_plus",value="my_plus()-ifstring,doconcat;ifinteger,doplus",extended="Example:\n>selectmy_plus('a','b');\n>ab\n>selectmy_plus(3,5);\n>8")/***实现UDF函数，若字符串执行拼接，in...

来自：官网 / 产品文档 / Transwarp StellarDB / 5.0

产品文档

4 快速入门

快速上手本章节将引导您快速熟悉StellarDB，并为您初步介绍如何通过KGExplorer和beeline客户端操作StellarDB。其中，"StellarDB初探"一节通过构建一张人物关系图，从零介绍如何在StellarDB进行基本操作；"StellarDB进阶"一节为您提供了内置于StellarDB的《哈利·波特》人物关系图，帮助您进一步探索StellarDB。StellarDB初探使用KGExplorer构建图从Manager页面进入KGExplorer页面。若KGExplorer开启了单点登录，会自动跳转Federation登录页面，按如图方式登录：KGExplorer用戶开启方法以及详细使用说明请查看章节《KGExplorer使用文档》。点击登录后进入KGExplorer主页面。我们首先需要构建图名为"hello_world"的图。在主页面右上角点击创建图按钮开始图谱schema的构建。按照引导填写图基本信息后点击确定进入构建页面。在画布中，我们为"hello_world"图创建Boy和Girl两种类型的点，两种类型的点均包含name、salary、age、single四...

来自：官网 / 产品文档 / Transwarp StellarDB / 5.0

产品文档

5.12 变量声明

声明简介声明是指为特定数据类型的变量分配一定的存储空间，并命名该变量以便引用它；必须先声明变量，然后才能引用它；对声明的变量可以进行赋值操作来改变它的值；声明的变量其作用域是Session级别的。变量声明使用decl关键字声明一个变量必须为变量指定名称和类型，且名称不能与已有的变量名相同。声明但未赋值的变量的默认值为null。变量名声明对大小写敏感。变量声明的语句遵循如下格式:DECL[<variable_name>:<variable_type>];使用方法示例如下表所示：语句说明declx:int;声明一个类型为int的变量xdecls:string;声明一个类型为string的变量sdecll:long;声明一个类型为long的变量ldeclb:boolean;声明一个类型为boolean的变量bdecld:double;声明一个类型为double的变量ddecltime:localdatetime;声明一个类型为localdatetime的变量timedecld1:decimal;声明一个类型为decimal的变量d1decllist1:list[int...

来自：官网 / 产品文档 / Transwarp StellarDB / 5.0

产品文档

3 安装 StellarDB

3.1在TDH平台安装StellarDB3.2StellarDB安装校验3.3StellarDB低版本升级至StellarDB5.0.1

来自：官网 / 产品文档 / Transwarp StellarDB / 5.0

产品文档

5.20 StellarDB 5.0.1 动态图(Dynamic Graph)模型（新）

为什么引入动态图模型？在实际应用过程中很容易可以发现，图数据在很多图数据的应用场景中并不是静态不变的，而是动态演进的，这些场景中包括例如金融反欺诈场景中金融交易网络随着时间的推进而发生的交易变化、交易社群变化等；又比如社交网络中新增用户、用户关注或者取消关注、更改账户信息等。将图数据变化的历史记录下来，不仅可以用于历史数据规律的总结，还可以利用动态图数据进行动态图神经网络相关技术的研究，从而进一步挖掘数据中潜在的数据价值和更加灵活高效的业务场景，譬如预测某一个时刻某一事件是否会发生。动态图模型的动态变化图数据的动态变化主要分为两类，一类是节点或边的属性的值的变化；另一类变化是子图（结构）的变化，如新增/删除点边。这两种图数据的动态变化可以单独发生，也可以同时发生。从图数据的属性变化角度来看，StellarDB5.0.1动态图模型可以记录图中节点或者边属性的所有历史版本（而非新数据覆盖旧数据）。在实际数据开发使用中，还可以结合诸如柱状图、趋势图等对历史数据进行可视化，更加直观、更加适合业务使用。从图数据的子图（结构）的角度来看，StellarDB5.0.1动态图模型还可以返回不同时间子图...

来自：官网 / 产品文档 / Transwarp StellarDB / 5.0

产品文档

6.1 图计算

StellarDB5.0.1版本对图算法场景进行了大规模改进和提升，内置算法性能得到较大提升。在语法方面，StellarDB5.0.1的内置图算法对于返回的节点，会直接以节点类型返回。因此可以直接使用uid(vertex)访问节点的uid，而不再需要node_rk_to_uid函数进行uid的转换。可以参考PageRank等函数。另外，对于图算法返回的节点，我们也可以灵活的访问其其他属性作为返回值。图计算简介StellarDB的图计算使用TEoC语句调用相应图算法。算法的输入数据为图的点、边数据。当前版本中图计算支持结果返回、结果导出和结果写回。在使用图算法时，使用configcrux.execution.modeanalysis;语句切换到分析模式下使用图算法语句。图数据视图StellarDB支持创建一个可被持久化的视图，用于加速图算法执行过程。创建视图创建视图的语法如下所示：createquerytemporarygraphviewGRAPH_VIEW_NAMEas(v)[e]withGRAPH_ALGO(@GRAPH_VIEW_NAME,VIEW_STORE_PATH,CONFI...

来自：官网 / 产品文档 / Transwarp StellarDB / 5.0

产品文档

5.6 数据操作语句

本章节的示例语句均可在示例图my_graph中执行，执行前请先创建示例图my_graph，建图语句如下:creategraphmy_graphwithschema(:Boy{namestring,salarydouble,ageint,singleboolean,birthdaylocaldatetime,reservelong,ratedecimal(38,10),hobbysarray<string>,geoPointgeo<double>})(:Girl{namestring,salarydouble,ageint,singleboolean,birthdaylocaldatetime,reservelong,ratedecimal(38,10),hobbysarray<string>,geoPointgeo<double>})[:Friend{sinceint}][:Likes{sinceint}]graphproperties:{`graph.shard.number`:3,`graph.replication.number`:...

来自：官网 / 产品文档 / Transwarp StellarDB / 5.0

热门活动

大数据基础平台

大数据云平台

数据库

数据开发工具

智能分析工具

AI基础设施平台

软硬一体产品

金融解决方案

交通解决方案

医疗解决方案

教育解决方案

能源解决方案

制造业解决方案

政府解决方案

运营商解决方案

数据湖金融构建