国产大数据对比

星环大数据基础平台
星环大数据基础平台(TDH) 是星环自主研发的一站式多模型大数据基础平台,包括多个大数据存储与分析产品,能够存储 PB 级别的海量数据,可以处理包括关系表、文本、时空地理、图数据、文档、时序、图像等在内的多种数据格式,提供高性能的查询搜索、实时分析、统计分析、预测性分析等数据分析功能。目前 TDH 已经在政府、金融、能源、制造业等十多个行业内落地,支撑如金融风控与营销、智慧制造、城市大脑、智慧交通等多种核心行业应用。
数据治理
数据架构、数据安全,数据质量,数据应用,数据生存周期 八大项数据管理能力方面结合企业实际需求,帮助客户制定和实施精准有效的解决方案。 星环科技提供体系完善的整体数据治理解决方案,涵盖数据治理战略、组织制度机制、数据管理活动和技术工具落地四个方面,同时,还为企业提供数据管理成熟度评估(DCMM)指导,在数据战略,数据治理,数据标准

国产大数据对比 更多内容

大数据平台国产化替换是指将原有的国外大数据平台或技术替换为国产大数据平台及相关技术,以实现自主可控、安全可靠、符合国内法规和业务需求的数据处理与管理环境,主要包括以下几个方面:替换原因安全与自主可控需求:随着数据安全重要性的日益提升,国外大数据平台可能存在数据安全隐患,如数据泄露风险、对国外技术供应商的依赖等。国产化替换可以使企业和组织对数据的存储、处理和管理拥有更高的控制权,减少外部安全威胁:国产大数据平台通常在成本方面具有一定优势,包括软件采购成本、维护成本等。同时,国内供应商能够提供更及时、本地化的技术支持和服务,方便企业快速解决问题,提高系统的运行效率和稳定性。替换内容硬件层面:将原有的国外服务器、存储设备等硬件替换为主流国产CPU平台以及配套的国产存储设备等,确保硬件底层的自主可控。软件层面:操作系统:采用国产操作系统替代国外操作系统,为大数据平台提供稳定、安全的运行环境。数据库:把国外数据库替换成国产数据库,以满足数据存储和管理的需求,并实现更好的性能优化和功能扩展。大数据处理框架:用国产大数据处理框架的自主优化版本或自研框架替代国外的类似框架,以提升数据处理效率和
星环科技作为一家企业级大数据基础软件开发商,自成立之初就坚持自主研发与技术创新,勇担时代使命,积极参与信息产业国产化进程,成为大数据基础软件国产化的重要推动者之一。通过自主研发,公司已实现多项技术突破,形成了大数据与云基础平台、分布式关系型数据库、数据开发与智能分析工具的软件产品矩阵。目前,星环科技已助力金融、能源、制造、交通等行业多个客户实现了数据分析场景中部分关键信息系统的国产替代,替代的成本。在分析型业务方面以更低成本、更高性能完整替代了传统Oracle数据仓库,确保分析型业务与交易型业务的隔离。凭借持续的自主研发和技术创新,星环科技在推动大数据基础软件国产化替代进程的过程中,也收获了诸多对象包括传统关系型数据库Oracle、IBMDB2、Teradata,以及搜索引擎ElasticSearch、大数据平台ClouderaDataPlatform、数据统计分析软件SAS等多家国外主流厂商产品。自主研发的一站式大数据基础平台安全、高效支撑客户各项数字化业务大数据基础平台TranswarpDataHub是公司自主研发的一站式大数据基础平台,包括多个大数据存储与分析产品,有着优秀的数据
大数据基础平台国产化是指在大数据处理的各个环节,从硬件到软件,全面采用国产技术和产品,以实现自主可控、安全可靠的大数据处理能力。以下从其重要性、涉及的关键技术与产品、面临的挑战及应对策略几个方面进行介绍:重要性保障国家安全:大数据涉及国家关键信息基础设施、民生等多领域的数据。实现大数据基础平台国产化,可避免因使用国外技术而带来的潜在安全威胁,如数据泄露、后门风险等,保障国家信息安全。推动产业自主发展:促进国内大数据产业生态的完善,带动芯片、操作系统、数据库、中间件等上下游产业协同发展,减少对国外技术的依赖,提升我国在全球信息技术产业中的竞争力。满足合规要求:随着数据保护法规的完善,使用国产大数据平台对计算资源的需求。存储设备:包括分布式存储系统,能够提供海量数据存储,具备高可靠性、可扩展性和数据冗余保护能力,保障大数据的安全存储。软件层面操作系统:国产操作系统在稳定性和安全性上不断提升,能够为大数据平台提供稳定的运行环境,支持多种硬件架构,适配不同的服务器设备。数据库:国产数据库具备处理大规模数据的能力,支持复杂查询和事务处理,满足大数据平台对结构化数据存储和管理的需求。同时,在与国产
国产大数据底座平台是指在大数据领域,从硬件到软件全部或主要采用国产自主研发的技术和产品构建的大数据基础平台,以实现自主可控和安全可靠的数据处理与管理。以下是对其的具体介绍:特点自主可控:核心技术和存储系统等。关键技术和组件硬件层:采用国产的服务器、存储设备等,这些服务器基于国产的CPU芯片,具有高性能、高可靠性等特点。操作系统层:使用国产操作系统,为大数据平台提供稳定、安全的运行环境。数据存储研发的工具或系统对数据进行全生命周期的管理和监控。应用场景政府领域:政府部门需要处理大量的政务数据,如人口信息、经济数据、城市运行数据等,国产大数据底座平台可确保数据的安全和自主可控,为政府决策、公共服务、社会治理等提供有力支持。金融行业:金融机构对数据的安全性和稳定性要求极高,国产大数据底座平台可以满足金融数据的存储、分析和风险管控等需求,同时也符合金融信创的要求。能源行业:能源企业需要处理大量的生产数据、设备运行数据等,国产大数据底座平台可以帮助能源企业实现数据的高效管理和分析,提高能源生产效率和管理水平。工业领域:在工业互联网、智能制造等场景中,国产大数据底座平台可以实现对工业生产过程中的海量数据进行采集、存储、分析和应用,助力企业实现智能化生产和管理。
国产大数据底座平台是指在大数据领域,从硬件到软件全部或主要采用国产自主研发的技术和产品构建的大数据基础平台,以实现自主可控和安全可靠的数据处理与管理。以下是对其的具体介绍:特点自主可控:核心技术和存储系统等。关键技术和组件硬件层:采用国产的服务器、存储设备等,这些服务器基于国产的CPU芯片,具有高性能、高可靠性等特点。操作系统层:使用国产操作系统,为大数据平台提供稳定、安全的运行环境。数据存储生命周期的管理和监控。应用场景政府领域:政府部门需要处理大量的政务数据,如人口信息、经济数据、城市运行数据等,国产大数据底座平台可确保数据的安全和自主可控,为政府决策、公共服务、社会治理等提供有力支持。金融行业:金融机构对数据的安全性和稳定性要求极高,国产大数据底座平台可以满足金融数据的存储、分析和风险管控等需求,同时也符合金融信创的要求。能源行业:能源企业需要处理大量的生产数据、设备运行数据等,国产大数据底座平台可以帮助能源企业实现数据的高效管理和分析,提高能源生产效率和管理水平。工业领域:在工业互联网、智能制造等场景中,国产大数据底座平台可以实现对工业生产过程中的海量数据进行采集、存储、分析和应用,助力企业实现智能化生产和管理。
国产大数据平台替换CDH是企业实现自主可控、保障数据安全和满足合规要求的重要举措,以下为你介绍一些相关的案例、难点、注意事项和步骤:替换难点技术兼容性:CDH有其特定的技术架构和生态体系,国产大数据平台需要在数据存储格式、计算模型、接口等方面与CDH兼容,以确保原有数据和应用能够顺利迁移。比如部分国产平台的文件系统与CDH的HDFS在数据块大小、存储策略等方面存在差异,需要进行数据格式转换和,开发和测试的工作量较大。人才短缺:国产大数据平台相对较新,市场上熟悉其技术和操作的专业人才相对较少。企业缺乏既有国产化平台技术知识,又有CDH替换经验的专业人员,给替换工作的实施和后续运维带来困难。注意事项充分评估需求:全面梳理企业当前的业务需求、数据量、数据处理场景等,结合国产化平台的功能和性能特点,确定是否能够满足企业未来发展需求。选择合适的平台:目前国产大数据平台众多,要从技术实力、产品,制定详细的替换方案和项目计划,明确各阶段的目标、任务和时间节点。准备阶段:根据选型结果,采购和部署国产大数据平台所需的硬件设备和软件系统。搭建测试环境,对国产化平台进行功能和性能测试,确保其稳定可靠
国产大数据基础平台是由国内企业或科研机构自主研发的,用于进行大规模数据存储、计算、管理和分析的基础软件平台,具有以下特点和功能:特点自主可控:核心技术和源代码由国内团队掌握,不受国外技术限制,可根据管理工具,对大数据平台的运行状态、资源使用情况、任务执行情况等进行实时监控和管理。支持集群管理、节点管理、任务调度、资源分配等功能,方便运维人员进行平台的维护和管理。应用场景政府领域:用于智慧城市建设、金融监管等方面发挥重要作用,帮助金融机构提高风险管理能力和业务运营效率。例如,利用大数据分析客户的信用风险、交易行为等,为信贷审批和风险预警提供依据。电信行业:支撑电信运营商的客户关系管理、网络优化国内用户需求和业务场景进行定制化开发和优化,同时能更好地满足国家信息安全和数据隐私保护的要求。适配国产软硬件:与国产的CPU、操作系统、数据库等软硬件产品深度适配和兼容,如华为鲲鹏、麒麟操作系统、人大金仓数据库等,构建完整的国产信息技术生态体系。技术创新与优化:国内研发团队在借鉴国际先进技术的基础上,结合国内市场需求和应用场景进行技术创新和优化,在数据存储、计算引擎、数据治理等方面形成独特的
和组织面前的关键挑战。在这样的时代背景下,国产开源大数据平台应运而生,迅速崛起并在市场中崭露头角。它们以开放、共享的理念,汇聚了国内众多开发者的智慧与力量,不断迭代优化,为国内乃至全球用户提供了极具竞争力的大数据解决方案。与国外传统大数据平台相比,国产开源大数据平台不仅在技术上实现了突破与创新,还能紧密贴合国内用户的实际需求与应用场景,提供本地化、贴心的服务与支持。优势剖析成本效益显著国产开源大数据决方案,减少了企业聘请专业技术团队的成本。灵活定制开发开源的特性使得国产大数据平台的代码完全公开透明,企业可以根据自身的业务需求、技术架构和发展战略,对平台进行深度定制开发。这一优势在满足不同行业、不同企业在数字化浪潮汹涌澎湃的当下,大数据已成为驱动各行业发展与创新的核心动力。从互联网巨头对用户行为数据的深度挖掘,以实现精准营销与个性化服务,到传统制造业利用生产数据优化工艺流程、提升产品质量,大数据的平台在成本控制方面具有无可比拟的优势。与动辄需要支付高额授权费用的国外商业大数据平台不同,开源平台遵循开源协议,企业可以免费获取其源代码,极大地降低了软件采购成本。在使用成本上,开源大数据平台的
查看Master节点通过以下命令,查看集群Master节点信息:curl-ushiva:shiva-XGET'localhost:8902/hippo/v1/_cat/master?v'返回结果:epochtimestampactive.master.hostactive.master.portmaster.group169079683909:47:19172.29.203.18926841172.29.203.189:26841,172.29.203.189:26851,172.29.203.189:26861查看数据节点curl-ushiva:shiva-XGET'localhost:8902/hippo/v1/_cat/nodes?v'//查看所有节点curl-ushiva:shiva-XGET'localhost:8902/hippo/v1/_cat/nodes/{node}?v'//{node}表示待匹配的节点地址,支持以*通配,支持指定多个pattern,多个pattern以逗号分割返回结果:
产品文档
2 Quick Start
ThistutorialwillguideyouthroughthefollowingtaskswithinHippoCloud:EstablishingatablePerusingthetableIncorporatingdataExecutingsearchoperationsEliminatingrowsDissolvingthetableBeforeyoustartInthisguide,wewillbeutilizingthePythonAPI.Priortocommencement,ensurethatyouhave:RegisteredforaHippoCloudaccount.SubscribedtothecomplimentaryplanandestablishedatrialclusterwithinHippoCloud,orsubscribedtothestandard/enterpriseplansandconstructedadedicatedcluster.IfyouanticipateemployingPythonfordevelopment,ascert...
产品文档
8 性能分析
本节测试主要描述了Hippo1.0在关键测试上的一些性能表现,该份测试同样也是Hippo的基准测试,后续版本发布也会在不同版本上进行该测试进行对比分析。术语表142.Hippo性能测试术语TermDescriptionnq一次搜索请求中搜索的向量个数topk一次请求中对于要检索的每个向量(依赖nq),所能检索到最近距离的向量个数RT一次请求从发起到接受响应的时间]QPS请求在每秒内成功执行的次数dataset测试所用数据集,不同数据集表示不同的业务场景测试集群配置硬件配置表143.性能测试硬件配置硬件规范Nodes3CPUIntel®Xeon®Gold5218RCPU@2.10GHzMemory16*\16GBRDIMM,3200MT/sDISKNVMeSSD2T*4GPUNONE软件配置表144.性能测试软件配置软件版本Hippov1.2TranswarpManagerTDH9.3.0测试集表145.性能测试数据集数据集名称数据集介绍向量维度向量总数查询数量数据总量距离类型Sift-128-euclidean该数据集是基于Texmex的数据集整理,使用SIFT算法得到的图片特征向量。...
产品文档
5.3 写入类操作
本节介绍Hippo表写入相关操作。Hippo会返回写入成功数据的下标以及总共写入成功的数据条数,如果出现行级错误(比如主键冲突),Hippo会返回具体的行级错误。插入本节介绍如何向Hippo中插入数据。curl-ushiva:shiva-XPUT'localhost:8902/hippo/v1/{table}/_bulk?database_name={database_name}&pretty'-H'Content-Type:application/json'-d'{"fields_data":[{"field_name":"book_id","field":[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64,65,66,67,68,69,70,71,72,73,74...
产品文档
5.18 全文检索
Hippo在1.2版本提供了全文索引能力,兼容ElasticSearch6.7.2语法,在底层架构上复用了公司产品TranswarpScope的一部分特性,支持以Java/HTTPRestful的形式通过Hippo的HTTPServer接口进行全文索引的创建、查询、使用等各类需求,通过该能力的支持,可以更好的实现向量与全文的混合检索。通过将向量检索加全文检索的联合召回,可以降低漏检和误检的概率,能够实现比单独使用向量或全文更高的精度。同时,一套数据库系统可避免部署多套系统带来的架构复杂、开发运维成本高等问题。具体的使用方法除了访问端口需要将端口从8902调整为9200外,均可参考《TranswarpScope手册》4.TranswarpScopeAPI介绍。
产品文档
1 Introduction
OverviewUnstructureddatamanagementismoreimportantthaneverduetotheriseofbigdata.Managingandgleaningbusinessvaluefromunstructureddataisofutmostimportancetoenterprisestoday.Advancementsinmachinelearning,aswellasdeeplearning,technologiesnowenableorganizationstoefficientlyaddressunstructureddataandimprovequalityassuranceefforts.Inthefieldofartificialintelligenceormachinelearning,embeddingsandvectordatabaseshavebecomeincreasinglyimportantfortacklingawiderangeofproblems.Thesetechniquesareusedtorepresen...
产品文档
5.10 任务相关
在Hippo中,比较耗时的操作如激活、加载向量索引实际上是一个分布式任务,用户可以通过任务相关接口查看、删除任务。查看任务curl-ushiva:shiva-XGET"localhost:8902/hippo/v1/_jobs?pretty"-H'Content-Type:application/json'-d'{"job_ids":["fc6feff4f303455a9347f9aab323dfc8"],"action_patterns":["hippo*"]}';返回结果:{"jobs":[{"job_id":"810935a1d91a46b7af2ec35013454fed","job_status":"SHIVA_JOB_SUCCESS","embedding_number":100,"task_results":[{"id":"54ab52493dfb4bab9fb7742d850c64c4","status":"TASK_SUCCESS","server":"172.29.40.26:27841","embedding_number":100,"execute_time":...
产品文档
3.3 Cluster
OverviewAclusterisaHippoCloudinstanceassociatedwithspecificcomputingresources.Youcancreaterelatedtables,insertcorrespondingdata,andcompleteproductexperiencewithinacluster.Beforeyouusethedemoenvironment,youneedtocreateacluster.CreateClusterYouneedtogotothespecificproject.Iftherearenoclustersunderthecurrentproject,youcanclickthe'Createcluster'buttonbelowtheclustercreationguidancepagetoentertheclustercreation.Ifthereareclustersunderthecurrentproject,youcanclickthe'+Cluster'buttonabovetheclusterlist...
产品文档
10 Hippo 运维
运维管理界面WebserverWebserver是Hippo提供运维监控的界面。默认访问地址为:4567"class="bare">http://<webserver_ip>:4567。或者在Manager管理界面我们可以通过下图所示的查看链接这里进行跳转。图15.登录HippoWebserverWebserver主要由下面几个部分构成。概况图16.概况该页面展示了Hippo集群的基本信息,包括:Masterstatus:当前的ActiveMaster,MasterGroup,MasterAddress,Master的健康状态TabletServerStatus:TabletServerAddress,健康状态,逻辑机架和数据中心信息,容量使用以及Tablet个数TabletNum:当前集群表的个数Version:Hippo版本信息库表图17.库表页面以库和表的概念集群存储的各类数据信息。库信息:库名库创建时间库内各类表的信息:点击某个库,可以看到库下所有表的信息,主要包括:••表的ID••表的名字••表的状态••表的Tablet数量••表的Engine类型••表的副本数•...
产品文档
5.7 查询类操作
过滤条件表达式Hippo当前支持如下表达式,可用于标量或向量查询。表46.过滤条件表达式表达式描述and当前版本支持and,不支持or/not==等值<小于⇐小于等于>大于>=大于等于inin[1,2,3]notinnot_in[1,2,3]like'_'表示匹配任一字符,'%'表示匹配任意字符,'\'为转义符向量相似性检索本节描述如何进行向量相似度搜索。Hippo中的向量相似性搜索计算查询向量与表中向量的距离,返回最相似的结果集。通过指定标量过滤条件,用户可以进行向量与标量的混合搜索。curl-ushiva:shiva-XGET'localhost:8902/hippo/v1/{table}/_search?pretty'-H'Content-Type:application/json'-d'{"output_fields":["book_id"],"search_params":{"anns_field":"book_intro","topk":2,"params":{"nprobe":10},"embedding_index":"ivf_flat_index"}...