您现在的位置是:深圳市东方朗云科技有限公司 > 公司新闻

产品解读 | 构建数智融合时代下的一站式大数据平台

深圳市东方朗云科技有限公司26-05-10【公司新闻】1人已围观

简介一站式大数据平台是数智融合时代下数据基础设施的发展趋势,旨在通过一个平台满足各类业务需求,从四个维度向四个“一体化”方向演进,具体如下:数据架构:湖仓集一体化传统架构的局限性:传统Hadoop湖+MPP仓混合架构及湖仓技术在线分析能力弱,无法满足集市业务需求,需引入额外分析查询引擎,形成混合架构。混合架构存在数据冗余、...

一站式大数据平台是数智融合时代下数据基础设施的发展趋势,旨在通过一个平台满足各类业务需求,从四个维度向四个“一体化”方向演进,具体如下:

数据架构:湖仓集一体化
  • 传统架构的局限性

    传统Hadoop湖+MPP仓混合架构及湖仓技术在线分析能力弱,无法满足集市业务需求,需引入额外分析查询引擎,形成混合架构。

    混合架构存在数据冗余、存储资源占用高、跨平台ETL流转开销大、时效性差、数据一致性问题、多平台开发标准不一致、权限管理复杂等问题。

  • 星环科技TDH的解决方案

    2014年支持事务表和存储过程,形成湖仓集一体雏形。2023年TDH9.3版本引入湖仓集统一存储格式Holodesk,一种存储格式满足ODS数据实时接入、数仓模型加工和高性能集市查询分析等业务,避免烟囱式混合架构。

    底层使用统一技术栈,湖仓集仅是业务逻辑区分,实现真正湖仓集一体化。

    TDH9.4的升级

    资源隔离新架构:同一份数据上跑批查询混合负载互不影响,一套集群一份数据,基于Raft协议保障分布式一致性,资源完全隔离,结合容器化动态资源调整能力,满足不同业务性能需求。存储方面支持分区级多级冷热数据存储,降低存储成本。

    端到端性能10倍提升:相比Hudi+Clickhouse+Hbase混合架构,ETL时间节约95%,存储空间节省3/4,批量入库性能提升3倍,实时入库性能提升5倍,批量加工和多表关联分析性能提升5 - 10倍,统计性能提升3倍,带小量聚合的查询业务性能提升1.5倍,全面降低TCO。

    湖仓集统一运维管理:统一监控导向UI,提供细粒度监测,界面化补丁管理、磁盘管理等。支持X86和ARM混合集群部署和统一管理,首个在10000节点X86/ARM混部集群下通过信通院云原生湖仓一体专项评测,大幅降低运维管理成本。

    支持Python生态:提供分布式Python引擎,方便用户用Python进行分布式数据处理。提供POSIX接口,挂载分布式文件系统TDFS到本体磁盘,高效支撑大模型应用和各类数据智能场景。

数据处理:多模型一体化
  • 传统方式的不足:不同数据模型需独立平台处理,接口标准不一致,开发者和业务分析人员需掌握不同语言,计算引擎和存储独立,数据存储在各自生态中难以互通,跨模型混合业务ETL流转效率低,难以保证数据准确性、一致性和实效性。
  • 多模数据库的优势:单个系统集成多个关系型和/或非关系型数据引擎,满足结构化、半结构化、非结构化数据统一管理需求,实现数据多模融合处理,降低操作复杂性,支持不同场景数据处理。
  • 大模型时代的需求:大语言模型快速发展,对多种模型数据处理需求增加,且大模型存在局限性,需检索外置知识库增强能力,多模数据库成为刚需。
  • 星环科技的实践

    2020年实现多模型数据统一处理技术,基于四层统一架构提供统一接口层、计算引擎层、分布式存储管理层和资源管理层,支持关系型、图、时序、时空、向量、键值等11种数据模型,业内首个通过信通院《多模数据库技术要求》评测。

    TDH9.4的升级

    向量存储引擎Hippo2.0版本:单机存储容量提升20倍,结合分布式架构可支持百亿字的向量存储,检索性能提升10倍以上,提供完整企业级能力,包括冷热灾备、跨集群数据同步、生命周期管理等。

    图存储引擎StellarDB5.1版本:引入GPU作为计算资源,部分场景下子图查询性能提升10倍以上,结合深度图算法提供图谱召回、图谱推理等能力,提升大模型准确度,帮助构建企业级知识库系统。

    基于TDH多模型统一技术架构,满足大模型场景下多模态数据统一存储管理与服务,简化知识库架构,降低开发与运维成本,增强大模型准确率。

数据分析:实时与历史数据一体化
  • 传统实时数据处理架构的不足

    Lambda架构:将实时和历史数据分离,随着历史数据积累,批量计算性能下降明显。

    Kappa架构:通过流计算实现数据融合,但流与流之间时间窗口难以精确控制,存在数据关联不上的问题。

  • 星环科技ArgoDB 6.1版本的解决方案

    推出数据增量计算能力,提出业务实时计算新范式,解决Lambda架构中实时与历史数据不融合问题,避免Kappa架构中流与流计算窗口不可控问题,保障数据业务端到端实时性能,提升业务分析时效性。

    增量计算技术的优势

    大幅降低资源维护成本,窗口下沉到存储,数据无中间状态,流状态时间窗口维护成本从100%降至0。

    实时性能与数据准确性提升,减少计算数据量,为结果表实时提供最新关联计算值。

    增量数据可重复使用,原始数据落表,增量的数据可供下游使用,配置链路简单且数据可重复使用。

  • 基于ArgoDB 6.1增量数据计算能力的实时场景

    即席查询,写入即服务:数据直接写入ArgoDB,由ArgoDB提供OLAP查询和在线服务。

    增量数据准实时加工:在ArgoDB中进行ODS数据清洗,并在DWD数据明细层预加工后直接进行汇聚层加工,对接上层应用。

    增量数据实时统计,事件驱动加工:DWD明细层预加工和DWS汇聚层预加工全部由ArgoDB增量计算完成,并提供给上层应用,帮助构建新一代实时数据仓库。

资源管理:多集群应用、资源和数据一体化
  • 企业传统方式的困扰:企业根据不同业务系统构建多个大数据集群,不同集群各自孤立,底层资源无法统一、均衡调度和最大化利用,数据难以互通,跨集群数据调用需ETL,效率低,难以保证数据准确性、一致性和实效性。新业务上线需建设新集群,加剧上述问题。
  • 星环科技数据云平台TDC的解决方案

    在一个平台上提供数据PaaS、分析PaaS、应用PaaS服务,底层共享基础设施资源,实现不同业务、不同环境下的多个集群统一纳管,提供星环科技产品服务,也可托管Spark、Flink等开源生态产品。

    TDC 5.0的升级

    跨集群资源均衡调度:实现对多个集群底层资源的统一管理,当某个集群负载较大时,跨集群自动调用富余集群资源,提升整体资源利用率。

    跨集群自动弹性伸缩:根据配置的自动弹性伸缩策略,在业务繁忙时间段和业务负载突增时,自动进行存储和计算资源扩缩容,保障业务性能稳定性。

    跨集群数据共享:跨多个集群实现数据共享,无需ETL,直接共享对方集群存储,实现No Copy的数据共享,避免数据复制带来的存储压力、数据时延和不一致性问题。

很赞哦!(94499)