您现在的位置是：深圳市东方朗云科技有限公司 > 公司新闻

产品解读 | 构建数智融合时代下的一站式大数据平台

深圳市东方朗云科技有限公司26-05-10【公司新闻】1人已围观

简介一站式大数据平台是数智融合时代下数据基础设施的发展趋势，旨在通过一个平台满足各类业务需求，从四个维度向四个“一体化”方向演进，具体如下：数据架构：湖仓集一体化传统架构的局限性：传统Hadoop湖+MPP仓混合架构及湖仓技术在线分析能力弱，无法满足集市业务需求，需引入额外分析查询引擎，形成混合架构。混合架构存在数据冗余、...

一站式大数据平台是数智融合时代下数据基础设施的发展趋势，旨在通过一个平台满足各类业务需求，从四个维度向四个“一体化”方向演进，具体如下：

数据架构：湖仓集一体化

传统架构的局限性：
传统Hadoop湖+MPP仓混合架构及湖仓技术在线分析能力弱，无法满足集市业务需求，需引入额外分析查询引擎，形成混合架构。
混合架构存在数据冗余、存储资源占用高、跨平台ETL流转开销大、时效性差、数据一致性问题、多平台开发标准不一致、权限管理复杂等问题。
星环科技TDH的解决方案：
2014年支持事务表和存储过程，形成湖仓集一体雏形。2023年TDH9.3版本引入湖仓集统一存储格式Holodesk，一种存储格式满足ODS数据实时接入、数仓模型加工和高性能集市查询分析等业务，避免烟囱式混合架构。
底层使用统一技术栈，湖仓集仅是业务逻辑区分，实现真正湖仓集一体化。
TDH9.4的升级：
资源隔离新架构：同一份数据上跑批查询混合负载互不影响，一套集群一份数据，基于Raft协议保障分布式一致性，资源完全隔离，结合容器化动态资源调整能力，满足不同业务性能需求。存储方面支持分区级多级冷热数据存储，降低存储成本。
端到端性能10倍提升：相比Hudi+Clickhouse+Hbase混合架构，ETL时间节约95%，存储空间节省3/4，批量入库性能提升3倍，实时入库性能提升5倍，批量加工和多表关联分析性能提升5 - 10倍，统计性能提升3倍，带小量聚合的查询业务性能提升1.5倍，全面降低TCO。
湖仓集统一运维管理：统一监控导向UI，提供细粒度监测，界面化补丁管理、磁盘管理等。支持X86和ARM混合集群部署和统一管理，首个在10000节点X86/ARM混部集群下通过信通院云原生湖仓一体专项评测，大幅降低运维管理成本。
支持Python生态：提供分布式Python引擎，方便用户用Python进行分布式数据处理。提供POSIX接口，挂载分布式文件系统TDFS到本体磁盘，高效支撑大模型应用和各类数据智能场景。

数据处理：多模型一体化

传统方式的不足：不同数据模型需独立平台处理，接口标准不一致，开发者和业务分析人员需掌握不同语言，计算引擎和存储独立，数据存储在各自生态中难以互通，跨模型混合业务ETL流转效率低，难以保证数据准确性、一致性和实效性。
多模数据库的优势：单个系统集成多个关系型和/或非关系型数据引擎，满足结构化、半结构化、非结构化数据统一管理需求，实现数据多模融合处理，降低操作复杂性，支持不同场景数据处理。
大模型时代的需求：大语言模型快速发展，对多种模型数据处理需求增加，且大模型存在局限性，需检索外置知识库增强能力，多模数据库成为刚需。
星环科技的实践：
2020年实现多模型数据统一处理技术，基于四层统一架构提供统一接口层、计算引擎层、分布式存储管理层和资源管理层，支持关系型、图、时序、时空、向量、键值等11种数据模型，业内首个通过信通院《多模数据库技术要求》评测。
TDH9.4的升级：
向量存储引擎Hippo2.0版本：单机存储容量提升20倍，结合分布式架构可支持百亿字的向量存储，检索性能提升10倍以上，提供完整企业级能力，包括冷热灾备、跨集群数据同步、生命周期管理等。
图存储引擎StellarDB5.1版本：引入GPU作为计算资源，部分场景下子图查询性能提升10倍以上，结合深度图算法提供图谱召回、图谱推理等能力，提升大模型准确度，帮助构建企业级知识库系统。
基于TDH多模型统一技术架构，满足大模型场景下多模态数据统一存储管理与服务，简化知识库架构，降低开发与运维成本，增强大模型准确率。

数据分析：实时与历史数据一体化

传统实时数据处理架构的不足：
Lambda架构：将实时和历史数据分离，随着历史数据积累，批量计算性能下降明显。
Kappa架构：通过流计算实现数据融合，但流与流之间时间窗口难以精确控制，存在数据关联不上的问题。
星环科技ArgoDB 6.1版本的解决方案：
推出数据增量计算能力，提出业务实时计算新范式，解决Lambda架构中实时与历史数据不融合问题，避免Kappa架构中流与流计算窗口不可控问题，保障数据业务端到端实时性能，提升业务分析时效性。
增量计算技术的优势：
大幅降低资源维护成本，窗口下沉到存储，数据无中间状态，流状态时间窗口维护成本从100%降至0。
实时性能与数据准确性提升，减少计算数据量，为结果表实时提供最新关联计算值。
增量数据可重复使用，原始数据落表，增量的数据可供下游使用，配置链路简单且数据可重复使用。
基于ArgoDB 6.1增量数据计算能力的实时场景：
即席查询，写入即服务：数据直接写入ArgoDB，由ArgoDB提供OLAP查询和在线服务。
增量数据准实时加工：在ArgoDB中进行ODS数据清洗，并在DWD数据明细层预加工后直接进行汇聚层加工，对接上层应用。
增量数据实时统计，事件驱动加工：DWD明细层预加工和DWS汇聚层预加工全部由ArgoDB增量计算完成，并提供给上层应用，帮助构建新一代实时数据仓库。

资源管理：多集群应用、资源和数据一体化

企业传统方式的困扰：企业根据不同业务系统构建多个大数据集群，不同集群各自孤立，底层资源无法统一、均衡调度和最大化利用，数据难以互通，跨集群数据调用需ETL，效率低，难以保证数据准确性、一致性和实效性。新业务上线需建设新集群，加剧上述问题。
星环科技数据云平台TDC的解决方案：
在一个平台上提供数据PaaS、分析PaaS、应用PaaS服务，底层共享基础设施资源，实现不同业务、不同环境下的多个集群统一纳管，提供星环科技产品服务，也可托管Spark、Flink等开源生态产品。
TDC 5.0的升级：
跨集群资源均衡调度：实现对多个集群底层资源的统一管理，当某个集群负载较大时，跨集群自动调用富余集群资源，提升整体资源利用率。
跨集群自动弹性伸缩：根据配置的自动弹性伸缩策略，在业务繁忙时间段和业务负载突增时，自动进行存储和计算资源扩缩容，保障业务性能稳定性。
跨集群数据共享：跨多个集群实现数据共享，无需ETL，直接共享对方集群存储，实现No Copy的数据共享，避免数据复制带来的存储压力、数据时延和不一致性问题。

很赞哦!（94499）

上一篇：金蝶软件全产品线解析：云原生技术助力企业数字化升级

下一篇：智慧园区系统，让企业生活更智慧

您现在的位置是：深圳市东方朗云科技有限公司 > 公司新闻

产品解读 | 构建数智融合时代下的一站式大数据平台

相关文章

热门文章

站长推荐

分城市

友情链接