您的位置: 首页 > 推荐

OceanBase作答AI数据库

出处:北京商报 作者: 刘四红 网编:武杉 2026-07-01

今年以来,OceanBase CEO杨冰有点忙。“最近和很多企业高层交流,包括地图、车企、银行、证券、制造等行业,对AI数据库的需求量都非常大。”6月29日,OceanBase发布面向AI时代的湖库一体AI数据库,交流会上,杨冰向北京商报记者如是说道。

过去几年,大模型狂飙突进,有企业砸下千亿级算力与研发预算,智能体、数字员工、行业大模型遍地开花。但行业也有不少无奈:模型能流畅对话,却读不懂企业内部的订单、合同、客服录音;AI工具上线数月,但业务转化却收效甚微。这背后存在AI落地的真实堵点,所有人都在追逐模型能力,却忽略了承载智能的底层数据底座。

业内认为,随着Agent(智能体)成为数据库新的使用者,数据库正从“记录事实”走向“参与决策”,AI数据库也将成为AI时代新的基础设施形态。此次OceanBase发布的湖库一体AI数据库,提出以湖库一体为核心架构,将数据湖的开放与海量存储能力、数据库的事务处理与分析能力,以及多模态数据处理能力统一到一套强一致的数据底座上,帮助Agent一次获取完整业务上下文,让AI真正“读懂”企业。这是Ocean-Base的探索实录,也是一场国产数据库面向AI做出的深度底层抉择。

企业供图

旧架构跟不上AI

现在,不少大企业都在追风Agent,但十个项目九个栽在了数据这一关。

传统企业的数据架构,被业内戏称为“万国牌拼凑局”,交易数据塞进关系数据库、离线分析靠数仓、图片音频丢进对象存储、向量检索单独搭一套向量库。一套完整AI业务,最少要维护4到5套系统,靠ETL工具(数据搬运清洗工具)来回搬运数据。看似各司其职,但实际落到业务一线全是麻烦。

杨冰以蚂蚁阿福为例谈到,有用户通过阿福线上问诊,十点上传胸片,AI初判感冒;一分钟后用户补充症状又发新胸片,说明实为肺炎。

“但在传统多套系统架构下,原图存在对象存储,对话、诊断文字存数据库,胸片特征向量单独放向量库,数据靠定时工具搬运同步,存在延迟。Agent调取信息时,只能读到十点第一张影像数据,来不及加载刚上传的新胸片特征,因此可能依旧误判感冒。”杨冰解释道,这背后是因为,图片、对话、时间、病情记录分散各处,无法实时绑定统一检索。

而适配AI Agent的一体化在线系统则不一样,其可以同时处理图文、向量检索与实时分析,所有关联数据实时统一,能立刻结合全部信息准确判断肺炎,保障数据一致。

“还有很多类似案例,这些是一些大数据密集客户遇到的真实业务痛点。”杨冰向北京商报记者谈及了AI Agent带来的多项核心数据架构挑战。

首先是AI智能体带来的新问题,现在企业里的Agent数量特别多,且大大超出原有规模,但每个都很小、很简单,就像无数个小员工同时干活,如果用传统数据库去撑,成本太高、不划算。

目前,AI Agent分成两类:一类是大量简单、单一功能的低码小Agent,只管干一件小事;另一类是像千问、豆包这种复杂大Agent,功能多、逻辑深,改一点就可能答错,甚至给出错误引导。

“所以复杂Agent必须做全面、严格的测试,需要克隆大量真实数据来验证,这也是现有数据库扛不住的。再加上图片、视频等多模态数据越来越多,传统架构更跟不上。”杨冰直言。

另外一大趋势是,目前不少企业开始真正重视非结构化数据。以前企业的图片、录音、视频、文档都只是存起来,用来备查、应付检查,基本不用。“但现在不一样,不少企业高层和我们聊得最多的是,大家都要求把这些数据管起来,实时用来做风险判断、自动分类打标,直接指导业务决策。”杨冰透露。

以智驾、地图、具身智能等这些和现实世界相关的行业来看,需求则更为明显。比如高德做高精度地图,要靠大量视频、图片识别酒店、点位信息;自动驾驶也会产生海量行车视频。如果直接用大模型处理,几分钟视频就要花掉巨多、巨贵的Token费,非常不划算。

杨冰指出,模型定义了AI的能力边界,而数据则决定了AI的业务价值。一个通用大模型也许“无所不知”,却未必懂得“这一家企业”的业务逻辑。让它从“什么都懂一点”走向“真正懂我”,靠的是高质量的数据与上下文。AI落地的“最后一公里”,本质上是一道数据的难题。

真实的“练兵场”

所谓AI数据库,要厘清的是,它不是“传统数据库加一个检索插件”,而是在重新回答一个根本问题,在一个由AI驱动的世界里,数据应当如何被组织、被理解、被调用。

“把需求倒推一遍,就得到了AI数据库的定义。”杨冰在会上介绍,其中有两个需求和两条原则,而这些需求,正是由AI时代的业务负载决定。

一是一体化,多模态数据、离线与在线的计算,统一在同一个强一致的底座上。数据不再被切割、不必在多套系统之间反复搬运,那个“越用越准”的飞轮才转得起来。

另外是多模态,结构化、半结构化和非结构化数据,需要在同一套体系中被统一管理和治理,通过标量、全文、向量等方式进行混合搜索,智能体的记忆天生跨越模态,沉睡的非结构化数据也由此被真正盘活。

当天,OceanBase首次发布了面向AI时代的湖库一体AI数据库,而这,也是让多模态数据在同一底座上被实时处理的关键。

据介绍,围绕湖库一体,OceanBase打造了AI时代的全新产品体系,其中,Ocean-Base Lakebase作为底层引擎,让结构化数据、非结构化数据和向量数据在统一架构中被管理、加工、检索和调用,解决AI时代的数据底座问题。

OceanBase DataStudio运行在Lakebase之上,覆盖数据接入、加工、编排、语义建模到Agent协作等环节,把分散的数据资产转化为可调用的数据服务,解决数据治理与服务化问题。

OceanBase DataPilot则作为统一的企业业务智能入口,让业务人员通过自然语言完成分析报告、数据看板和可信答案生成,解决业务人员如何直接使用数据智能的问题。

相较传统多系统方案,OceanBase AI数据库可降低整体TCO(Total Cost of Ownership,总体拥有成本)约30%—50%。据透露,目前该能力已在蚂蚁阿福、灵光等场景完成验证。

杨冰介绍,OceanBase打磨AI数据库的环境,是阿里、蚂蚁最前沿、最复杂、也最核心的真实AI场景,支付宝的AI支付、蚂蚁阿福、灵光、淘宝AI购物助理,以及千问、高德、飞猪等。其中,蚂蚁阿福面向行业复杂智能体开发,灵光则面向大众提供“一句话生成应用”能力,目前已承载3000万个闪应用。这些场景不只是用户,更是AI数据库真实的“练兵场”。

持续加码战略投入

十五年前,一场名为“双11”的商业范式革命,意外点燃了分布式数据库的火种。为扛住峰值洪峰、保障系统零中断,OceanBase原生分布式数据库应运而生,从此开启了一段硬核生长之路。

“这十五年中,我们服务了4000多个客户,包括了七成以上万亿级的银行,数据不错、系统不中断、故障秒级恢复,在任何时代都是刚需,也是我们在金融场景当中锤炼的成熟的能力。”杨冰称。

而如今,时代浪潮再启。当阿里、蚂蚁以All In姿态投身AI战场,海量生产级AI场景喷涌而出,又一次倒逼技术底座进化。正如杨冰所述,“阿里、蚂蚁在AI的战场上涌现出极其丰富的生产级AI场景,这些场景,也将是OceanBase独特的演进方式”。

AI,将是OceanBase面向未来的核心增长曲线,同时也是必须重仓的战略方向。杨冰透露,对于AI相关产品会有持续加码的战略投入。早在今年年初,OceanBase曾做出关键架构调整:原内核团队一分为二,一体化数据库团队坚守金融级关键业务,AI数据库专项团队独立攻坚,专为AI场景打造原生引擎。

这场布局早有伏笔。去年团队曾预判,AI时代数据需求与传统场景截然不同。尤其是面向银行、运营商等核心金融政企场景,改动约束极强,每次调整都要历经数月全量测试,迭代极慢,没法快速适配Agent、多模态非结构化数据。于是seekdb(一款AI原生混合搜索数据库,目前已融入Lakebase底层引擎)轻装问世,以快速迭代验证方向,也坚定了底层重构的决心。

杨冰介绍:“不同于市面上多系统拼接缝合模式,OceanBase Lakebase坚持原生路线,从引擎到存储原生支持图片、视频、向量等多模态数据,原生支撑海量Agent高并发运行,真正实现湖库一体。”

杨冰称,数据库正在经历一次角色的根本性转变,从“存放数据”,到“承载智能”。下一个十年,OceanBase的目标只有一个——再造一个“AI时代的OceanBase”。

北京商报记者 刘四红

本网站所有内容属北京商报社有限公司,未经许可不得转载。 商报总机:010-64101978 版权合作:010-64101871

商报地址:北京市朝阳区和平里西街21号 邮编:100013 法律顾问:北京市中同律师事务所(010-82011988)

网上有害信息举报  违法和不良信息举报电话:010-84276691 举报邮箱:bjsb@bbtnews.com.cn

ICP备案编号:京ICP备08003726号-1  京公网安备11010502045556号  互联网新闻信息服务许可证11120220001号