2025 年,開源 AI 模型 DeepSeek、OpenAI 推出的 GPT-4.5 引爆全球新一輪生成式 AI 熱潮。
作為 AI 技術發展 " 數據、算法、算力 " 三大要素之一,數據已經成為推動 AI 技術發展的關鍵因素,也是數字時代的新型核心生產要素。
IDC 數據顯示,2024 年,全球大數據 IT 總投資規模約為 3540 億美元。預計到 2028 年,這一規模接近 6440 億美元,五年復合增長率(CAGR)約 16.8%。其中,2028 年中國大數據 IT 支出規模預計為 621.7 億美元,全球占比約 10%,復合增長率 24.9% 位居全球第一。而當前,中國的數據產量已經占全球數據總產量的 23%。
OceanBase CTO 楊傳輝對鈦媒體 AGI 表示,AI 時代來臨,數據處理的邊界得到進一步延伸,如多模態大模型圖片、文本、視頻等富媒體的無結構化數據規模增長。而且,數據擴展性、數據規模、碎片化等行業挑戰不斷加劇,OceanBase 希望形成一體化數據處理平臺,解決客戶需求和難題。
據悉,OceanBase 創立于 2010 年,是國內領先的一體化分布式數據庫公司。2020 年,螞蟻集團旗下的 OceanBase 成立北京奧星貝斯科技有限公司并開始商業化運作,陸續發布自研 OceanBase4.0、4.2、4.3 版本等系列技術產品和解決方案。目前,OceanBase 已助力金融、政務、運營商、零售、互聯網等多個行業的 2000 多家客戶實現關鍵業務系統升級。
2025 年 4 月,OceanBase CEO 楊冰發布全員信,宣布 OceanBase 將全面進入 AI 時代,打造 "DATA × AI" 核心能力,建設 AI 時代的一體化數據底座,螞蟻集團接下來也將向 OceanBase 開放全部 AI 場景。同時,為保障戰略推進,OceanBase 啟動人才和組織體系升級,任命公司 CTO 楊傳輝擔任 AI 戰略一號位,并成立 AI 平臺與應用部、AI 引擎組等新部門。
5 月 17 日,OceanBase 將舉辦 2025 開發者大會,大會主題同樣與 AI 相關。大會前夕,鈦媒體 AGI 與 OceanBase CTO 楊傳輝進行了一場獨家對話。這也是楊傳輝被任命為 OceanBase 公司 AI 戰略一號位之后的首次公開對話。
楊傳輝對鈦媒體 AGI 表示,打造 "AI 時代的一體化數據底座 " 是 OceanBase 現有戰略的自然延伸,這來自于市場需求以及 OceanBase 已經具備的產品技術能力。AI 時代下,數據規模和數據種類越來越復雜多樣,數據庫與 AI 的關系不是簡單的 DATA+AI,應該是 DATA × AI,背后則是處理海量數據和不同結構數據的能力,以及將數據與模型融合的工程能力。作為一體化分布式數據庫平臺,OceanBase 將成為 AI 時代下的最好選擇。
楊傳輝強調,要實現這一目標,OceanBase 還面臨不少挑戰,包括技術創新、生態建設等,因此 OceanBase 需要不斷把握策略定力,讓時間和足夠堅持來確保公司的未來發展。
" 我們堅信,AI 時代的一體化數據底座,一定能夠滿足用戶需求。" 楊傳輝稱。
以下是鈦媒體 AGI 和楊傳輝獨家交流速記整理(有部分刪減):
鈦媒體 AGI:最近許多公司都宣布加碼 AI 戰略,而 OceanBase 也提出戰略升級到 "AI 時代的一體化數據底座 ",那么對于外界來說,如何思考 OceanBase 這個轉變?
楊傳輝:首先要明確的是,不是因為有 AI 熱潮 OceanBase 才提出 AI 戰略。本質上,要做 "AI 時代的一體化數據底座 ",是 OceanBase 現有戰略的一個延伸。
原本數據庫處理大部分是結構化數據,及少部分半結構化數據。隨著 IT 發展,尤其 AI 時代來臨后,數據處理的邊界就得到了延伸,需要在數據層面直接處理無結構化的數據,如多模態大模型的圖片、文本、視頻等富媒體數據。同時,AI 大模型也使得數據規模變得比以前更大。
OceanBase 是一個原生分布式數據庫,我們經歷了雙 11 海量數據場景考驗,也具備金融場景數據庫的穩定性安全性,同時我們的一體化能力又原生支持多種數據類型,提供向量能力,這種分布式和一體化產品特色,在 AI 時代的用武之地會變得更大。
所以,我們戰略由一個 " 數據庫 ",慢慢延伸成 " 數據底座 ",我們希望全方位、一體化處理結構化、半結構化、無結構化數據,同時數據庫的研發團隊天然具備 AI 基礎設施的工程能力,我們希望將數據與模型也實現一體化融合,這是 DATA × AI 的關鍵。
從全球來看,最有名的數據庫公司包括甲骨文 Oracle、Snowflake、Databricks 等,隨著業務場景的不斷變化和演進,它們也會隨著趨勢變化。如今 AI 時代下,我們也要確保 OceanBase 的未來會比今天更流行,在 AI 趨勢下抓住新的應用場景。大家會發現 TP/AP 負載、向量、搜索等技術的邊界會越來越模糊,最終企業需要 AI 時代下的一體化 " 數據底座 ",這會讓 OceanBase 成為 AI 時代下最好的一個選擇。
鈦媒體 AGI:2024 年鈦媒體和 ITvalue 舉辦的數字價值年會上,OceanBase CEO 楊冰提到 AI 對于數據庫的重要性:一個是 AI for DB,一個是 DB for AI,如今,OceanBase 提出的 DATA × AI 是怎樣一種新變化?
楊傳輝:我們對數據庫、AI 兩者關系進行了深入思考,我們認為,兩者不是簡單的 DATA+AI,而應該是 DATA × AI。
一方面,客戶的數據天然存儲在 OceanBase 這類數據庫,而 AI 大模型原本也具備 token 這類公有的通用數據,兩者應該有更融合的化學反應。另一方面,大模型在技術層面主要分為算法能力、工程能力、數據能力、應用能力,在工程能力上,由于工作的本質都在于如何讓數據處理更高效,解決計算、資源、效率等問題,除了數據能力外,數據庫的研發團隊也天然具備這一工程能力,這能夠幫助 DATA 與 AI 技術進一步融合,也就是實現 DATA × AI,在開發者大會上我也會進一步闡釋清楚。
鈦媒體 AGI:目前,生成式 AI 技術面臨數據量通貨膨脹、數據孤島碎片化嚴重、數據分析需求爆發等挑戰,對于這些變化,OceanBase 做了哪些新的工作?
楊傳輝:AI 確實給數據處理的工作帶來了挑戰,比如你提到的數據規模、數據孤島、多模態挑戰,尤其是數據規模會變得越來越大,對數據庫的要求很高。
OceanBase 的分布式能力、一體化架構都能解決相關問題,但只是在個別問題上還沒有做到完美,所以我們一直在堅持加強擴展性、工程能力等層面。
我們的 4.3 版本和 4.4 版本,基本上都沿著一體化方向繼續前進。AI 時代更是一種延伸,變化在于,我們的發展會更大膽一些,例如更好地處理無結構化數據,進一步加強我們的向量能力等。
鈦媒體 AGI:今年 OceanBase 開發者大會主題也是 AI,預計會有哪些發布?
楊傳輝:首先,我們會發布 AI 相關的數據庫產品和能力,在包括向量數據庫等一體化數據底座的數據處理能力上有很大提升。無論在性能,還是性價比上,我們基本都達到了業界一流水平。
其次,我們會發布 RAG 服務。我們在 AI 領域原本就有很強的技術能力,將以 RAG 服務方式幫助企業通過一體化把自有數據和采用公開數據模型相結合,獲得更大的業務價值。
最后,我們也會發布 OceanBase 自身應用大模型取得的成果。
鈦媒體 AGI:現在做 AI 基座模型的企業越來越少,很多模型企業已經不再做預訓練,而是做推理模型,或是行業模型,數據參數規模沒有之前那么大了。那么,客戶數據處理需求會持續不斷嗎?
楊傳輝:這可能是兩個問題。
第一,我是這么理解預訓練技術的。本身預訓練門檻越來越高,像考試考到 90 分以后,再往上評分就越來越難,需要更多的數據和工程能力積累。但是,我們也可以看到,也有很多企業對預訓練模型進行更大的投入。未來我相信,少數幾家公司還是會不斷提升能力,尤其后續強化學習可以挖掘的空間很大。
第二,預訓練和對數據的需求是兩個問題,特別是對于 OceanBase 這樣的一體化數據底座來說,我們的數據量會越來越大。因為數據底座的數據量跟預訓練數據不一樣,預訓練可能是把 token 拿過來,但一體化數據底座的數據量取決于 AI 應用量級。AI 應用越多,數據量越大,而當下 AI 應用需求不斷爆發,加上 AI 應用對數據需求、數據種類、數據結構需求不斷增加,最終 AI 對數據的需求只會越來越大。
鈦媒體 AGI:隨著企業在使用大模型過程中越來越多采用自有數據,模型的 " 幻覺 " 未來會變為 0 嗎?" 幻覺 " 會影響 AI 發揮價值嗎?
楊傳輝:模型的 " 幻覺 " 不能完全消除,但會降低 " 幻覺 "。
有時候我們需要換一種思維模式,AI 大模型原理是預測下一個 token,這就對算力的要求很高,是從很多詞語當中進行選擇。同時,AI 調用模型也是一個 " 煉丹 " 的過程,不是一個確定性問題,而是概率性問題。我們需要從兩方面看待 " 幻覺 " 這件事。
一、隨著 AI 推理訓練、強化學習等技術發展,模型幻覺肯定會變得越來越低,而且語料準確率也會不斷提升,它有一個技術紅利。
二、盡管有幻覺因素,但今天的 AI 技術水平,已經能夠在很多場景當中應用,未來慢慢還有很多新的產品浮出水面。未來 5 年,如果 AI 部分幻覺降低,另一部分的技術能力充分發揮出來,在各個應用場景里面使用,將會有非常巨大潛力。
鈦媒體 AGI:要實現面向 AI 時代的一體化數據底座,OceanBase 還面臨哪些挑戰?未來的更大終極目標和發展前景有哪些?
楊傳輝:挑戰還是比較多的。
第一是技術本身的挑戰。我們對于發展前景想得很清楚,OceanBase 優勢也很多,但是如何真正讓 DATA x AI,兩者結合在一起,把幻覺、成本變得更低,讓數據融入 AI,這本身的技術挑戰就是世界級的,大家都在探索。
第二是生態的挑戰。無論是數據底座,還是數據庫,本質上還是要轉化為千萬家企業要用的技術產品,這是一個過程,涉及開源策略、商業策略、服務能力、生態層面等細節,這些都需要策略、時間和足夠的堅持,一個都不能少。具體來說,策略包括兩個部分:一是由數據庫產品到 AI 時代的一體化數據底座,適應 AI 時代需求,讓產品迭代速度更快、更敏捷;二是更加開放,鍛煉研發團隊能力,讓團隊擴展外部能力。
從數據庫生態來講,OceanBase 的開源社區已經是國內最強、最流行的數據庫社區,但在全球我們還有差距,如何讓生態真正做到 " 全球級 ",也是一個重要課題。
至于終極目標,我認為 OceanBase 無論是做數據庫,還是做數據底座,本身依然專注于數據處理,這是我們的核心。隨著數據種類,數據規模不斷變化,OceanBase 要幫助用戶完成數據處理,成為全球數據處理領域最好的一個選擇,這個目標永遠都沒有變。
很多人認為,OceanBase 是強大的 " 分布式關系型數據庫 ",但我們的未來在于做 AI 時代的一體化數據底座。所以我們不想把自己用 " 關系型數據庫 " 的標準來卡在 " 舒適圈 " 里面。我們產品是一流的,我們工程能力是一流的,因此需要用一種更開放的心態看待最新的業務場景和數據。
我們堅信,AI 時代的一體化數據底座,一定能夠滿足用戶需求。
(本文首發于鈦媒體 App,作者|林志佳)