澤拓科技的 CEO 趙偉穿著灰色西裝外套坐在辦公桌前,說話音量不大,帶著微笑和極客特有的真誠與激情。
面對雷峰網關于數據庫產品自研與否的提問時,他保持著徐徐的語調,一字一句說:" 我們從一開始就大大方方在社區里講,我們是基于社區版的 MySQL 和 PG 深度研發了大量內核增強、優化擴展和新功能組件,使二者發生‘核聚變反應’ , 錘煉成全新的產品。"
他指出,對計算機軟件而言,比自己寫每一行代碼更重要的是能 Hold 住自己產品的完整設計和實現,且要遵循所使用的開源組件的開源協議,因此不會為了自研率有所隱瞞。
澤拓科技的昆侖數據庫是借力開源生態做成的。在趙偉看來,這是認清作為創業公司的資源處境時,做出更符合創業公司發展邏輯、對用戶更有利的抉擇。他形容自己在做的事是 " 煉丹 " —— " 丹 " 的主體基于 MySQL 和 PostgreSQL 等開源社區的幾個組件作為素材和原料,團隊在這基礎上增強其原有功能且增加新的功能組件,把這兩個原本互不關聯的開源單機數據庫揉合為具有統一而協調的整體架構和產品功能集——澤拓昆侖數據庫。
而建基開源之上的優勢是,昆侖數據庫能充分融合客戶需要的功能:有段時間,社區里都在講能同時做到 TP(事務處理) 和 AP(分析處理) 的 HTAP 功能,團隊便進一步加強數據庫的 AP 性能使其具備 HTAP 能力;后來大模型帶火了向量數據管理需求,借助 pgvector 這個開源組件,澤拓團隊用不到三個月就讓昆侖數據庫也擁有了向量數據處理能力。" 昆侖數據庫已有豐富的功能,且有開放可擴展的架構,因此社區關注什么,我們就能快速增加相應的功能 ",昆侖數據庫就這樣成長為數據庫的 " 集大成者 "。
但要實現這一點,不可忽視的前提條件是:澤拓科技產品研發團隊里有多位來自 Oracle 的 MySQL 原廠內核開發者。他們是趙偉之前在 Oracle 工作時的同事;而趙偉自己,在 Oracle 做過 多年 MySQL 內核研發后,也在騰訊把基于 MySQL 做的 TDSQL 迭代為成熟的分布式數據庫產品。深耕 MySQL 和 PostgreSQL 開源生態多年,澤拓團隊知道如何最高效高質地基于原有代碼做深度研發,滿足客戶需求。
作為一個借力 MySQL 和 PostgreSQL 社區生態的數據庫公司,這幾年商業化的道路好走嗎?依靠社區轉化而非傳統銷售的商業模式,又是否行得通?以下是雷峰網在不修改對話原意的基礎上所做的整理。
社區關注什么 澤拓團隊就能講什么
雷峰網:之前看到,前幾年有段時間澤拓團隊強調過昆侖數據庫有 HTAP 能力?
趙偉:昆侖數據庫有 HTAP 的能力,除此之外還有空間數據管理和向量數據管理能力。由于昆侖數據庫的計算節點基于 PostgreSQL 研發,大部分組件無需修改即可使用;少量組件(比如 PostGIS 和 pgvector )需要做內核研發使之適應昆侖數據庫的架構。對這些第三方組件做調整的投入都不大,或許只有從零開始研發的工作量的 1%。
之前我們宣傳昆侖數據庫的 HTAP 能力,是因為有段時間數據庫社區里廠商在宣傳 HTAP,就像現在大家宣傳大模型、RAG 和向量數據管理。昆侖數據庫這些數據管理功能都有。社區里關注什么,團隊就能講什么。
HTAP 這個名詞是前幾年其他廠商提出來的,但 Oracle 很多年前就已經支持 AP 查詢了。不過 Oracle 是集中式數據庫,到互聯網時代,很多中小型公司也有幾十 TB 的數據要分析,Oracle 也難以承載大量數據分析需求,所以業界從 20 多年前開始用 HBASE、 Hive 等去迭代,有了國內外多個 AP 類數據庫產品。后來市場就發明出一些需求,也可能是真實的需求,把 TP 和 AP 的功能融合在一個產品里,也就是 HTAP。
雷峰網:為什么說是 " 發明出來 " 的需求,市場沒有 HTAP 的真實需求嗎?
趙偉:可能有,但我們實際拜訪那么多客戶里,很多時候 TP 和 AP 負載還是分開在兩個數據庫實例中運行。大多數情況下,對于一個 HTAP 數據庫,大家往往只側重使用其 TP 或者 AP 的功能。這樣避免兩類負載的資源競爭,確保兩者性能都更高;而且開源社區有很多免費的數倉產品,客戶自己多用些機器就能獨立部署 TP 和 AP 數據庫。當時我們做 HTAP 也主要是從技術的角度看覺得可能有一些需求,也想通過深度研發一系列技術來大幅改進昆數據庫的 AP 性能。現在看,技術和產品層面我們的目標基本實現了,而在用戶使用場景方面,更多用戶更傾向于把昆侖數據庫作為 TP 數據庫來直接支撐應用系統,或者從多個其他數據庫匯聚數據。
雷峰網:聽下來我好奇,你們公司有找到自己產品跟市場的 PMF 嗎?
趙偉:我們最本質的 PMF 就是企業級的 MySQL 和企業級的 PostgreSQL。昆侖數據庫的計算節點是基于 PostgreSQL 開發的,存儲節點是基于 MySQL 開發的,跟其他只支持 MySQL 協議和 SQL 語法的產品相比,對二者的兼容程度要高很多。DBA 的學習曲線也很平滑,他們原先對 MySQL 的運維管理的知識,有很多仍然適用于昆侖數據庫。另外 PostgreSQL 近些年在國內外的普及度也在快速上升,昆侖數據庫對 PostgreSQL 用戶來說,在性能、彈性擴展能力等方面也具有獨特價值。
雷峰網:這個 PMF 競爭力大嗎?
趙偉:競爭力挺大,因為 Oracle 現在對社區版 MySQL 投入已經大大降低,把研發 MySQL 的資源都投到云上閉源版本了。過去 15 年 Oracle 在社區版 MySQL 做大量投入,基本每個季度發布新版本,就像掉個新的 " 餡餅 " 給全球用戶。但現在定期發布的開源 MySQL 新版本 已經幾乎沒有新功能,基本就是在修 bug,對于用戶來說以后 " 天上掉餡餅 " 的機會就很少了。如果 MySQL 用戶有新的功能需求,或者有需要解決的問題,我們就能在昆侖數據庫里把這個功能做出來給他們。
同時,PostgreSQL 一直沒有廠商維護,雖然開源社區的開放性非常優秀,但商業用戶不僅需要企業級數據管理能力,也需要可靠的廠商技術支持。
雷峰網:為什么你們團隊能做到這點?
趙偉:我們團隊十幾個人里面,有幾個是之前 MySQL 的原廠內核開發者,還有幾位 PostgreSQL 內核開發者,我們完全掌握這兩個數據庫的設計和實現、功能和用法;并且我們這個團隊的核心開發者和技術支持人員都有國內外互聯網大廠多年工作經驗,解決過很多極致負載和極致需求下的技術難題。因為數據庫作為基礎軟件,服務是很重要的,不像手機上下個 APP 就能用。用戶需要專業的技術服務。
雷峰網:面對這么多國產數據庫,也有觀點認為,全自研的數據庫可能會比借力開源生態的更有前景,您對此怎么看?
趙偉:從用戶視角來看,用戶更看重其選擇的數據庫以及其他基礎軟件產品能解決其現實問題和需求,有功能需求時供應商能研發出來或者按需更改、遇到 bug 能即時有效地解決,這才是關鍵。他們反而不會很在意產品自研率是 100% 、80% 還是 50%。我們從一開始就大大方方在社區里講,我們基于社區版的 MySQL 和 PG 深度研發了大量內核增強、優化擴展和新功能組件,使二者發生 " 核聚變反應 ", 錘煉成全新的產品。對計算機軟件而言,比自研率更重要的是能 Hold 住自己產品的完整設計和實現,從而按需增強現有功能和擴展開發新功能。而且,要遵循所使用的開源組件的開源協議。因此我們不會為了所謂的自研率做任何隱瞞。
那些 100% 自己寫代碼的產品,雖然其執著的精神可嘉,但是用戶會擔憂 " 產品要多少時間內才能穩定下來 "" 有多少 DBA 可以管理這些數據庫 "" 有多少第三方組件適配支持 " 等問題。MySQL 和 PostgreSQL 開源數據庫的成熟度比較高,我們基于此出發,在資金、人力上的投入比每一行代碼都自己寫的公司少很多,還可以更快完成產品開發迭代。
但有個大家容易忽視的前提是,我們的研發團隊本來就對 MySQL 和 PostgreSQL 等組件非常熟悉,能理解其設計思路、知道如何高質量高效地增強和擴展,這是隱含條件。當前昆侖數據庫的所有組件的最新代碼中,澤拓團隊自研的代碼總量也占據了總代碼量的一多半,并且團隊 100% 理解掌握昆侖數據庫架構、原理和每一行代碼,我們的技術團隊其實也具備完整而強大的數據庫系統自研能力。
雷峰網:在您看來,澤拓和自研數據庫的公司是完全在同一賽道上嗎?
趙偉:寬泛點說,大家目標客戶群及其所在的行業都一樣,就是同個大賽道。但彼此的發展策略不同,比如我們是借力于開源生態,從現有的開源社區發展用戶;有的公司是自己重新開辟一個生態系統,前期比較艱苦、投入非常大、見效慢,但一旦做成,整個生態就是他們自己的。
借力開源做數據庫是 " 煉丹 "
雷峰網:您是在什么契機下決定創建澤拓科技?
趙偉:2017、18 年左右,云計算普及度很高,國內外也有很多基礎軟件通過云平臺銷售——基礎軟件可以成為獨立的產品,這是一種新的商業模式。以前只有 Oracle、微軟少數幾個美國公司能做到,那幾年涌現出 MangoDB、Redis、ES 之類的公司,鼓舞人心,所以我也萌生這個念頭。我 2019 年 8 月從騰訊離職出來籌備,公司在 2020 年底成立。
雷峰網:公司剛成立時,設立的產品方向是什么?
趙偉:當時就只是想著做分布式數據庫,管理海量的數據,應對極致的負載。雖然產品的功能在持續開發,但有幾個基本因素,是我們一直保持的。一是要從開源生態借力,因為創業公司資源有限,做事的效率要比大廠更高而且要更靈活地即時調整。我們把研發昆侖數據庫稱之為 " 煉丹 " —— " 丹 " 的原料一部分是開源社區的組件(即 MySQL 和 PostgreSQL),畢竟我們沒有那么多資源從 0 寫每行代碼。第二是可以從 MySQL 和 PostgreSQL(PG) 的開源數據庫社區用戶群中發展用戶,通過社區發展影響力,讓大家知道我們的產品比開源免費版的價值,從而成為我們的商業客戶。
雷峰網:為什么給產品起名叫昆侖數據庫?
趙偉:我想要一個足夠大氣又朗朗上口的名字。一開始還想過喜馬拉雅,后來想過青海湖,但覺得以湖命名太秀氣了。我還列了個表,把全中國兩個字的名山大川列了一遍,太行、昆侖、賀蘭、峨眉、武當。最后就選了昆侖,萬山之祖。
雷峰網:咱們是在 2022 年 8 月左右就已經打磨好產品可以落地商業化嗎?
趙偉:當時產品作為數據庫來說,基本功能差不多都有了,可以 POC,實際商業化是 2023 上半年開始。我在公司剛成立沒多久就雇了第一個銷售,但當時產品還沒成型,沒多久又讓人家離開了。現在看那時在商業化方面還是有些急,太想盡早開拓客戶。
雷峰網:現在 2025 年初,商業化兩年后,目前的進度您滿意嗎?
趙偉:比當初想象中困難一些。一方面是經濟大環境的影響,另一方面數據庫作為基礎軟件,比其他軟件推廣難度更大。原先設想開源社區用戶可以主動轉化為我們的用戶,后來發現還是得靠傳統的商業化方法為主,由銷售人員獲得客戶。
雷峰網:原先的設想難在哪里?是其他基于 MySQL 做數據庫的公司帶來的壓力嗎?
趙偉:要說競爭,可能就是公有云大廠,他們也有基于 MySQL 和 PG 做的云數據庫,昆侖數據庫和他們的產品確實有部分功能重疊。并且,數據庫軟件就像地基,用戶選擇產品也很謹慎,建立信任需要較長時間;而且在國內,一個公司用什么軟件往往也不是一線技術人員能決定的。作為初創公司,商業化起步比較難,現在有了一批早期客戶后,后續會越來越順暢。
雷峰網:咱們的產品跟大廠有重疊,那差異化的地方是什么?
趙偉:蠻多的,比如昆侖數據庫比 OceanBase 和 TDSQL 多了向量數據管理、空間數據管理,比 TDSQL 的 AP 性能更高,等等。雖然這些差異化的部分功能,客戶是否需要也因人而異,但我特別想強調一點,昆侖數據庫的獨特優勢是對 MySQL 做深度兼容,因為昆侖數據庫的存儲節點基于 MySQL 研發而成,不僅僅是其他數據庫產品那樣僅兼容 MySQL 的協議語法,相當于 MySQL 用戶的 DBA 可以直接來運維管理昆侖數據庫,上手難度很低。
雷峰網:最開始會選擇什么樣的客戶去打磨產品?
趙偉:比如數據量大的,單個 MySQL 實例裝不下,或是 MySQL 復雜查詢性能較低,或是需要比 MySQL 更高的一致性、性能,以及更可靠的容災和故障恢復能力的客戶。
雷峰網:會傾向什么行業?因為許多數據庫公司可能會選擇金融行業作為產品打磨的開始。
趙偉:金融的競爭比較激烈,各大廠也都擠在金融行業里;而且通常成單周期比較長。雖然金融行業有很多 MySQL 用戶,但我們現在這個階段去金融行業可能還有些太早,我們可能要做到第一百個客戶再去找金融行業。我們目前還在制造業、教育、醫療、能源、交通等行業開拓。
雷峰網:那在開拓客戶的過程中,會面臨很多定制化需求嗎?
趙偉:會有些,但這些定制都是和數據有關的。用戶有需求、產品原先沒這功能,這就叫一定程度上的 " 定制 ",但 " 定制 " 的功能是有通用性的,可以成為產品矩陣的組成部分。比如我們之前因為客戶的需求增加了個功能,就是讓他們從社區 MySQL 把數據動態遷移過來后,可以一段時間雙庫運行,還能隨時增量對比校驗雙庫數據相同。這個功能現在已經成為我們產品矩陣里的組件。
雷峰網:國內市場定制化需求會比較常見嗎?
趙偉:有的,但不能讓用戶做 " 產品經理 ",在 ToB 場景,很多用戶常常不知道自己真正需要什么,我們要做的就是幫他們解決業務場景的問題,幫客戶設計解決方案并規劃產品能力然后研發實現。同時,如果是需要浪費很多時間和人力去做的應用層定制化開發,只能給一個客戶使用,缺乏通用性、不能產品化,可能就要做取舍了。
DeepSeek 給私有化部署數據庫產品帶來增長點
雷峰網:現在澤拓能實現收支平衡了嗎?
趙偉:今年可能會。
雷峰網:前幾年國內軟件市場價格戰也比較明顯,澤拓會被影響到嗎?
趙偉:公有云上的價格確實比較低,比如小客戶 1 核 2G 一年可能就幾百塊錢。一個創業公司如果還在迭代產品階段,一年買云數據庫可能就花不到一萬塊。云廠商有體系化的優勢,可以把價格打得很低。但我們不和他們比價格,畢竟后續技術服務都有成本,我們通過產品能力和技術服務獲得差異化競爭優勢。
雷峰網:咱們在 2023 年完成了 A 輪融資是嗎?當時是怎么打動 VC 的?
趙偉:對,我們只做過兩輪融資。投資人在 2022 年底找到我們,經過交流和對項目的深度考察,挺認可我們產品和團隊。同時有個重要因素是,我們一直把估值控制在很合理的區間,我覺得這樣做心里比較踏實。后來證明這是對的,至少投資人不會覺得價格太高。
雷峰網:那么,在您看來,DeepSeek 熱潮發展起來后對數據庫行業有什么影響?
趙偉:有了更多向量數據管理的需求。我們 2023 年底把向量數據管理能力加到昆侖數據庫里去,當時 PGVector 迭代很快,但 PostgreSQL 是集中式數據庫,單個向量就好幾 KB,一個大模型 RAG 應用假設需要管理一億個向量,就是 TB 級數據量;而且大模型每個向量的維度很大,導致向量數據的常見計算負載非常大。集中式數據庫使用單臺服務器的資源,承載不了這么大的存儲和計算負載。
雷峰網:那 DeepSeek 熱潮對數據庫公司來說,增長點可能在哪里?
趙偉:DeepSeek 開啟了國內各公司各單位可以放心大規模使用大模型的生態環境,尤其是政府事業單位、國企。大模型有個特點,比如 RAG 的向量數據包含了各個公司內部的特定領域知識,用戶未必愿意把這樣的數據放到云上,于是出現更多私有化部署的需求,這對數據庫產品來說是個機會。因為公有云廠商還是更希望用戶上云,可以減少實施成本。
雷峰網:那對于數據庫的技術會提出新的要求嗎?
趙偉:向量數據的特點是數據量和計算量特別大,所以要能非常有效地管理向量數據,目前還有提升空間。這是新的賽道,前兩年大家想的還是怎么把 RAG 應用基于大模型跑起來,處于產品研發和推廣階段,數據量和計算負載都不大,在成本、效率方面也沒那么在意,但接下來會開始越來越重視全系統效率、成本、可靠性、性能、業務連續性等方面。
雷峰網:在您看來,像向量數據庫這類專用數據庫,未來發展勢如何?
趙偉:專用數據庫也分多種,像圖數據庫和關系型數據庫區別非常大,甚至可以說底層算法和理論相互沖突。以前 Oracle 試圖做過 Oracle Graph,但似乎沒有普及開來,因為用關系表存儲圖然后基于表連接實現圖遍歷,這樣的效率太低了。另外,Redis 的純內存數據庫,其使用場景和需求以及運行的環境或條件也和關系型數據庫完全不一樣。所以這些專用數據庫都有其特定的場景和用戶群,與常見的關系數據庫差異較大。向量數據是一種數據類型,可以嵌入關系型數據庫里,我們在昆侖數據庫中支持向量數據管理只用了不到 3 個月,因為昆侖數據庫的基礎能力可以支持包括向量數據在內的豐富的數據類型,我們僅需為實現向量數據的存儲和計算能力即可。
雷峰網:國產數據庫在 2020 年前后經歷百花齊放,但 2024 年底,墨天輪中國數據庫流行榜收錄的數據庫產品較前一年減少了大約 60 個。您怎么看待這種情況?
趙偉:我感覺本質上可能沒有兩三百家數據庫公司,真正活躍在社區里、官網上有產品介紹和產品發布的,可能也就五六十個產品。而且這其中,國內幾個大廠的產品又占了接近一半。細分到每個產品類別和維度后,比如 TP 型、AP;關系、圖、NoSQL、時序、JSON;內存、集中式、分布式等等,每個小分類里頭的產品其實并不多。不過這些產品如果僅在國內發展,那么空間仍然會比較受限。我們對于未來的發展抱有謹慎樂觀的態度,但認為國內各基礎軟件廠商要出海做全球的客戶。
專題介紹
2020 年前后,國產數據庫創業大潮洶涌。然而,隨著 AI 大模型的出現,人們視線的聚焦與資本的興趣也發生轉變。五年過去,國內的數據庫公司現狀如何?他們在做什么新的嘗試?又遇到什么新的困難?本專題與一系列數據庫創業公司的創始人對話,回顧近年數據庫公司在商業和技術領域的探索。縱然面對數據庫市場的寒冬,從業者們各有招數,懷揣著對數據庫的理想與確信,走出各具特色的商業化之路。我們誠邀對此專題感興趣的從業者共同參與討論,或是作為受訪對象分享您的真知灼見。歡迎添加微信 Ericazhao23。