文 | alter
兩年多前,Gmail 的創建者之一 Paul Buchheit 在社交媒體上寫道:" 谷歌可能只需要一兩年時間就會被徹底顛覆,AI 將會消滅搜索引擎的結果頁面。"
時間驗證了 Paul Buchheit 的論斷,焦點卻是在中國市場。
過去一個多月里,百度、夸克、微博、知乎、小紅書等平臺陸續接入 DeepSeek,和大模型的深度思考能力融合,重新定義了內容的呈現方式和用戶搜索習慣,悄然開啟了一場 " 深度搜索 " 戰事。
本期內容將圍繞日常生活中經常遇到的一些問題,包括健康、數碼、美妝、游戲和最新事件,對 DeepSeek R1(聯網搜索)、百度 AI 搜索、夸克、微博智搜、知乎直答、小紅書孵化的 AI 搜索應用 " 點點 " 進行橫向對比,測試下 " 深度搜索 " 能力哪家強?
需要說明的是,由于 " 思考過程 " 比較長,截圖僅展示最終答案。假如對結果的真實性存疑,可自行測試。
第一題:兒童換季過敏有哪些特別注意事項?
因為家里的寶寶是易過敏體質,就把很多家長正在頭疼的問題作為測試的第一道題,用來驗證內容的權威性和可信度。
先說結論:六個產品都達到了及格線,都提到了常見的過敏原,過敏的主要癥狀,日常護理需要注意的事項等等。原先需要查看幾十篇文章或視頻的知識點,現在只需要等待幾十秒的時間。
第二題:電腦的內存條是越多越好嗎
這是一個很多人選配電腦時都會糾結的事,看起來比較專業,其實里面留了一個坑,用來測試不同 AI 搜索的用戶友好性。
單從準確性上看,六個產品沒有拉開明顯差距,均考慮到了不同的使用場景,兼容性和穩定性,很多用戶選購內存條時可能陷入的誤區。比知識本身更重要的是,用戶在提問時想要的答案是什么呢?
其中微博智搜和 " 點點 " 都在答案中引用了專業數碼博主的科普視頻。
不同的是,微博智搜在排版上將視頻作為了答案的一部分,契合了小白群體的需求,譬如可以直接點擊觀看視頻,通俗易懂地學習相關知識點。" 點點 " 則將視頻放在最后,僅作為延伸了解。
第三題:含玻色因和視黃醇的護膚品能一起使用嗎?
前面兩個問題中,平臺的博主和 UGC 內容在很大程度上左右了輸出內容,于是我們找來了一個和美妝相關的問題。
結果和我們預料中的一樣。因為時尚美妝是內容營銷的 " 重災區 ",AI 搜索能否處理營銷味兒比較重的內容,給出一份客觀的答案呢?
百度和夸克 " 終于扳回了一局 ",盡管內容中出現了珀萊雅逆時光瓶、珀萊雅黑繃帶等扎眼的產品名,整體上依然比較客觀,自動過濾到了一些 " 軟植入 ",且成分介紹、注意事項、使用建議等都相對準確。
第四題:《王者榮耀》最新版本里最適合上分的打野英雄是誰?
如果說前面幾道題都有相對確切的答案,我們找了到比較主觀的題目,比如對《王者榮耀》里打野英雄的排序。
預料之中的,我們看到了六個不同版本的答案,不僅提到的英雄不同,同一英雄的排名也不同。為了盡可能客觀,我們仔細查看了思考過程和來源,看看哪個 AI 在 " 實事求是 ",哪個 AI 在 " 弄虛作假 "。
有意思的是,DeepSeek R1、百度、夸克均采用了 T0、T0.5、T1 的分類方法,滿滿的專業評測范兒,只是英雄的排序全然不同。
在 " 思考過程 " 中可以看到,都注意了 " 網頁 " 的發布時間,并提出查看 " 過去三個月的內容 ",答案里仍采用了大量 2023 年乃至 2018 年的內容,DeepSeek R1 被網友詬病的 " 幻覺 " 問題,總算是 " 暴露 " 了。
第五題:平價的蜜雪冰城擁有塌房豁免權嗎?
既然 " 時間線 " 成了某些深度搜索的短板,不妨進一步測試下——能否準確回答或梳理過去一周內發生的焦點事件?
起因是 315 晚會對蜜雪冰城門店使用隔夜檸檬片的報道,在輿論端卻出現了反差,不同于對 " 滬上阿姨 " 的口誅筆伐,網友們再一次 " 寬恕 " 了蜜雪冰城,衍生出了 " 塌房豁免權 " 的說法,吸引不少自媒體進行解讀。
恰恰是這個問題的答案,讓我們對 " 深度搜索 " 有了更深刻的認知,絕非是一場同質化的競賽,而是內容差異化的較量。
DeepSeek R1、夸克和百度主要參考的是新聞報道和自媒體文章,答案里的措辭有所不同,但有著相似的邏輯。同時也意味著,缺少 UGC 內容的情感和真實體驗,很難拉開實質性的差距。
寫在最后
由于時間關系,我們只測試了 5 道問題。
單就推理速度而言,百度、夸克位于第一梯隊,無形中印證了百度和阿里的技術硬實力,點點和知乎直答處于第二梯隊,微博智搜的思考速度稍慢了一些,用時和 DeepSeek R1 不相上下。
對于搜索的結果,暫時無法對幾個深度搜索平臺的優劣做出確定性的結論,但不乏一些值得關注洞察:
1、大模型的深度思考能力決定了體驗的下限,但內容決定了體驗的上限。
無論是百度、夸克,還是微博、小紅書、知乎,接入的都是 DeepSeek R1 滿血版,在底層的技術能力上實現了對齊,最大的差異其實在于各個平臺所擁有的內容資源。
比如微博以前的搜索體驗差強人意,直接原因就是基于關鍵詞的搜索技術,導致來自權威媒體、行業大 V 的優質內容 " 沉沒 "。接入 DeepSeek R1 后,原本零散、碎片化的優質信息,被高效整合成清晰、邏輯性強且具備參考價值的搜索結果,在用戶體驗上有了極大改善。
2、深度搜索不只是 " 找信息 ",而是 " 找真實、權威、有可信度的信息 "。
大模型本身 " 沒有價值觀 ",影響輸出結果的是數據,社交平臺上的 UGC 內容也就成了一把雙刃劍:可能讓答案更有 " 人情味兒 ",也可能 " 污染 " 生成內容的準確性。
就像小紅書里的美妝廣告,搜索結果中不可避免地夾雜了太多的營銷信息。并非沒有 " 避險方案 ",比如在特定領域調整 UGC 內容的權重,以外部可信內容為主,UGC 內容為輔;或者像微博那樣引入權威媒體和垂直領域的專業博主,用大量權威、可信的內容避免信息失真。
3、深度搜索的體驗是不可逆的,將帶來更加有效的商業變現路徑。
俞軍老師提出過一個著名的體驗公式,即用戶體驗 =(新體驗 - 舊體驗)- 遷移成本。鑒于深度搜索相較于傳統搜索的跨時代優勢,用戶體驗在很大程度上是不可逆的。
新范式必然會帶來新的機會。以內容付費為例,用戶更愿意為高權威、高可信的內容付費,微博、小紅書、知乎等社交類平臺,或許可以在醫療、法律、財經咨詢等垂直領域,構建信任型內容付費場景,通過搜索結果在專家和用戶間建立信任的紐帶,激勵專家持續生產優質內容。
做一個總結的話:傳統搜索的時代結束了,而我們正站在新時代的大門前,搜索不再是簡單的信息檢索,而是基于理解和洞察的信息重組與再創造,屬于內容平臺的下一個春天來了。