從 ImageNet 到 World Labs ,李飛飛的學術與創業之路始終緊跟時代步伐,跨越一個又一個技術瓶頸。而今天,她將目光聚焦在更為復雜的空間智能上,探索如何突破視覺智能的二維限制,走向理解和重建三維世界的未來。
在YC創業學院峰會現場,YC 合伙人 Diana Hu 與李飛飛展開一場爐邊對話,李飛飛深刻剖析了空間智能與語言理解之間的巨大差異,指出為什么三維世界建模對于AI的演進至關重要。這不僅是AI技術的一次飛躍,更是智能體與人類世界更深層次連接的關鍵一步。
訪談內容原汁原味呈現于下:
李飛飛:我的整個職業生涯都在攻克那些極其困難、近乎妄想的問題,對我而言,沒有空間智能的AGI是不完整的,我想解決這個問題,我就是熱愛當企業家,忘掉你過去的成就,忘記別人對你的看法。埋頭苦干,努力建設,那是我的舒適區。
Diana Hu:我特別興奮能請到李飛飛博士,她在 AI 領域有非常長的職業生涯,我相信很多人都認識她,她被稱為 AI 教母。你在2009年,創建的首批項目之一是 ImageNet(圖像數據庫)。也就是16年前,天吶。
李飛飛:別提醒我這事了(笑)。
Diana Hu:現在該項目的論文引用量已超8萬次,并且真正開啟了 AI 的一個關鍵支柱,也就是數據問題。請告訴我們這個項目是如何產生的,那在當時可是極具開創性的工作。
李飛飛:首先,Diana、Gary,還有在場的各位,感謝你們邀請我來。我非常激動能來到這里,因為我感覺自己就像是你們中的一員。我現在也是一名企業家,剛創辦了一家小公司,所以很高興能來這兒。
我們差不多18年前就有了創建 ImageNet 的想法,當時我是普林斯頓大學的一年級助理教授,那時 AI 和機器學習的世界和現在大不相同,數據少之又少,至少在計算機視覺領域,算法根本行不通,也沒有相關產業。就公眾而言,"AI"這個詞都還不存在。
但我們仍然有一群人,從 AI 的先驅開始,比如約翰·麥卡錫,再到像杰弗里·辛頓這樣的人物,一直懷揣著 AI 之夢。我們真的想讓機器會思考、能工作,懷揣著這個夢想,我個人的夢想是讓機器能"看",因為視覺是智能的基石。視覺智能不只是簡單的感知,而是真正理解世界并能在其中有所作為。
所以我癡迷于讓機器"看"的問題,當我癡迷于開發機器學習算法時,那時我們嘗試過神經網絡,但沒奏效。我們轉而使用貝葉斯網絡、支持向量機等其他方法。
但有個問題一直困擾著我,那就是泛化問題。如果你從事機器學習領域的工作,就必須明白泛化是機器學習的核心數學基礎和目標。為了讓這些算法具有泛化能力,就需要大量數據,當時在計算機視覺領域根本沒人有數據。我是第一代開始涉足數據研究的研究生,因為我是第一代見證龐大的物聯網時代到來的研究生。
時光快進到2007年左右,我和我的學生決定大膽一搏。我們認定機器學習領域需要一場范式轉變,而這場轉變必須由數據驅動的方法引領,但當時沒有數據。于是我們想,那就去互聯網上下載十億張圖片吧,這是我們能從網上獲取的最大數據量了,然后創建一個涵蓋整個世界的視覺分類體系,我們用這些數據來訓練和評估機器學習算法,這就是ImageNet 被構思并實現的緣由。
Diana Hu:過了好一段時間,才出現有前景的算法,直到2012年 AlexNet 問世,那才是邁向 AI 的第二步,也就是要具備足夠的計算能力并投入大量的算力和算法。給我們分享下你是從什么時候開始意識到,你用數據為其奠定了基礎,然后社區開始為AI找出更多東西的那個時刻是什么?李飛飛:在2009年,我們發表了一篇非常小的 CVPR 海報。從2009年到2012年這三年間,AlexNet 出現后,我們堅信數據將推動 AI 發展,但對于這種方法是否可行,我們幾乎沒有得到什么有效的反饋。
所以我們采取了一些措施,其一,從一開始我們就認為要將相關內容開源給整個研究界,讓大家一起來研究。其二,我們發起了一場挑戰賽,因為我們希望全世界最聰明的學生和研究人員都來解決這個問題,這就是我們所說的 ImageNet 挑戰賽。每年我們都會發布一個測試數據集,整個ImageNet數據集可用于訓練,但我們會發布測試集,公開邀請所有人參與,最初幾年主要是在確定基準,當時的識別錯誤率達到了30%,這不是零誤差,也不是完全隨機的結果,但也不算太好。
到了2012年,也就是挑戰賽的第三年,我在自己出版的一本書里寫過這件事,我至今記得,大概在夏末的時候,我們把 ImageNet 挑戰賽的所有結果放到服務器上運行。有天很晚了,我在家收到了研究生發來的消息,他說我們得到了一個非常突出的結果,讓我看看。我們仔細研究后發現,這是一個卷積神經網絡的結果,當時它還不叫AlexNet,杰弗里·辛頓團隊把它叫做"Supervision",這是一個很巧妙的雙關語,既和"超級"有關,也和"監督學習"有關,我們查看了"Supervision"的成果,卷積神經網絡是一種早在20世紀80年代就已發表的舊算法,只是在算法上做了一些調整,但一開始看到有這么大的進步,我們還是很驚訝。
當然,之后的歷史大家都知道了,那一年我們在意大利佛羅倫薩舉行的國際計算機視覺大會(ICCV)的 ImageNet 挑戰賽研討會上展示了這個成果。亞歷克斯·克里徹夫斯基、楊立昆也來了。現在大家都把這一刻稱為 ImageNet 挑戰賽中 AlexNet 誕生的時刻。我想說的是,這不僅僅是卷積神經網絡的功勞,也是亞歷克斯和他的團隊首次將兩塊GPU結合起來用于深度學習計算。所以這真的是數據、GPU和神經網絡首次結合的時刻。
Diana Hu:隨著計算機視覺領域智能技術的不斷發展,ImageNet 實際上是解決物體識別概念的關鍵開端。接著 AI 發展到了能夠處理場景識別的階段,因為你和你的學生,比如安德里亞·卡帕西做了很多工作,讓計算機能夠描述場景,能跟我們講講從物體識別到場景識別的轉變嗎?
李飛飛:ImageNet 解決的問題是,給你一張圖片,你能識別出里面的物體,比如有一只貓、一把椅子等等,這是視覺識別中的一個基本問題。
其實從讀研究生進入 AI 領域開始,我就有一個夢想。我當時覺得這是一個要花上一百年才能實現的夢想,那就是對世界進行敘事描述。當人類睜開眼睛時,想象下你在這個房間里看到的不只是人和椅子,實際上看到的是一個會議室,里面有屏幕、舞臺、人群、攝像頭等等,你能夠描述整個場景。這是人類視覺智能的基礎能力,在我們的日常生活中非常重要。
所以我真的以為這個問題會投入一輩子的時間。說實話,我研究生畢業的時候就告訴自己,如果此生能創造出一種算法來描述場景,那就算成功了,我當時就是這么規劃自己的職業生涯的。ImageNet 和 AlexNet 誕生,深度學習開始興起。后來安德里亞和賈斯汀·約翰遜加入了我的實驗室,我們開始看到自然語言和視覺開始融合的跡象。安德里亞和我提出了圖像描述或場景敘事的問題,大約在2015年,安德里亞和我發表了一系列論文,這些論文和其他幾篇同期論文一起,首次讓計算機能夠為圖像添加描述。我幾乎都不知道自己接下來該做什么了,這可是我一生的目標!那一刻對我們倆來說都太不可思議了。
去年我做了一個TED演講,我還引用了安德里亞幾年前在完成圖像描述工作時發的一條推文,那差不多是他的博士論文研究內容。我還跟他開玩笑說:"安德里亞,我們反過來怎么樣?根據一句話生成一張圖片。"當然,他知道我在開玩笑,他說:"我可不干。"當時這個世界還沒準備好。
但現在技術發展,我們都知道了生成式 AI ,現在我們可以根據一句話生成漂亮的圖片,這段經歷告訴我們, AI 取得了驚人的發展。就我個人而言,我覺得自己是世界上最幸運的人,因為我的整個職業生涯始于 AI 寒冬的末期,也就是 AI 開始騰飛的時候,所以我真的非常幸運,也有點自豪。
Diana Hu:我覺得最厲害的是,你不僅實現了描述場景的畢生夢想,甚至還能用擴散模型生成場景。而且你還有更大的企圖心,因為計算機技術的發展軌跡從物體識別到場景識別,現在又到了"世界"這個概念。你還從學術界的教授轉型成為了 World Labs 的創始人兼首席執行官。能告訴我們理解"世界"為什么比理解物體更難嗎?
李飛飛:這確實有點不可思議,很難用幾句話概括過去五六年的事。對我來說,我們正處在這項技術進步的一個重大歷史時刻,作為一名計算機視覺科學家,我們見證了計算機視覺領域的驚人發展,從 ImageNet 到圖像描述,再到使用擴散技術進行圖像生成。與此同時,還有另一個令人興奮的發展方向,就是自然語言處理,也就是LLM。2022年11月,ChatGPT開啟了真正可用的生成式模型的大門,這些模型基本上能夠通過圖靈測試等等。
這對我這樣的"老人"來說也很有啟發,讓我大膽地思考接下來會發生什么。作為一名計算機視覺科學家,我有個習慣,我很多靈感都來自進化生物學和腦科學。在職業生涯的很多時候,我都在尋找下一個亟待解決的關鍵問題,比如進化或大腦發育給了我們什么啟示?有一點很值得注意和思考。從進化的角度來看,人類語言的發展,往多了算,大約用了3億到5億年,不到100萬年。在這么長的進化時間里,人類發展出了語言,可以說,人類是唯一擁有復雜語言的動物。雖然我們可以討論動物的交流方式,但從作為一種交流、推理和抽象工具的整體語言概念來看,只有人類擁有這一過程甚至不到50萬年。
回到視覺能力,想想理解三維世界、在三維世界中做決策、在三維世界中導航、與三維世界交互、理解三維世界、描述三維世界的能力,進化用了5.4億年才發展出這種能力。5.4億年前,第一只三葉蟲在水下進化出了視覺。從那以后,視覺引發了一場進化軍備競賽,在有視覺之前的5億年里,動物都很簡單,但在有了視覺之后的5.4億年里,動物的智力開始不斷提升。
所以對我來說,解決空間智能問題,即理解、生成、推理和在三維世界中行動的能力,是 AI 的一個基本問題。在我看來,沒有空間智能,AGI 就不完整。想解決這個問題,需要創建超越平面像素、超越語言的世界模型,能夠真正捕捉世界的三維結構和空間智能的世界模型。
我這輩子最幸運的是,不管我年紀多大,總能和最優秀的年輕人一起工作。所以我和三位非常出色的年輕技術專家——賈斯汀·約翰遜、本·米爾登霍爾和克里斯托弗·萊斯特一起創立了一家公司,我們要嘗試解決當前 AI 領域最具挑戰性的問題。
Diana Hu:這團隊太厲害了,克里斯是 Pulsar 的創造者,Pulsar 是 Cautious Flats 之前的一個早期項目,涉及很多可微渲染的工作。還有賈斯汀·約翰遜,他之前是你的學生,有很強的系統工程思維,實現了實時神經風格遷移。本·米爾登霍爾是 NeRF 論文的作者,這真是一支超級精英團隊,而且確實需要這樣的團隊。
我們剛才聊過,在某種程度上,視覺問題比語言問題更難,這么說可能有點爭議,因為LLM本質上處理的是一維的數據,但你要處理的是理解大量的三維結構,為什么會這么難?而且在研究進度上,視覺也落后于語言研究。
李飛飛:謝謝你理解我們這個問題有多難!語言本質上是一維的,音節是按順序排列的,這就是為什么序列到序列模型如此經典。
還有一點人們可能沒有意識到,語言是純粹生成式的。自然界中并沒有語言,你摸不到、看不到語言,語言完全是從人的大腦中產生的,這是一種純粹的生成式信號,你把它寫在紙上,它才會有形。
但語言的生成、構建和應用都是非常具有生成性的,而現實世界要復雜得多。首先,真實世界是三維的,如果加上時間維度就是四維。但我們先只考慮空間維度,它本質上是三維的,所以從組合復雜度來說,這就是一個難度大得多的問題。
其次,對視覺世界的感知和接收是一種投影過程,不管是通過眼睛、視網膜還是相機,都是把三維的世界投影到二維上。要知道這有多難,這在數學上是一個病態問題。 所以這就是為什么人類和動物有多種傳感器,需要去解決這個問題。
第三,現實世界并非完全可生成的。我們可以生成虛擬的3D世界,但它仍需遵循物理規律等等。不過,外面還有一個真實的世界。現在突然要在生成和重建之間流暢切換,而且用戶行為、實用性和應用場景都大不相同。如果完全偏向生成,我們可以聊聊游戲和元宇宙之類的,如果完全偏向現實世界,那就是在聊機器人技術之類的,但所有這些都處于作為空間智能的世界建模的連續譜上。當然,大家都避而不談的問題是,互聯網上有大量的語言數據,那空間智能的數據在哪里?
這些數據當然都在我們的腦子里,但不像語言數據那樣容易獲取,這就是事情如此困難的原因。但坦率地說,這讓我很興奮,因為如果事情容易,別人早就解決了。我的整個職業生涯都在攻克那些難到近乎妄想的問題,這就是那個近乎妄想的問題,感謝你支持我。
Diana Hu:從第一性原理來思考,人類大腦的視覺皮層中有比處理語言更多的神經元來處理視覺數據。這在模型中是如何體現的?從你目前的發現來看,它的架構和LLM有很大不同。
李飛飛:這是個非常好的問題。外面有不同的觀點,有LLM,我們在LLM中看到的很多成果,實際上是把規模定律運用到極致,幾乎可以通過強力的自監督一路構建世界模型,這可能更微妙一些。世界結構更復雜,可能需要一些信號來引導,可以稱之為先驗知識,也可以說是數據中的監督信息。我認為這些都是我們必須解決的開放性問題。
首先,我們對人類感知也并非完全了解,人類視覺中的3D原理都還沒有解決。從機械原理上說,雙眼要對信息進行三角測量。即便如此,數學模型在哪里?人類作為3D動物沒那么厲害,有很多問題有待解答。我真的只指望一件事,就是擁有像素領域最聰明的人來解決這個問題。
Diana Hu:可以說你們在 World Labs 構建的是全新的基礎模型,其輸出是3D世界,你預想的一些應用有哪些?我記得你提到了從感知到生成的各種應用,生成模型和判別模型之間一直存在張力,那么這些3D世界能有什么作用?
李飛飛:關于 World Labs 本身的細節我不能透露太多,但就空間智能而言,它的用途非常廣泛,就像語言一樣,從創作角度,可以想到設計師、建筑師、工業設計師,還有藝術家、3D藝術家、游戲開發者,從創作到機器人技術、機器人學習,空間智能模型或世界模型的實用性非常大,而且與之相關的行業眾多,從營銷到娛樂,甚至到元宇宙。
我真的對元宇宙很興奮,我知道很多人覺得它還不行,但這就是我興奮的原因,我認為硬件和軟件的融合即將到來,這也是未來的一個很棒的應用場景。
Diana Hu:你正在攻克元宇宙問題,我個人對此非常興奮,我之前的公司也嘗試過,所以我很高興你現在在做這件事。
李飛飛:我認為有更多積極信號。硬件確實是個障礙,但你需要內容創作,而元宇宙的內容創作需要世界模型。
Diana Hu:對一些聽眾來說,你從學術界轉型成為創始人兼CEO可能有些突然。但實際上你一生經歷非凡,這不是你第一次從0到1創業。你和我提到過,你十幾歲移民到美國時不會說英語,后來還經營了多年洗衣店,能講講這些經歷如何塑造了現在的你嗎?
李飛飛:我相信你們是來聽如何開洗衣店的。
Diana Hu:那是你19歲的時候對吧?
李飛飛:是的,那是出于無奈。我沒有辦法養家、供養父母,而我想上大學,去普林斯頓學物理,后來我就開了一家不錯的干洗店,用硅谷的話說,我籌集資金,我是創始人、CEO,我也是收銀員,什么都得干,七年后我把店轉手了。我從未因為我的自助洗衣店獲得過歡呼,謝謝你們的掌聲(笑)。
我看著臺下,特別為你們興奮,因為你們年齡只有我的一半,甚至可能只有我年齡的30%,你們這么有才華,放手去做吧,別害怕。
我整個職業生涯,即使作為一名教授,我也選擇過幾次,去那些我是第一個計算機視覺教授的院系。這違背了很多人的建議,作為年輕教授,你應該去有學術社群和資深導師的地方。我也想有資深導師,但如果沒有,我得開拓自己的道路,所以我不害怕。
后來我去了谷歌,在谷歌云學習了很多商業知識,包括企業對企業業務等。2018年左右,我在斯坦福大學創辦了一家初創公司,因為當時 AI 不僅席卷了整個行業, AI 還成了人類面臨的問題。人類總會引導科技發展,但我們不能失去人性,我真的很在乎在 AI 發展進程中造積極的影響。
我在想如何讓 AI 以人類為中心,如何創造能幫助人類的 AI 。所以我回到斯坦福,創辦了以人為本的 AI 研究所,并像經營初創公司一樣管理了5年。可能有些人不太高興我在大學把它當初創公司來經營,但我為此感到非常自豪,在某種程度上,我就是喜歡當創業者。
我喜歡從零開始的感覺,就像站在起點。忘掉你過去的成就,忘掉別人對你的看法,埋頭苦干,這就是我的舒適區,我就喜歡這樣。
Diana Hu:除了你所取得的所有了不起的成就之外,另一件很酷的事是,你指導了很多傳奇的研究人員,比如安德烈亞·卡帕西、英偉達的范丞、在 Image Net 項目上的合著者賈丹,他們后來都有了令人矚目的職業生涯。在他們還是學生的時候,有什么特別之處?你能給聽眾一些建議,怎樣看出一個人會改變 AI 領域嗎?
李飛飛:首先,我才是幸運的那個。我覺得我從學生身上學到的比他們從我這里學到的更多,他們真的讓我成為一個更好的人、更好的老師、更好的研究員。能和這么多傳奇學生一起工作,是我一生的榮幸。他們各不相同,有些是純粹的科學家,埋頭解決科學問題,有些是行業領袖,有些是 AI 知識的杰出傳播者。
我認為有一點是他們共有的,我鼓勵每個人都思考這一點。對于那些招聘的創始人來說,這也是我的招聘標準,我看重的是智識上的無畏。你來自哪里不重要,我們要解決的問題是什么也不重要,那種勇于接受困難、全身心投入并以自己的方式努力解決問題的勇氣和無畏精神,才是成功人士的核心特質。我從他們身上學到了這一點,我也真的在尋找有這種特質的年輕人,作為 World Labs 的 CEO,我招聘時就看重這種品質。Diana Hu:你們在 World Labs 也在大量招人,所以你們也在尋找具備同樣能力的人才,對吧?
李飛飛:太好了,我得到了 Diana 的許可!沒錯,我們正在大量招聘工程人才、產品人才、3D人才和生成式模型人才。如果你覺得自己無所畏懼,并且熱衷于解決空間智能問題,歡迎和我聊聊或者訪問我們的網站。
Diana Hu:很酷,接下來10分鐘是開放提問環節。
觀眾A :教授,感謝您精彩的演講,我是您的超級粉絲。我的問題是,二十多年前,您從事視覺識別研究,我想開始攻讀博士學位,我應該研究什么才能像您一樣成為傳奇人物?
李飛飛:我想給你一個深思熟慮的答案,因為我也可以簡單地說,做任何讓你興奮的事情。首先,我認為 AI 研究已經發生了變化,因為如果你要攻讀博士學位,意味著你要進入學術界,而如今學術界已不再掌握大部分的 AI 資源。這和我那個時候大不相同,在學術界,芯片、計算資源和數據都非常有限,而且有些問題,工業界能夠解決得更快。
所以作為一名博士生,我建議你去尋找那些不會與工業界形成競爭的研究方向,工業界可以利用更好的計算資源、數據和團隊協作來更有效地解決問題。但在學術界,我們仍然可以發現一些真正根本性的問題,而這些問題的解決與你擁有多少芯片無關,你可以取得很大進展。
首先,對我來說,跨學科 AI 在學術界是一個非常令人興奮的領域,尤其是在科學發現方面,有很多學科都可以與 AI 交叉,我認為這是一個大有可為的領域。
從理論層面來看,我發現 AI 的能力已經遠遠超越了理論,這令人著迷。我們沒有可解釋性,我們也不知道如何找出因果關系,模型中有太多我們不理解的地方,值得去深入研究。另外,在計算機視覺領域,仍然存在一些表征問題有待解決。此外,小數據也是另一個非常有趣的領域。這些都是可行的研究方向。
觀眾B :感謝李教授,再次祝賀您獲得耶魯大學的榮譽博士學位,一個月前我很榮幸見證了那個時刻。我的問題是,在您看來,AGI 更有可能以單一統一模型的形式出現,還是以多智能體系統的形式出現?
李飛飛:你提出這個問題的方式實際上包含了兩種定義。其中一種是定義更偏理論性,也就是將 AGI 定義為通過某種智商測試來判定 AGI 。問題的另一部分則更偏實用主義,如果是基于智能體的,它是否具有功能性?它能完成哪些任務?
說實話,我對 AGI 的定義感到很困惑。原因如下:1956年在達特茅斯相聚的 AI 先驅們,比如約翰·麥卡錫和馬文·明斯基,他們想要解決機器思考的問題,而艾倫·圖靈在幾年前,比他們早10年左右也提出過類似的問題,當時提出的這個問題并非狹義的 AI ,而是關于智能的一個更廣泛的概念。所以我不太清楚如何區分 AI 和 AGI 這兩個詞的含義,對我來說,它們是一回事。但我明白,如今這個行業喜歡稱AGI,好像它超越了AI,我對此很困惑,因為我不清楚 AGI 和 AI 有什么不同。如果說如今類似 AGI 的系統比起八十年代、九十年代那些狹義 AI 系統表現更好,我認為這沒錯,這只是這個領域的發展進程。
但從根本上說,我認為 AI 的科學就是智能的科學,就是能創造出能像人類一樣,甚至比人類更智能地思考和做事的機器,所以我不知道如何定義AGI,在沒有定義它的情況下,我也不知道它是否是單一的。如果你把大腦看作一個整體,你可以說它是單一的,但它確實有不同的功能,甚至還有負責語言的布洛卡區、視覺皮層和運動皮層,我確實不知道該如何回答這個問題。
觀眾C :嗨教授,我只想說聲謝謝。看到一位女性在這個領域發揮主導作用,這真的很鼓舞人心。作為一名研究員、教育者和企業家,我想問,您認為在 AI 迅速崛起的當下,什么樣的人適合攻讀研究生學位?
李飛飛:這是個很棒的問題,甚至連家長們都會問我這個問題。我真的覺得研究生階段的四五年是你充滿強烈好奇心的時期,你被好奇心驅使,這種好奇心如此強烈,以至于沒有比這里更好的地方能讓你去探索了。這和創業不同,因為創業你必須稍微謹慎一些,創業不能僅僅由好奇心驅動,你的投資者會對你不滿的。
創業公司擁有更明確的商業目標,其中一部分是好奇心,但又不完全是。而對于研究生階段來說,解決問題或提出恰當問題的好奇心非常重要,我認為那些帶著強烈好奇心入學的人會真正享受這四五年,即使外面的世界飛速發展,你依然會很開心,因為你在跟隨自己的好奇心前行。
觀眾D :感謝您抽出時間來和我們分享。您提到開放源代碼是 ImageNet 發展的重要因素。如今隨著LLM的發布和發展,我們看到不同組織在開源方面采取了不同的方式,有些組織完全閉源,有些組織完全公開其整個研究代碼庫,有些則處于兩者之間,比如開源模型權重或采用有一定限制的許可證等。所以我想問,您如何看待這些不同的開源方式,您認為 AI 公司進行開源的正確方式是什么?
李飛飛:我認為當存在不同的方式時,整個生態系統才是健康的。我并不偏執地認為必須開源或者必須閉源,這取決于公司的商業戰略。例如,很明顯為什么Facebook 或是 Meta 想開源,他們目前的商業模式還不是售賣模型,他們是用它來發展生態系統,從而促使人們使用他們的平臺,所以開源很有意義。
而另一家靠這個盈利的公司,甚至在盈利方面,你可以考慮設置開源版本和閉源版本,所以我對此都持開放態度。從更宏觀的層面來說,我認為開源應該得到保護,我覺得無論是公共部門,比如學術界還是私營部門的開源努力都非常重要,這對創業生態系統很重要,對公共部門也很重要,我認為應該在技術上給予保護,而不應該受到懲罰。
觀眾E :我想問個關于數據的問題,您詳細地闡述了機器學習向以數據驅動方法的轉變,就像 ImageNet 那樣。現在您在研究世界模型,您提到互聯網上沒有這種空間數據,它只存在于我們的大腦中,您是如何解決這個問題的?您押注在哪方面?是從現實世界收集這些數據,還是在生成合成數據?您是否相信合成數據,還是相信傳統的先驗知識?李飛飛:你應該加入 World Labs,我會告訴你的 。作為一家公司,我不能透露太多,但我認為重要的是承認我們正在采取一種混合方法。擁有大量數據固然重要,但擁有大量高質量的數據也同樣重要。歸根結底,如果你不注意數據質量,那還是會"輸入垃圾,輸出垃圾"。
觀眾F :在您的書《我眼中的世界》里,您談到了作為一名移民女性在理工科領域所面臨的挑戰。我很好奇,您是否有過在工作場所感覺自己是少數群體的時刻,如果有的話,您是如何克服這種情況或說服他人的?
李飛飛:感謝你的問題。我想非常謹慎和周到地回答你的問題,因為我們都來自不同的背景,每個人的感受都很獨特。你知道,其實大的類別是什么幾乎都不重要。我們每個人都有感覺自己是少數群體或者是房間里唯一異類的時刻,當然我也有過這樣的感受。有時候是因為我自身的身份,有時候是因為我的想法,有時候是因為襯衫顏色之類的。
但在這里我想鼓舞大家,可能是因為我從小就來到了這個國家,我已經接受了現實,我就是一個移民女性,我幾乎培養出了一種不過分在意這一點的能力,我和你們每個人一樣,來到這里就是為了學習、做事、創造。
真的,你們所有人,即將開啟或者正在開啟某件事的過程中,你們會有脆弱或奇怪的時刻,我每天都在感受這點,尤其是在創業的時候。有時候我就想,天哪我不知道自己在做什么。專注去做就好,用梯度下降法讓自己找到最優解。
Diana Hu:謝謝飛飛,這是個很棒的結尾。