手機(jī)版 | 網(wǎng)站導(dǎo)航
      東方科技網(wǎng) 要聞 >

      大模型“爆火”后,不妨再來點(diǎn)冷思考

      新華網(wǎng) | 2023-08-25 14:12:41

      大模型似乎沒那么“熱”了。今年6月,ChatGPT訪問量環(huán)比下滑9.7%,為其推出以來首次下滑。從全球范圍看,盡管不斷有企業(yè)發(fā)布或更新大模型,但媒體和公眾似乎沒那么“上頭”了。在昨天舉行的2023世界人工智能大會青年優(yōu)秀論文獎頒獎儀式暨青年科學(xué)家論壇上,復(fù)旦大學(xué)計算機(jī)科學(xué)技術(shù)學(xué)院教授邱錫鵬直言,雖說是“百模大戰(zhàn)”,但各家大模型之間同質(zhì)化嚴(yán)重,實(shí)質(zhì)性的創(chuàng)新比較少。事實(shí)上,大模型遠(yuǎn)未到變成一個單純的工程問題的時候,距離人們理想中的通用人工智能,其本身還有許多科學(xué)問題亟待解決。

      “百模大戰(zhàn)”其實(shí)是“一張臉”


      (資料圖片僅供參考)

      “大模型還有科學(xué)價值嗎?”邱錫鵬在開場白中似乎就給大模型澆了一盆冷水。大模型的爆火并非偶然,是幾十年科研不斷推進(jìn)的結(jié)果,但在ChatGPT爆火后,一個明顯的變化是這一領(lǐng)域中科學(xué)進(jìn)步少了,大家都寄希望于通過工程手段“大力出奇跡”。

      比如,現(xiàn)在幾乎所有的大模型預(yù)訓(xùn)練都基于Transformer架構(gòu),這固然是一個非常好用的架構(gòu),但其弊端也愈發(fā)顯現(xiàn),它所耗費(fèi)的計算資源非常龐大,需要超級算力的支撐。

      另外,生成范式成為主流,這使得想要使用大模型,就必須將自己的任務(wù)變成生成式的,即便是那些非常復(fù)雜的結(jié)構(gòu)化預(yù)測問題也都要用生成式方法解決。甚至,連生成式范式也在趨向統(tǒng)一,原先還有Seq2Seq(一種用于序列到序列的深度學(xué)習(xí)模型)和LM(語言模型)兩大類,現(xiàn)在只剩下后者。

      而且,研究領(lǐng)域也在萎縮。邱錫鵬說,以自然語言處理(NLP)為例,2015年之前,這個領(lǐng)域還有多個不同方向,比如對話、問答、機(jī)器翻譯等,那時的學(xué)者各自有著自己的研究,并從別的研究領(lǐng)域中獲得靈感,而現(xiàn)在大家都涌向大語言模型這條單一賽道。

      大模型面臨“十大科學(xué)挑戰(zhàn)”

      盡管大模型展現(xiàn)出通往通用人工智能的潛力,但這條路并不好走。邱錫鵬列出了大模型亟需解決的“十大科學(xué)挑戰(zhàn)”,包括架構(gòu)設(shè)計、思維鏈、幻覺、多模態(tài)延展、自動化評價、平民化等。其中,大模型的架構(gòu)創(chuàng)新是當(dāng)務(wù)之急。邱錫鵬說,大模型之所以稱為大模型,是因?yàn)槠潺嫶蟮臄?shù)據(jù)量使其擁有了涌現(xiàn)的能力,雖然人們至今不知道涌現(xiàn)是如何發(fā)生的,但是否有涌現(xiàn)是區(qū)別大模型與小模型的主要特征。換言之,想要大模型更智能,繼續(xù)擴(kuò)大其規(guī)模是一條顯而易見的路。

      但是,當(dāng)下主流的Transformer架構(gòu)已經(jīng)制約了模型的進(jìn)一步擴(kuò)大。這是因?yàn)門ransformer的復(fù)雜度是輸入字符長度的平方級,每多輸入一個字符,計算量就會以指數(shù)級增長。因此,“只有找到更高效的新架構(gòu),才能支持未來模型規(guī)模的進(jìn)一步擴(kuò)張。”

      另一個對大模型發(fā)展至關(guān)重要的問題是評價體系。盡管當(dāng)下有許多測評大模型優(yōu)劣的榜單,但業(yè)內(nèi)對此并沒有形成統(tǒng)一標(biāo)準(zhǔn)。而且對于擅長“刷題”的大模型來說,很多數(shù)據(jù)集上的表現(xiàn)已不足以衡量其真實(shí)能力。

      顛覆性創(chuàng)新常在“冷門”處

      深入研究創(chuàng)新規(guī)律不難發(fā)現(xiàn),越是扎堆的“熱門”圈子,往往難出顛覆性創(chuàng)新成果,ChatGPT本身就是個“冷門選手”爆火的案例。在其火遍全球之前,在大語言模型領(lǐng)域,谷歌的“理解與生成相結(jié)合”的路線是絕對的主流,在這種情況下,研發(fā)ChatGPT的OpenAI公司仍然選擇堅持走自己的路。

      現(xiàn)在,原本默默無聞的生成式AI成為了“頂流”。當(dāng)人們一哄而上投入其中時,仍有一部分人還在堅持以IBM沃森機(jī)器人為代表的“AI符號主義”技術(shù)路線。以“爆款”常偏愛“冷門”的創(chuàng)新規(guī)律來看,或許未來的“核爆點(diǎn)”會獎勵默默堅持的“少數(shù)派”。

      事實(shí)上,獲得今年世界人工智能大會最高獎項(xiàng)SAIL獎(卓越人工智能引領(lǐng)者獎)的論文《機(jī)器學(xué)習(xí)結(jié)合阻抗譜技術(shù)預(yù)測鋰電池老化》,就不是一個關(guān)于大模型的研究。文章作者、中山大學(xué)物理學(xué)院副教授張云蔚說,她只采集了2萬個電化學(xué)阻抗譜,就實(shí)現(xiàn)了AI精準(zhǔn)建模。比起海量數(shù)據(jù),更重要的是思路。就是這樣一個小模型,將過去需要花費(fèi)幾天才能實(shí)現(xiàn)的電池壽命預(yù)測縮短到了15分鐘,且檢測精度是原來的10倍。

      在大模型爆火的半年多時間里,大家似乎形成了一種共識,即只有資金雄厚和數(shù)據(jù)儲備充足的大廠才有進(jìn)軍大模型的資格。對此,邱錫鵬認(rèn)為,大模型還有大量科學(xué)問題需要攻關(guān),這些問題除了預(yù)訓(xùn)練階段需要耗費(fèi)大算力外,在對齊、指令微調(diào)等方面所需的算力并不高。而隨著算法的優(yōu)化,3090顯卡足以能完成大模型的研究,這是一條小公司也能“出奇跡”的賽道。(記者 沈湫莎)

      關(guān)鍵詞:

      相關(guān)推薦

      媒體焦點(diǎn)