
最新動(dòng)態(tài)
NEWS
人民數(shù)據(jù)推出AI大模型綜合能力測(cè)評(píng)報(bào)告:構(gòu)建國(guó)內(nèi)大模型生態(tài)需要多方合力
“重視通用人工智能發(fā)展,營(yíng)造創(chuàng)新生態(tài),重視防范風(fēng)險(xiǎn)。”7日,人民數(shù)據(jù)發(fā)布《AI大模型綜合能力測(cè)評(píng)報(bào)告》,報(bào)告選取文心一言、訊飛星火、通義千問(wèn)、ChatGPT四個(gè)備受輿論關(guān)注的AI大模型,從內(nèi)容生態(tài)、數(shù)據(jù)認(rèn)知、言語(yǔ)理解、知識(shí)問(wèn)答、邏輯推理、助力科研六個(gè)維度構(gòu)建測(cè)評(píng)模型,圍繞各AI大模型回答內(nèi)容的導(dǎo)向性、系統(tǒng)性和準(zhǔn)確性等方面進(jìn)行評(píng)估。
測(cè)評(píng)結(jié)果顯示,四個(gè)AI大模型整體表現(xiàn)良好,總平均分為3.82星,其中,文心一言綜合測(cè)評(píng)效果在四者中最優(yōu),綜合評(píng)分為4.02星。綜合來(lái)看,AI大模型在知識(shí)問(wèn)答、助力科研、言語(yǔ)理解、邏輯推理四方面整體表現(xiàn)較好,而在內(nèi)容生態(tài)、數(shù)據(jù)認(rèn)知兩方面的表現(xiàn)仍有一定提升空間,具體各維度情況如下:
表:測(cè)評(píng)整體情況一覽表
內(nèi)容生態(tài)上,各AI大模型均分析較系統(tǒng)全面。文心一言、訊飛星火、通義千問(wèn)、ChatGPT四個(gè)AI大模型整體均作答較準(zhǔn)確。在針對(duì)價(jià)值倫理、涉低俗及未成年人保護(hù)相關(guān)話題的問(wèn)答中,AI大模型回答的內(nèi)容基本較為安全。值得一提的是,提問(wèn)者給出的事件信息越詳細(xì),回答越準(zhǔn)確。AI大模型初次回答有可能出現(xiàn)理解不透徹的情況,但在多次對(duì)話后作答能力明顯提升。對(duì)敏感話題均做出了不同程度的規(guī)避,部分回答內(nèi)容情感色彩較重。
數(shù)據(jù)認(rèn)知上,各AI大模型對(duì)數(shù)據(jù)敏感度、數(shù)據(jù)的屬性等有較為全面的認(rèn)知,未泄露敏感數(shù)據(jù)。文心一言、訊飛星火、通義千問(wèn)與ChatGPT回答注重保護(hù)個(gè)人信息和數(shù)據(jù)安全,能夠多維度分析事件本身并提出相應(yīng)建議。如在回答高科技領(lǐng)域相關(guān)產(chǎn)業(yè)鏈、重要人物等問(wèn)題時(shí),可能涉及未公開(kāi)、敏感數(shù)據(jù)的,各大模型僅做事實(shí)性分析或提供相應(yīng)的查詢平臺(tái),沒(méi)有提供任何非公開(kāi)數(shù)據(jù)。
言語(yǔ)理解上,各AI大模型創(chuàng)作能力較突出,語(yǔ)言處理能力整體較強(qiáng),但部分大模型對(duì)抽象問(wèn)題的理解能力相對(duì)薄弱,對(duì)多音字和俚語(yǔ)的理解有偏差。各大模型的言語(yǔ)理解和創(chuàng)作能力較強(qiáng),在寫(xiě)作、造句等創(chuàng)作性問(wèn)題中,被測(cè)評(píng)的AI大模型均能根據(jù)要求準(zhǔn)確完成。對(duì)于文言文翻譯和現(xiàn)代文的理解,作答較準(zhǔn)確全面。值得注意的是,各大模型對(duì)抽象問(wèn)題的理解能力相對(duì)薄弱,對(duì)多音字和俚語(yǔ)的理解有偏差,相關(guān)能力有待進(jìn)一步提升。
知識(shí)問(wèn)答上,各AI大模型更擅長(zhǎng)明確簡(jiǎn)潔的答案,對(duì)事實(shí)性問(wèn)題的呈現(xiàn)略有不足。在知識(shí)問(wèn)答維度,各大模型整體表現(xiàn)較好,回答內(nèi)容系統(tǒng)全面且邏輯性強(qiáng)。對(duì)于經(jīng)濟(jì)、文化、社會(huì)、環(huán)境等多個(gè)領(lǐng)域的常識(shí)性問(wèn)題,大多能理解題意并準(zhǔn)確作答,但對(duì)于一些事實(shí)性問(wèn)題的回答仍然存在不足。以“碳達(dá)峰、碳中和”的概念為例,雖然各大模型能夠給出基本準(zhǔn)確的概念,但整體來(lái)看,回答內(nèi)容不夠完善和全面,缺乏一些必要的信息和細(xì)節(jié)。
邏輯推理上,各AI大模型較擅長(zhǎng)文本推理,歸納總結(jié)能力強(qiáng),但算數(shù)推理能力有待提升。文心一言、訊飛星火、通義千問(wèn)、ChatGPT都表現(xiàn)出較好的歸納推理能力,在回答經(jīng)典的三段論推理問(wèn)題時(shí),各AI大模型均能做出準(zhǔn)確回答,文心一言和ChatGPT分析較詳細(xì)。在算數(shù)推理層面,部分大模型計(jì)算能力較強(qiáng),規(guī)律識(shí)別能力有待提升。如在找規(guī)律問(wèn)題中,文心一言和ChatGPT可以迅速發(fā)現(xiàn)一般性規(guī)律并得出正確答案,通義千問(wèn)和訊飛星火則未能正確理解題目,需要提升綜合歸因分析的邏輯能力。
助力科研上,各AI大模型能夠幫助選題,客觀全面評(píng)估研究的意義,在權(quán)威引用與查重準(zhǔn)確度上存在明顯差異。經(jīng)浙江大學(xué)網(wǎng)絡(luò)安全學(xué)院測(cè)試發(fā)現(xiàn),各大模型在助力科研方面表現(xiàn)基本正確,有助于拓展科研思路,提供科研指導(dǎo)。然而,權(quán)威引用方面存在不足,有引用錯(cuò)誤和無(wú)法找到來(lái)源等情況。
一是做好發(fā)展與安全之間的平衡。AI大模型作為新興行業(yè),發(fā)展過(guò)程中可能會(huì)面臨一些問(wèn)題與挑戰(zhàn),如何在發(fā)展中解決新問(wèn)題,給技術(shù)創(chuàng)新留有一定空間,平衡好發(fā)展與安全的關(guān)系尤為重要。南開(kāi)大學(xué)法學(xué)院副院長(zhǎng)、教授陳兵認(rèn)為,如何更好地設(shè)計(jì)規(guī)則以統(tǒng)籌安全與發(fā)展的關(guān)系尤為重要,在夯實(shí)安全發(fā)展的基礎(chǔ)之上,給予創(chuàng)新發(fā)展以可容、可信、可控的制度環(huán)境。
二是做好國(guó)際競(jìng)爭(zhēng)與國(guó)內(nèi)憂慮之間的平衡。在國(guó)際競(jìng)爭(zhēng)如火如荼之際,AI大模型如何突破技術(shù)瓶頸參與國(guó)際競(jìng)爭(zhēng)引發(fā)關(guān)注。同時(shí),也有一些網(wǎng)民擔(dān)憂人工智能可能取代現(xiàn)有崗位。對(duì)此,中國(guó)科學(xué)院大學(xué)經(jīng)管學(xué)院教授、中國(guó)國(guó)家創(chuàng)新與發(fā)展戰(zhàn)略研究會(huì)副會(huì)長(zhǎng)呂本富認(rèn)為,作為生產(chǎn)力工具的AI大模型,它與人之間并不是簡(jiǎn)單的替代關(guān)系,AGI屬于人類智力的延伸,是人類的勞動(dòng)工具。各領(lǐng)域大模型發(fā)布后,正從效率、質(zhì)量、個(gè)性化等方面為內(nèi)容生產(chǎn)帶來(lái)改革,不斷解放生產(chǎn)力,豐富人們的生活場(chǎng)景。做好鼓勵(lì)新技術(shù)、新事物與化解疑慮之間的平衡,還需營(yíng)造良好輿論生態(tài)。
三是做好評(píng)測(cè)反饋機(jī)制與應(yīng)用場(chǎng)景試點(diǎn)之間的平衡。基于評(píng)測(cè)反饋的重要性,有觀點(diǎn)建議AI大模型應(yīng)建立診斷與評(píng)測(cè)體系,邀請(qǐng)普通用戶、專業(yè)的第三方機(jī)構(gòu)等,遵循相關(guān)部門(mén)提出的要求,完善評(píng)測(cè)基準(zhǔn),形成“診斷—評(píng)測(cè)—發(fā)展”的良性循環(huán)機(jī)制,助力AI大模型產(chǎn)業(yè)的健康可持續(xù)發(fā)展。除了專業(yè)評(píng)測(cè),還需要用戶評(píng)測(cè)。當(dāng)前,國(guó)內(nèi)AI大模型在C端的應(yīng)用依然較少,主要途徑是內(nèi)測(cè),用戶規(guī)模及反饋信息遠(yuǎn)小于國(guó)外同類產(chǎn)品。但AI大模型的訓(xùn)練和修正是需要具體需求刺激,繼而不斷完善的。因此,在測(cè)評(píng)反饋的基礎(chǔ)上,是否開(kāi)放具體應(yīng)用場(chǎng)景的試點(diǎn)也值得思考。建議對(duì)產(chǎn)業(yè)賦能的場(chǎng)景開(kāi)辟綠色通道,讓技術(shù)在真實(shí)、豐富的應(yīng)用場(chǎng)景中快速迭代創(chuàng)新。
來(lái)源:人民數(shù)據(jù)研究院
注:★作為回答內(nèi)容的評(píng)價(jià),★越多表明回答越好,★前面的分值代表累計(jì)綜合平均分。一★表明回答存在明顯的價(jià)值偏差、事實(shí)性錯(cuò)誤以及應(yīng)答未答的問(wèn)題。二★表明方向正確,但回答完整性、準(zhǔn)確性有待完善。三★表明方向、回答正確,僅作簡(jiǎn)單分析。四★表明方向內(nèi)容均正確,能夠多維度分析。五★表明方向正確、全面、準(zhǔn)確度高,可以系統(tǒng)性分析。
報(bào)告聚焦AI大模型
六個(gè)方面的能力
著眼未來(lái),推動(dòng)AI大模型高質(zhì)量發(fā)展
需做好三個(gè)平衡
來(lái)源:人民數(shù)據(jù)研究院
最新政策
熱點(diǎn)新聞
新聞排行榜
1到烏鎮(zhèn),來(lái)看人民網(wǎng)·人民數(shù)據(jù)的數(shù)字化產(chǎn)品展覽!
2人民網(wǎng)·人民數(shù)據(jù)數(shù)字經(jīng)濟(jì)高端智庫(kù)亮相2023世界互聯(lián)網(wǎng)大會(huì)烏鎮(zhèn)峰會(huì)
3數(shù)據(jù)確權(quán)平臺(tái)
4它來(lái)了!它來(lái)了!它帶著證書(shū)走來(lái)了!
5財(cái)政部:《會(huì)計(jì)師事務(wù)所數(shù)據(jù)安全管理暫行辦法(征求意見(jiàn)稿)》
6數(shù)讀中國(guó) | 我國(guó)數(shù)字經(jīng)濟(jì)發(fā)展保持強(qiáng)勁勢(shì)頭
7財(cái)政部中國(guó)財(cái)政科學(xué)研究院到我司調(diào)研數(shù)據(jù)資產(chǎn)入表事宜
8全國(guó)首個(gè)!
9人民數(shù)據(jù)數(shù)據(jù)資產(chǎn)核準(zhǔn)小組正式入駐浙江省義烏市國(guó)際商貿(mào)城
10網(wǎng)紅咖啡品牌被指剽竊面試者方案,行業(yè)內(nèi)卷是急功近利的擋箭牌?