91精品国产自产在线观看永久_香蕉久久一区二区不卡无毒影院_91视频国产精品_日韩成人高清在线_久久久久久久久久久久久女国产乱 _亚洲欧美日韩国产一区二区三区_99久久精品免费看_亚洲影视九九影院在线观看_久久精品国产亚洲_成人a级免费视频

首頁 > 綜合 > 正文

AI考公考編指日可待!微軟華人團(tuán)隊發(fā)布全新基準(zhǔn)AGIEval,專為人類考試而生

2023-05-11 17:23:47來源:面包芯語  

點擊上方↑↑↑“OpenCV學(xué)堂”關(guān)注我

來源:公眾號新智元授權(quán)

近年來,大型基礎(chǔ)模型如GPT-4在各個領(lǐng)域已經(jīng)表現(xiàn)出非常強(qiáng)大的能力,可以輔助人類處理日常事件,甚至還能在法律、醫(yī)學(xué)和金融等專業(yè)領(lǐng)域提供決策建議。


(相關(guān)資料圖)

也就是說,人工智能系統(tǒng)正逐步接近并實現(xiàn)通用人工智能(AGI)。

但隨著AI逐步融入日常生活,如何評估模型以人為本的泛化能力,識別潛在的缺陷,并確保它們能夠有效地處理復(fù)雜的、以人為本的任務(wù),以及評估推理能力確保在不同環(huán)境下的可靠性和可信度是至關(guān)重要的。

研究人員構(gòu)造AGIEval數(shù)據(jù)集主要遵循兩個設(shè)計原則:

1. 強(qiáng)調(diào)人腦級別的認(rèn)知任務(wù)

設(shè)計「以人為本」的主要目標(biāo)是以與人類認(rèn)知和解決問題密切相關(guān)的任務(wù)為中心,并以一種更有意義和全面的方式評估基礎(chǔ)模型的泛化能力。

為了實現(xiàn)這一目標(biāo),研究人員選擇了各種官方的、公開的、高標(biāo)準(zhǔn)的招生和資格考試,以滿足一般人類應(yīng)試者的需要,包括大學(xué)入學(xué)考試、法學(xué)院入學(xué)考試、數(shù)學(xué)考試、律師資格考試和國家公務(wù)員考試,每年都有數(shù)百萬尋求進(jìn)入高等教育或新職業(yè)道路的人參加這些考試。

通過遵守這些官方認(rèn)可的評估人類水平能力的標(biāo)準(zhǔn),AGIEval可以確保對模型性能的評估與人類決策和認(rèn)知能力直接相關(guān)。

2. 與現(xiàn)實世界場景的相關(guān)性

通過選擇來自高標(biāo)準(zhǔn)的入學(xué)考試和資格考試的任務(wù),可以確保評估結(jié)果能夠反映個人在不同領(lǐng)域和背景下經(jīng)常遇到的挑戰(zhàn)的復(fù)雜性和實用性。

這種方法不僅可以衡量模型在人類認(rèn)知能力方面的表現(xiàn),而且可以更好地了解在現(xiàn)實生活中的適用性和有效性,即有助于開發(fā)出更可靠、更實用、更適合于解決廣泛的現(xiàn)實世界問題的人工智能系統(tǒng)。

根據(jù)上述設(shè)計原則,研究人員選擇了多種標(biāo)準(zhǔn)化的高質(zhì)量考試,強(qiáng)調(diào)人類水平的推理和現(xiàn)實世界的相關(guān)性,具體包括:

1. 普通高校入學(xué)考試

大學(xué)入學(xué)考試包含各種科目,需要批判性思維、解決問題和分析能力,是評估大型語言模型與人類認(rèn)知相關(guān)性能的理想選擇。

具體包括研究生入學(xué)考試(GRE),學(xué)術(shù)評估考試(SAT)和中國高考(Gaokao),可以評估尋求進(jìn)入高等教育機(jī)構(gòu)的學(xué)生的一般能力和特定學(xué)科知識。

數(shù)據(jù)集中收集了與中國高考8個科目對應(yīng)的考試:歷史、數(shù)學(xué)、英語、中文、地理、生物、化學(xué)和物理;從GRE中選擇數(shù)學(xué)題;從SAT中選擇英語和數(shù)學(xué)科目來構(gòu)建基準(zhǔn)數(shù)據(jù)集。

2. 法學(xué)院入學(xué)考試

法學(xué)院入學(xué)考試,如LSAT,旨在衡量未來的法律學(xué)生的推理和分析能力,考試內(nèi)容包括邏輯推理、閱讀理解和分析推理等部分,需要應(yīng)試者分析復(fù)雜信息和得出準(zhǔn)確結(jié)論的能力,這些任務(wù)可以評估語言模型在法律推理和分析方面的能力。

3. 律師資格考試

可以評估追求法律職業(yè)的個人的法律知識、分析能力和道德理解,考試內(nèi)容涵蓋了廣泛的法律主題,包括憲法、合同法、刑法和財產(chǎn)法,并要求考生展示他們有效應(yīng)用法律原則和推理的能力,可以在專業(yè)法律知識和道德判斷的背景下評估語言模型的表現(xiàn)。

4. 研究生管理入學(xué)考試(GMAT)

GMAT是一個標(biāo)準(zhǔn)化的考試,可以評估未來商學(xué)院研究生的分析、定量、言語和綜合推理能力,由分析性寫作評估、綜合推理、定量推理和言語推理等部分組成,評估應(yīng)試者的批判性思考、分析數(shù)據(jù)和有效溝通的能力。

5. 高中數(shù)學(xué)競賽

這些比賽涵蓋了廣泛的數(shù)學(xué)主題,包括數(shù)論、代數(shù)、幾何和組合學(xué),并且經(jīng)常出現(xiàn)一些非常規(guī)的問題,需要用創(chuàng)造性的方法來解決。

具體包括美國數(shù)學(xué)競賽(AMC)和美國數(shù)學(xué)邀請考試(AIME),可以測試學(xué)生的數(shù)學(xué)能力、創(chuàng)造力和解決問題的能力,能夠進(jìn)一步評估語言模型處理復(fù)雜和創(chuàng)造性數(shù)學(xué)問題的能力,以及模型生成新穎解決方案的能力。

6. 國內(nèi)公務(wù)員考試

可以評估尋求進(jìn)入公務(wù)員隊伍的個人的能力和技能,考試內(nèi)容包括評估一般知識、推理能力、語言技能,以及與中國各種公務(wù)員職位的角色和職責(zé)有關(guān)的特定科目的專業(yè)知識,可以衡量語言模型在公共管理背景下的表現(xiàn),以及他們對政策制定、決策和公共服務(wù)提供過程的潛力。

選擇的模型包括:

ChatGPT,由OpenAI開發(fā)的對話式人工智能模型,可以參與用戶互動和動態(tài)對話,使用龐大的指令數(shù)據(jù)集進(jìn)行訓(xùn)練,并通過強(qiáng)化學(xué)習(xí)與人類反饋(RLHF)進(jìn)一步調(diào)整,使其能夠提供與人類期望相一致的上下文相關(guān)和連貫的回復(fù)。

GPT-4,作為第四代GPT模型,包含范圍更廣的知識庫,在許多應(yīng)用場景中都表現(xiàn)出人類水平的性能。GPT-4利用對抗性測試和ChatGPT進(jìn)行了反復(fù)調(diào)整,從而在事實性、可引導(dǎo)性和對規(guī)則的遵守方面有了明顯的改進(jìn)。

Text-Davinci-003是GPT-3和GPT-4之間的一個中間版本,通過指令微調(diào)后比GPT-3的性能更好。

除此之外,實驗中還報告了人類應(yīng)試者的平均成績和最高成績,作為每個任務(wù)的人類水平界限,但并不能完全代表人類可能擁有的技能和知識范圍。

Zero-shot/Few-shot評估

在零樣本的設(shè)置下,模型直接對問題進(jìn)行評估;在少樣本任務(wù)中,在對測試樣本進(jìn)行評估之前,先輸入同一任務(wù)中的少量例子(如5個)。

為了進(jìn)一步測試模型的推理能力,實驗中還引入思維鏈(CoT)提示,即先輸入提示「Let’s think step by step」為給定的問題生成解釋,然后輸入提示「Explanation is」根據(jù)解釋生成最終的答案。

基準(zhǔn)中的「多選題」使用標(biāo)準(zhǔn)分類準(zhǔn)確率;「填空題」使用精確匹配(EM)和F1指標(biāo)。

從實驗結(jié)果中可以發(fā)現(xiàn):

1.GPT-4在所有任務(wù)設(shè)置下都明顯優(yōu)于其同類產(chǎn)品,其中在Gaokao-English上更是取得了93.8%的準(zhǔn)確率,在SAT-MATH上取得了95%的準(zhǔn)確率,表明GPT-4在處理以人為本的任務(wù)方面具有卓越的通用能力。

2.ChatGPT在需要外部知識的任務(wù)中明顯優(yōu)于Text-Davinci-003,例如涉及地理、生物、化學(xué)、物理和數(shù)學(xué)的任務(wù),表明ChatGPT擁有更強(qiáng)大的知識基礎(chǔ),能夠更好地處理那些需要對特定領(lǐng)域有深刻理解的任務(wù)。

另一方面,ChatGPT在所有評估設(shè)置中,在需要純粹理解和不嚴(yán)重依賴外部知識的任務(wù)中,如英語和LSAT任務(wù),略微優(yōu)于Text-Davinci-003,或取得相當(dāng)?shù)慕Y(jié)果。這一觀察結(jié)果意味著,這兩個模型都能夠處理以語言理解和邏輯推理為中心的任務(wù),而不需要專門的領(lǐng)域知識。

3. 盡管這些模型的總體表現(xiàn)不錯,但所有的語言模型都在復(fù)雜的推理任務(wù)中表現(xiàn)不佳,比如MATH、LSAT-AR、GK-physics和GK-Math,突出了這些模型在處理需要高級推理和解決問題技能的任務(wù)方面的局限性。

觀察到的處理復(fù)雜推理問題的困難為未來的研究和開發(fā)提供了機(jī)會,目的是提高模型的一般推理能力。

4. 與zero-shot學(xué)習(xí)相比,few-shot學(xué)習(xí)通常只能帶來有限的性能改善,表明目前大型語言模型的zero-shot學(xué)習(xí)能力正在接近few-shot學(xué)習(xí)能力,也標(biāo)志著與最初的GPT-3模型相比有了很大的進(jìn)步,當(dāng)時few-shot性能要比zero-shot好得多。

對這一發(fā)展的一個合理解釋是,在目前的語言模型中加強(qiáng)了人類的調(diào)整和指令的調(diào)整,這些改進(jìn)使模型能夠提前更好地理解任務(wù)的含義和背景,從而使它們即使在zero-shot的情況下也能有良好的表現(xiàn),證明了指令的有效性。

標(biāo)簽:

相關(guān)閱讀

精彩推薦

相關(guān)詞

推薦閱讀

91精品国产自产在线观看永久_香蕉久久一区二区不卡无毒影院_91视频国产精品_日韩成人高清在线_久久久久久久久久久久久女国产乱 _亚洲欧美日韩国产一区二区三区_99久久精品免费看_亚洲影视九九影院在线观看_久久精品国产亚洲_成人a级免费视频
国产精品国产三级国产| 亚洲精品菠萝久久久久久久| 国产美女一区二区| 国产a视频精品免费观看| 欧美三级三级三级爽爽爽| 亚洲婷婷综合色高清在线| 97久久超碰精品国产| www久久久久| 91国内精品野花午夜精品| 中文字幕制服丝袜成人av| 91黄色免费网站| 麻豆精品国产传媒mv男同 | 欧美一区二区在线看| 亚洲精品精品亚洲| 亚洲444eee在线观看| 日韩欧美国产1| 国产一区二区三区国产| 一区二区不卡在线播放| 日韩欧美中文字幕精品| 日韩电影在线观看电影| 日韩一区二区三区视频| 不卡在线视频中文字幕| 蜜臀av一区二区在线免费观看| 欧美人伦禁忌dvd放荡欲情| 久久99精品一区二区三区三区| 欧美精品一区二区三区高清aⅴ | 在线观看精品一区| 亚洲欧美色一区| 一区二区三区在线免费视频| 久久久国产精品午夜一区ai换脸| 久久日一线二线三线suv| 精品国产免费一区二区三区香蕉| 国产精品色婷婷| 亚洲一区日韩精品中文字幕| 久久综合九色综合欧美亚洲| 日韩欧美视频一区| 欧美系列在线观看| 51精品视频一区二区三区| 91精品国产91久久综合桃花| 91精品国产入口在线| 欧美一区中文字幕| 亚洲免费在线视频一区 二区| 亚洲视频香蕉人妖| 久久97超碰国产精品超碰| 国产福利一区在线| 欧美影视一区二区三区| 精品国精品国产| 日本sm残虐另类| 在线观看日韩毛片| 国产精品嫩草影院com| 亚洲成av人片一区二区梦乃| 国产精品自拍av| 国产婷婷精品av在线| 99国产精品国产精品毛片| 中文字幕亚洲欧美在线不卡| 亚洲国产美国国产综合一区二区| 91福利资源站| 久久综合色一综合色88| 亚洲成av人片在线| 91免费看片在线观看| 婷婷丁香激情综合| 99综合电影在线视频| 色婷婷国产精品综合在线观看| 国产欧美一区二区精品婷婷| 欧美视频中文一区二区三区在线观看 | 麻豆国产精品777777在线| 91视频观看视频| 国产精品久久久久久久久免费樱桃| 日韩网站在线看片你懂的| 精品一区二区在线视频| 欧美视频在线观看一区| 国产成人自拍高清视频在线免费播放| 久久精品一区二区| 日韩欧美高清dvd碟片| 99精品国产99久久久久久白柏 | 日韩欧美成人一区| 高清av一区二区| 视频一区欧美精品| 中文字幕不卡的av| 91视视频在线观看入口直接观看www| 欧美tickling网站挠脚心| 国产激情一区二区三区| 亚洲另类春色校园小说| 欧美一级二级三级乱码| 国产高清成人在线| 久久久噜噜噜久久中文字幕色伊伊| 一区二区三区四区高清精品免费观看| 成人app网站| 欧美二区在线观看| 国产精品欧美极品| 国产毛片精品视频| 国产麻豆精品在线| 欧美日韩午夜影院| 538prom精品视频线放| 欧美精品tushy高清| 色老综合老女人久久久| 国产麻豆视频一区| 黄网站免费久久| 日精品一区二区| 国产精品国产自产拍在线| 亚洲第一av色| 韩国精品久久久| 欧美另类久久久品| 亚洲毛片av在线| 91成人免费网站| 亚洲靠逼com| 韩国精品一区二区| 91传媒视频在线播放| 成人高清视频免费观看| 在线视频综合导航| 欧美另类z0zxhd电影| 国产精品91一区二区| 日韩精品成人一区二区在线| 国产精品88av| 91精品国产综合久久小美女| 亚洲国产成人av网| 欧美亚洲国产一区二区三区va| 中文字幕av资源一区| 欧美最猛性xxxxx直播| 久久国产生活片100| 国产精品久久久久婷婷| 精品一区二区三区影院在线午夜| 欧美精品久久一区| 色哟哟亚洲精品| 日本一区中文字幕| 91精品国产全国免费观看| 国内成+人亚洲+欧美+综合在线 | 亚洲一区二区三区在线播放| 亚洲大片免费看| 成人免费一区二区三区在线观看| 精品视频一区二区不卡| 日韩av电影免费观看高清完整版在线观看| 国产精品网站在线播放| 日韩视频免费观看高清完整版| 91首页免费视频| 国产综合色视频| 午夜免费欧美电影| 国产日产亚洲精品系列| 午夜激情综合网| 日韩伦理av电影| 欧美国产激情二区三区| www.一区二区| 欧美一区在线视频| 色综合天天综合网国产成人综合天| 亚洲成人黄色小说| 韩国成人精品a∨在线观看| 日本视频一区二区三区| 国产高清精品网站| 卡一卡二国产精品 | 欧美在线视频日韩| 亚洲手机成人高清视频| 色婷婷久久久久swag精品| 国产精品麻豆久久久| 欧美激情一区在线| 亚洲人亚洲人成电影网站色| 日韩精品国产欧美| 欧美性一区二区| 国产精品你懂的| 成人一区二区三区视频 | www.久久久久久久久| 色综合中文字幕| 日韩精品影音先锋| 亚洲乱码国产乱码精品精小说| 欧美日韩色一区| 亚洲少妇30p| 91久久一区二区| 精品国产sm最大网站免费看| 成人av资源站| 午夜精品久久一牛影视| 精东粉嫩av免费一区二区三区| 精品国产免费人成在线观看| 欧美日韩一卡二卡三卡| 在线综合视频播放| 亚洲地区一二三色| 一本久久精品一区二区| 5566中文字幕一区二区电影| 国产精品色一区二区三区| 久久精品国产第一区二区三区| 欧美日本一区二区三区四区| 久久青草国产手机看片福利盒子 | 欧美精品一区二区三区视频| 综合久久综合久久| 国产精品一级黄| 国产三级欧美三级日产三级99 | 国产在线视频一区二区三区| 色婷婷久久综合| 亚洲少妇中出一区| 欧美视频在线一区二区三区| 依依成人综合视频| 欧美一区二区三区白人| 麻豆精品国产传媒mv男同| 精品少妇一区二区三区在线播放 | 色综合天天综合网国产成人综合天 | 欧美日韩不卡在线| 国产成人av影院| 一区二区欧美在线观看| 久久这里只有精品首页| 94-欧美-setu| 久久av中文字幕片| 亚洲国产日韩a在线播放|