AI參加高考，為何偏科嚴(yán)重

2024-07-04 10:57:12來源：科技日?qǐng)?bào)

大模型參加高考，能考多少分？近日，科技創(chuàng)新交流平臺(tái)極客公園發(fā)布高考新課標(biāo)Ⅰ卷大模型評(píng)測(cè)報(bào)告，在參試大模型中，GPT-4o以562分的成績(jī)排名文科第一。參加評(píng)測(cè)的8款國產(chǎn)大模型中，字節(jié)跳動(dòng)旗下的豆包成績(jī)是542.5分，其后依次是百度文心一言4.0的537.5分和百川智能“百小應(yīng)”的521分。本次大模型高考評(píng)測(cè)與河南省考卷完全相同，以上3款國產(chǎn)大模型均超過河南文科一本線521分。GPT-4o的562分在河南文科考生中可排名8811名，相當(dāng)于前2.45%；豆包處于前4.27%，接近頂尖大模型的水平。

文綜評(píng)測(cè)中，GPT-4o獲237分，優(yōu)于多數(shù)人類考生。國產(chǎn)大模型中，豆包文綜成績(jī)最高，得分224.5分，其中歷史達(dá)到82.5分，在所有9款大模型中排第一。地理考卷有大量圖片考題，圖像理解能力較強(qiáng)的GPT-4o得到最高分，但僅有68分。

語文、英語評(píng)測(cè)中，多家大模型在客觀題上拿滿分。但寫作文是弱項(xiàng)。多次參加全國高考語文閱卷的北京市級(jí)骨干教師、懷柔區(qū)語文學(xué)科帶頭人夏老師是本次評(píng)測(cè)的作文閱卷人。她認(rèn)為，“AI作文有清晰完整的結(jié)構(gòu)，有邏輯性，語言通順流暢，但缺乏感情和感染力”。同理，在40分的英語寫作考試中，大模型的最高分只有29分，主要丟分在表達(dá)空泛、缺少細(xì)節(jié)上。

值得注意的是，大模型高考呈現(xiàn)出嚴(yán)重的偏科現(xiàn)象：數(shù)學(xué)、物理、化學(xué)等數(shù)理學(xué)科全線不及格，總分最高分不到480。而河南理科一本線是511分。最頂尖的大模型無法進(jìn)入理科考生的前30%。

數(shù)學(xué)評(píng)測(cè)中，僅GPT-4o、文心一言4.0和豆包獲得60分以上成績(jī)（滿分150分）。大模型能準(zhǔn)確運(yùn)用求導(dǎo)公式和三角函數(shù)定理，但面對(duì)較為復(fù)雜的推導(dǎo)和證明問題就很難得分。物理有一道送分的選擇題，人類考生根據(jù)“時(shí)間不會(huì)倒流”可以輕易選對(duì)答案，大模型則全軍覆沒。

“目前的大語言模型本質(zhì)上是文字接龍，基于海量資料，預(yù)測(cè)下一個(gè)最可能出現(xiàn)的詞句。通過不斷預(yù)測(cè)，生成連貫和完整的文本。應(yīng)對(duì)文科考試，大模型的用詞不準(zhǔn)或用了近義詞，不太影響評(píng)分。但理科考試考驗(yàn)推理和計(jì)算，比如一道題有五步推理，大模型走偏一步，答案就全錯(cuò)。而且大模型的訓(xùn)練數(shù)據(jù)中，文科語料要遠(yuǎn)遠(yuǎn)大于理科語料。”國內(nèi)一位大模型研發(fā)專家告訴科技日?qǐng)?bào)記者。

近期，有一些國內(nèi)外大模型在奧數(shù)題評(píng)測(cè)（非奧數(shù)現(xiàn)場(chǎng)比賽）上拿到不錯(cuò)的成績(jī)。對(duì)此，該專家解釋，用大家都訓(xùn)練過的公開數(shù)據(jù)集評(píng)測(cè)，大模型的準(zhǔn)確率很高；但用比較新的數(shù)據(jù)集去測(cè)試，準(zhǔn)確率就大大下降。最新的高考題是哪家大模型都沒有訓(xùn)練過的，考驗(yàn)的是數(shù)學(xué)推理和計(jì)算的泛化能力，這就暴露了大模型的短板。

北京大學(xué)計(jì)算語言學(xué)研究所教授穗志方近日也表示，大模型在中國高考、公務(wù)員考試和美國SAT考試等標(biāo)準(zhǔn)化考試中的表現(xiàn)是優(yōu)劣兼具的。一些大模型在SAT數(shù)學(xué)測(cè)試中表現(xiàn)優(yōu)異，但在復(fù)雜推理或特定知識(shí)領(lǐng)域中的表現(xiàn)不夠出色。

“在大模型內(nèi)在機(jī)理沒有探究清楚的情況下，我們目前的評(píng)測(cè)路徑只能依靠從外部表現(xiàn)來推測(cè)內(nèi)在能力。”穗志方說，未來應(yīng)發(fā)展更系統(tǒng)的評(píng)測(cè)大綱、更具挑戰(zhàn)的評(píng)測(cè)任務(wù)、更科學(xué)的評(píng)測(cè)方法。AI是否比人類更適合考試？尚未可定論。

標(biāo)簽：

責(zé)任編輯：

免責(zé)聲明

頭條新聞

空中“黑科技”飛入尋常百姓家

在前不久閉幕的2024世界智能產(chǎn)業(yè)博覽會(huì)上，低空經(jīng)濟(jì)相關(guān)創(chuàng)新成果備受關(guān)注。可用于醫(yī)療運(yùn)輸、農(nóng)業(yè)植保、...
高能同步輻射光源儲(chǔ)存環(huán)全環(huán)貫通

高能同步輻射光源（HEPS）全景（無人機(jī)照片，2023年12月11日攝）。新華社記者金立旺攝&emsp;&emsp;記...
普拉提、射箭、太極劍、飛盤、橄欖球……職校體育課竟如此不走尋常路

學(xué)生們?cè)诮處熤笇?dǎo)下進(jìn)行普拉提訓(xùn)練廣州華商職業(yè)學(xué)院學(xué)生在上《射藝》課文羊城晚報(bào)記者崔文燦圖羊...
集成戰(zhàn)略科技力量為新質(zhì)生產(chǎn)力增勢(shì)賦能

圖為在航空工業(yè)沈飛民機(jī)車間，工作人員進(jìn)行機(jī)身半殼鉚接作業(yè)。新華社記者楊青攝&emsp;&emsp;中國式...

AI參加高考，為何偏科嚴(yán)重

免責(zé)聲明

頭條新聞

最新新聞

精華推薦

猜你喜歡

重磅推薦

精彩放送