GPT-4化身主考官：與ChatGPT水平相同還有

2023-04-17 13:36:55 編輯：談瑤鳳來源：

導(dǎo)讀 GPT-4能力很強(qiáng)，已經(jīng)化身為考官，在給市面上主流模型打分時，給自己最高分?jǐn)?shù)95.5分，在這之后沒有90分以上的選手，連他的前輩ChatGPT也只給...

GPT-4能力很強(qiáng)，已經(jīng)化身為“考官”，在給市面上主流模型打分時，給自己最高分?jǐn)?shù)95.5分，在這之后沒有90分以上的選手，連他的“前輩”ChatGPT也只給了89.1分。與ChatGPT相同水平的還有谷歌Bard、Claude、UC伯克利出品的小羊駝Vicuna-13B等。

GPT-4測評一共提出了10項(xiàng)能力，10道題也分別給出了出題理由觀察大型模型的能力，可以說很全面。GPT-4出題范圍涵蓋文字，詩歌，數(shù)學(xué)，實(shí)踐經(jīng)濟(jì)，代碼技術(shù)，科學(xué)語言，倫理道德等方面。對于不同的問題GPT-4生成了相對應(yīng)的評分標(biāo)準(zhǔn)，一共是100分。不同的AI對于每道題的回答都是不同的，從這些回答中去評分，只有回復(fù)更加標(biāo)準(zhǔn)，分值才會更大，由此GPT-4自己打的分到了59.5分，也說明還有進(jìn)步的空間。ChatGPT的評分僅次于GPT-4，分?jǐn)?shù)只有89.1分，沒有達(dá)到90分以上。