Open AI 新論文用“過程監(jiān)督”改進數(shù)學(xué)推理

2023-06-03 19:30:54 編輯：澹臺風(fēng)融來源：

導(dǎo)讀在 Open AI新論文中指出：新訓(xùn)練出的一個模型，通過對每個正確推理步驟進行獎勵（過程監(jiān)督）來提高解決數(shù)學(xué)問題的水平，與之前的結(jié)果監(jiān)督...

在 Open AI新論文中指出：新訓(xùn)練出的一個模型，通過對每個正確推理步驟進行獎勵（過程監(jiān)督）來提高解決數(shù)學(xué)問題的水平，與之前的結(jié)果監(jiān)督有很大的區(qū)別。這種方式最大的一個好處是能夠直接訓(xùn)練模型產(chǎn)生被人類認(rèn)可的思維鏈。

過程監(jiān)督可以為思維鏈中的每一步提供反饋，而且打造的機器人性能提升的也很明顯。過程監(jiān)督比結(jié)果監(jiān)督有幾個對齊優(yōu)勢，在生成的過程中，對每一步都可以做到精確化的監(jiān)督，能夠有效的獎勵模型，遵循與人類一致的思維鏈。產(chǎn)生可以解釋的推理，希望會更大。之前采用的結(jié)果監(jiān)督模型在處理復(fù)雜問題的時候很容易出現(xiàn)錯誤判斷或者產(chǎn)生幻覺，難以理解解決問題的整個過程。過程監(jiān)督則會驗證每一個思維過程，確保出現(xiàn)的結(jié)果都是正確的。