人與AI合作保障筆試質量自動評分，東北大學搭建框架

　由東北大學研究生院研究員（博士課程）Hiroaki Funayama 領導的一個研究小組開發了一種通過將人工評分員和 AI 之間的工作分開來確保評分質量的做法，以通過人工智能對書面答案進行自動評分(AI). 明確了分級質量可以通過系統的框架進行適當控制。

　隨著使用深度學習的機器學習方法的出現，人工智能對描述性答案的自動評分的準確性顯著提高。特別是，針對幾個交叉的書面答案的簡答簡答題的自動評分，在某些問題上達到了與人類評分員相同水平的評分質量。然而，AI評分很難對包含學習數據中不存在的未知表達的答案進行適當評分，這是AI自動評分實際應用的主要障礙。

　因此，課題組構建了一個自動評分系統與人工合作評分的評分框架。該框架利用置信度，這是衡量 AI 評分結果的可靠性的指標。檢查每個答案的自動評分結果的置信度，如果置信度低，則由人工評分員重新評分。

　首先，基於少量評分答案數據，我們估計達到預期成績質量的置信度下限。當在實際自動評分過程中確定性因子低於下限時，人工進行重新評分以達到期望的評分質量。

　這次，我們使用日本和英語世界的描述性問題數據集，進行了模擬以確認預期效果，並闡明了其可行性。此外，還發現人工評分者之間評分結果的匹配率越高，能夠以較低的成本實現評分質量越高。基於這些發現，預計自動評分的實際應用將在未來取得進展。

人類和AI合作保證描述性答案自動評分的質量，東北大學構建框架