由東北大學研究生院研究員(博士課程)Hiroaki Funayama 領導的一個研究小組開發了一種通過將人工評分員和 AI 之間的工作分開來確保評分質量的做法,以通過人工智能對書面答案進行自動評分(AI). 明確了分級質量可以通過系統的框架進行適當控制。
隨著使用深度學習的機器學習方法的出現,人工智能對描述性答案的自動評分的準確性顯著提高。特別是,針對幾個交叉的書面答案的簡答簡答題的自動評分,在某些問題上達到了與人類評分員相同水平的評分質量。然而,AI評分很難對包含學習數據中不存在的未知表達的答案進行適當評分,這是AI自動評分實際應用的主要障礙。
因此,課題組構建了一個自動評分系統與人工合作評分的評分框架。該框架利用置信度,這是衡量 AI 評分結果的可靠性的指標。檢查每個答案的自動評分結果的置信度,如果置信度低,則由人工評分員重新評分。
首先,基於少量評分答案數據,我們估計達到預期成績質量的置信度下限。當在實際自動評分過程中確定性因子低於下限時,人工進行重新評分以達到期望的評分質量。
這次,我們使用日本和英語世界的描述性問題數據集,進行了模擬以確認預期效果,並闡明了其可行性。此外,還發現人工評分者之間評分結果的匹配率越高,能夠以較低的成本實現評分質量越高。基於這些發現,預計自動評分的實際應用將在未來取得進展。