牽涉到評分的情境下,常見三種評分資料蒐集的方式,第一種為完全評分網絡設計,在此設計下所有的層面的成分(components)有完整的觀測值。第二種為不完全評分網絡設計,成分間有部份程度系統性連結,第三種為不連接評分網絡設計,各成分之間沒有任何系統性的連結,即使這種評分網絡設計具有潛在性的問題,在台灣許多重要考試在成本考量下仍使用這樣的設計。本研究以儲訓校長的口語表現評分資料為實證數據,藉由多層面 Rasch 模式(many faceted rasch model,簡稱 MFRM)的分析模式來進行參數的等化估計,探討這三種不同評分者資料蒐集設計對於各層面參數估計的影響,其研究發現評分者連結性越小,參數估計的穩定性越差,尤其在不連接評分網絡設計,雖然使用 MFRM 進行校正,其相關參數估計與受試者的能力排序存在很大的誤差,考試單位應避免使用此設計進行評分者的分數評閱。建議未來重要的考試,應至少採用不完全評分網絡設計,並以統計模型(如 MFRM)的方式進行評分者嚴厲度的校正。
|