Meneliti Efektivitas ChatGPT dalam Menandai Penilaian Jawaban Singkat di Program Sarjana Kedokteran

Meneliti Efektivitas ChatGPT dalam Menandai Penilaian Jawaban Singkat di Program Sarjana Kedokteran

Pendekatan tradisional untuk menandai pertanyaan jawaban singkat menghadapi keterbatasan dalam hal ketepatan waktu, skalabilitas, keandalan antar-penilai, dan biaya waktu fakultas. Memanfaatkan kecerdasan buatan (AI) generatif untuk mengatasi beberapa kekurangan ini adalah hal yang menarik. Penelitian ini bertujuan untuk memvalidasi penggunaan ChatGPT untuk mengevaluasi penilaian jawaban singkat dalam program sarjana kedokteran.
Sepuluh pertanyaan dari kurikulum kedokteran pra-kepaniteraan dipilih secara acak, dan untuk setiap pertanyaan, enam jawaban mahasiswa yang telah ditandai sebelumnya dikumpulkan. Keenam puluh jawaban ini dievaluasi oleh ChatGPT pada bulan Juli 2023 di bawah empat kondisi: dengan rubrik dan standar, hanya dengan standar, hanya dengan rubrik, dan tanpa keduanya.
ChatGPT menunjukkan korelasi Spearman yang baik dengan penilai manusia (r = 0,6-0,7, p <0,001) di semua kondisi, dengan tidak adanya standar atau rubrik yang menghasilkan korelasi terbaik. Perbedaan penilaian sering terjadi (65-80%), tetapi penyesuaian skor lebih dari satu poin lebih jarang terjadi (20-38%).
Khususnya, tidak adanya rubrik menghasilkan skor yang lebih tinggi secara sistematis (p <0,001, η2 parsial = 0,33). Temuan kami menunjukkan bahwa ChatGPT adalah asisten yang layak, meskipun tidak sempurna, untuk penilaian manusia, yang kinerjanya sebanding dengan penilai ahli tunggal. Penelitian ini berfungsi sebagai dasar untuk penelitian di masa depan tentang teknik penilaian berbasis AI dengan potensi untuk pengoptimalan lebih lanjut.
Artikel ini dipublikasikan pada 2024 di jurnal MDPI, selengkapnya https://www.mdpi.com/2813-141X/3/1/4

COMMENTS