การเปรียบเทียบประสิทธิภาพของการทดสอบแบบปรับเหมาะด้วยคอมพิวเตอร์โดยใช้กลยุทธ์หลายขั้นตอนแบบปรับระดับชั้นที่มีตัวแปรและลำดับในการพิจารณาที่แตกต่างกัน
Main Article Content
บทคัดย่อ
การวิจัยนี้มีวัตถุประสงค์เพื่อการเปรียบเทียบประสิทธิภาพของการทดสอบแบบปรับเหมาะด้วยคอมพิวเตอร์ โดยใช้กลยุทธ์หลายขั้นตอนแบบปรับระดับชั้นที่มีตัวแปรและลำดับในการพิจารณาที่แตกต่างกัน โดยนำเสนอวิธีการทดสอบแบบปรับเหมาะตามตัวแปรต่าง ๆ 4 รูปแบบ ดังนี้ รูปแบบที่ 1 พิจารณาค่าความยากง่าย (P) เพียงค่าเดียว รูปแบบที่ 2 พิจารณาค่าอำนาจจำแนก (R) เพียงค่าเดียว รูปแบบที่ 3 พิจารณาค่าตัวแปรที่มีการถ่วงน้ำหนัก (T) ซึ่งสามารถกระจายออกเป็น 3 รูปแบบย่อย ได้แก่ ถ่วงน้ำหนักความยากง่ายสำคัญสุด (Tp) ถ่วงน้ำหนักอำนาจจำแนกสำคัญสุด (Tr) ถ่วงน้ำหนักความยากง่ายและอำนาจจำแนกสำคัญเสมอกัน (Tpr) รูปแบบที่ 4 พิจารณาค่าถ่วงน้ำหนักรวม (S) สามารถวิเคราะห์ได้โดยการเพิ่มตัวชี้วัดเข้ามาช่วยถ่วงน้ำหนักให้กับตัวแปรในแต่ละตัว เรียงลำดับความสำคัญ ได้แก่ ค่าอำนาจจำแนก (R) ค่าความยากง่าย (P) ค่าโอกาสตอบถูกในกลุ่มนักเรียนที่ได้คะแนนต่ำ (KL) นำทั้ง 4 รูปแบบมาเปรียบเทียบเพื่อหาว่าวิธีการในรูปแบบใดที่มีประสิทธิภาพมากที่สุด โดยอาศัยทฤษฎีการทดสอบแบบมาตรฐานเดิม ในการวิเคราะห์หาค่าตัวแปรต่าง ๆ เพื่อนำมาใช้ในงานวิจัยฉบับนี้
ผลการวิจัยพบว่า 1) รูปแบบที่ 4 การพิจารณาค่าถ่วงน้ำหนักรวม (S) สามารถประเมินผลโดยการเทียบเกรดกับระดับชั้นได้ตรงกันได้ตรงกันมากที่สุด โดยมีค่าเฉลี่ยร้อยละ 70.59 2) รูปแบบที่ 1 การพิจารณาค่าความยากง่าย (P) เพียงค่าเดียว สามารถประเมินผลผ่านหรือไม่ผ่านโดยเทียบผลการประเมินเกรด B ขึ้นไปกับผลการประเมินระดับ 4 ขึ้นไปได้ตรงกันมากที่สุด โดยมีค่าเฉลี่ยร้อยละ 94.12 3) รูปแบบที่ 3 โดยใช้รูปแบบย่อยพิจารณาค่าความยากง่ายและค่าอำนาจจำแนกสำคัญเสมอกัน (Tpr) สามารถประเมินผลผ่านหรือไม่ผ่านเทียบกับร้อยละที่ทำข้อสอบถูกได้ตรงกันมากที่สุด โดยมีค่าเฉลี่ยร้อยละ 88.82 และสามารถประเมินผลผ่านหรือไม่ผ่านทั้ง 2 แนวทาง ได้ตรงกันมากที่สุด โดยมีค่าเฉลี่ยร้อยละ 89.51 4) รูปแบบที่พิจารณาค่าตัวแปรที่มีการถ่วงน้ำหนัก 2 ตัวแปรขึ้นไปผู้สอบจะต้องทำข้อสอบจำนวนมากกว่ารูปแบบที่พิจารณาค่าตัวแปรเพียงค่าเดียว โดยรูปแบบที่ 2 การพิจารณาค่าอำนาจจำแนก (R) เพียงค่าเดียว ผู้สอบจะทำข้อสอบโดยเฉลี่ยน้อยที่สุด
This research is aimed to compare the computerized adaptive testing by using multistage strategies with different variables and prioritization. Four different types of the adaptive testing were studied as follows: Type 1: the determination of only one difficulty index (P); Type 2: the determination of only one discriminant index (R); Type 3: the determination of weighted index (T), which could be disseminated into three sub-categories including most-important weighted difficulty index (Tp), most-important weighted discriminant index (Tr), and equally-important weighted difficulty and discriminant index (Tpr); and Type 4: the determination of good quality test index (S). The fourth index could be analyzed by the addition of indicators to help weighting each variable. The prioritized indices were discriminant index (R), difficulty index (P), and chance of correct answer index in low-scored student (KL), respectively. The four types of adaptive testing were compared to identify the most efficient type of method for testing. The Classical Test Theory was employed to analyze various variables used in this research.
The results showed that 1) the assessment by Type 4: the determination of good quality test index (S) could be able to assess by comparing the grading with the study level at mostly agreed, in which the average percentage of 70.59 was obtained; 2) the assessment by Type 1: the determination of only one difficulty index (P) could be able to assess the results from passing or failing the test by comparing the assessment of higher than grade B with the assessment at level 4 at mostly agreed, in which the average percentage of 94.12 was obtained; 3) the assessment by Type 3 by using the sub-category equally-important weighted difficulty and discriminant index (Tpr) could be able to assess the results from passing or failing the test relative to the percentage of marking correct answers at mostly agreed, in which the average percentage of 88.82 was obtained. In addition, it could be able to assess the results from passing or failing the test from both approaches at mostly agreed, in which the average percentage of 89.51 was obtained; and 4) in the type in which at least 2 weighted difficulty indices were determined, the testers must complete more number of tests than the type in which only one index was determined. It was found that in Type 2: the determination of only one discriminant index (R), the testers would complete the least mean number of tests.
Downloads
Article Details
ลิขสิทธิ์บทความวิจัยที่ได้รับการตีพิมพ์เผยแพร่ในวารสารวิจัยและพัฒนา วไลยอลงกรณ์ ในพระบรมราชูปถัมภ์ ถือเป็นกรรมสิทธิ์ของสถาบันวิจัยและพัฒนา มหาวิทยาลัยราชภัฏวไลยอลงกรณ์ ในพระบรมราชูปถัมภ์ ห้ามนำข้อความทั้งหมดหรือบางส่วนไปพิมพ์ซ้ำ เว้นแต่จะได้รับอนุญาตจากมหาวิทยาลัยเป็นลายลักษณ์อักษร
ความรับผิดชอบ เนื้อหาต้นฉบับที่ปรากฏในวารสารวิจัยและพัฒนา วไลยอลงกรณ์ ในพระบรมราชูปถัมภ์ เป็นความรับผิดชอบของผู้นิพนธ์บทความหรือผู้เขียนเอง ทั้งนี้ไม่รวมความผิดพลาดอันเกิดจากเทคนิคการพิมพ์
References
ญานิศรา มุนินทร์สาคร. (2558). การพัฒนาโปรแกรมทดสอบแบบปรับเหมาะด้วยคอมพิวเตอร์ สำหรับการจัดสอบ O-NET ระดับชั้นมัธยมศึกษาปีที่ 6. วิทยานิพนธ์หลักสูตรวิทยาศาสตร์มหาบัณฑิต สาขาวิชาการวัดและเทคโนโลยีทางวิทยาการปัญญา มหาวิทยาลัยบูรพา.
นันทพร หาญวิทยสกุล (2552). รายงานผลการวิเคราะห์ข้อสอบ วิชาหลักการประชาสัมพันธ์ รหัส 2201-270. แผนกวิชาการตลาด วิทยาลัยบริหารธุรกิจและการท่องเที่ยว. กรุงเทพฯ: กระทรวงศึกษาธิการ.
นุภาพรรณ ปลื้มใจ. (2558). การพัฒนาโปรแกรมการทดสอบแบบปรับเหมาะด้วยคอมพิวเตอร์ สำหรับการจัดสอบ O-Net ระดับชั้นมัธยมศึกษาปีที่ 6. วิทยานิพนธ์ สาขาวิชาการวัดและเทคโนโลยีทางวิทยาการปัญญา มหาวิทยาลัยบูรพา.
เบญจมาภรณ์ เสนารัตน์, สมประสงค์ เสนารัตน์, และสมบัติ ท้ายเรือคำ. (2557) การทดสอบแบบปรับเหมาะด้วยคอมพิวเตอร์แบบพหุมิติ. วารสารการวัดผลการศึกษา มหาวิทยาลัยมหาสารคาม. 20(2): 22-34.
พิมพ์สิริ เธียรนรเศรษฐ์. (2549). การเปรียบเทียบค่าความสามารถ ลักษณะของการเปลี่ยนคำตอบ และเวลาที่ใช้ในการทำข้อสอบของผู้สอบ ในการทดสอบแบบปรับเหมาะกับความสามารถของผู้สอบด้วยคอมพิวเตอร์เมื่อเงื่อนไขการทดสอบและระดับความสามารถของผู้สอบแตกต่างกัน. วิทยานิพนธ์ครุศาสตรมหาบัณฑิต จุฬาลงกรณ์มหาวิทยาลัย.
มลิวัลย์ ผิวคราม. (ม.ป.ป.). การวิเคราะห์ข้อสอบแบบอิงกลุ่ม. ค้นเมื่อ 10 มกราคม 2560, จากเว็บไซต์: http://www.ipecp.ac.th/ipecp/cgi-binn/webpili/unit9/level9-2.html
รังสรรค์ มณีเล็ก. (2540). ผลของตัวแปรบางตัวต่อความเที่ยงตรงเชิงสภาพและจำนวนข้อสอบที่ใช้ในการทดสอบแบบปรับเหมาะกับความสามารถของผู้สอบด้วยคอมพิวเตอร์. ปริญญานิพนธ์ หลักสูตรปริญญาการศึกษาดุษฎีบัณฑิต สาขาการทดสอบและวัดผลการศึกษา มหาวิทยาลัยศรีนครินทรวิโรฒ.
อุทัยรัตน์ รื่นจิตร. (2558). การศึกษาการประเมินเชิงวินิจฉัยโดยการประยุกต์ใช้โมเดลลำดับขั้นของคุณลักษณะและการทดสอบแบบปรับเหมาะโดยใช้คอมพิวเตอร์. วารสารวิชาการบัณฑิตวิทยาลัย มหาวิทยาลัยราชภัฏชัยภูมิ. 7(2): 23-30.
David J. Weiss. (2004). Computerized Adaptive Testing for Effective and Efficient Measurement in Counseling and Education. Measurement and Evaluation in Counseling and Development. 37(2): 70-84.
Hambleton, R. K., & Swaminathan, H. (1985). Item Response Theory: Principles and Applications. Boston: Kluwer Nijhoff Publishing.
Lord, F. M. (1971). A theoretical study of two-stage testing. Psychometrika. 36. 227-242.
Weiss, D. J. (1974). Strategies of Adaptive Ability Measurement. Minneapolis: University of Minnesota, Department of Psychology, Psychometric Methods Program.