การพัฒนาวิธีการประมาณข้อมูลสูญหายโดยการถ่วงน้ำหนักแบบวนซ้ำ ด้วยวิธีของแจ็คไนฟ์และการวิเคราะห์การถดถอย

ผู้แต่ง

  • จำลอง วงษ์ประเสริฐ
  • บุญชม ศรีสะอาด

คำสำคัญ:

ข้อมูลสูญหาย ข้อมูลสูญหายแบบสุ่มอย่างสมบูรณ์ การสุ่มตัวอย่างแบบง่าย

บทคัดย่อ

การวิจัยครั้งนี้มีวัตถุประสงค์เพื่อพัฒนาวิธีการประมาณข้อมูลสูญหายโดยการถ่วงน้ำหนักแบบวนซ้ำด้วยวิธีของแจ็คไนฟ์และการวิเคราะห์การถดถอย (IWJR) และเปรียบเทียบประสิทธิภาพในการประมาณค่าเฉลี่ยประชากร ความแปรปรวนประชากรและสัมประสิทธิ์สหสัมพันธ์ประชากรและอำนาจการทดสอบ ภายใต้ข้อมูลสูญหายแบบสุ่มอย่างสมบูรณ์และใช้การสุ่มตัวอย่างแบบง่าย กับการตัดข้อมูลสูญหายออกแบบลิสท์ไวส์ (LD) วิธีการประมาณข้อมูลสูญหายด้วยค่าเฉลี่ย (MI) และวิธีการประมาณข้อมูลสูญหายด้วยการถดถอย (RI) โดยใช้ข้อมูลจากการจำลองและข้อมูลจริง การเปรียบเทียบกระทำภายใต้เงื่อนไขดังต่อไปนี้ 1) ขนาดตัวอย่าง 3 ขนาด (100 200 และ 500) 2) ระดับความสัมพันธ์ระหว่างตัวแปร 3 ระดับ (ต่ำ  = .3   ปานกลาง  = .5 และสูง  = .7) และ 3) ร้อยละของข้อมูลสูญหาย 4 ระดับ (ร้อยละ 5 10 15 และ 20) และใช้ข้อมูลจากการจำลองศึกษาปฏิสัมพันธ์ระหว่างวิธีการประมาณข้อมูลสูญหาย ขนาดตัวอย่าง ระดับความสัมพันธ์ระหว่างตัวแปรและร้อยละข้อมูลสูญหาย ที่ระดับนัยสำคัญ .05

ผลการวิจัยพบว่า

  1. ใช้ข้อมูลจากการจำลอง 1) เมื่อจำแนกตามขนาดตัวอย่าง ในการประมาณค่าเฉลี่ยประชากร เมื่อขนาดตัวอย่าง 100 และ 200 RI และ IWJR มีประสิทธิภาพสูงที่สุด เมื่อขนาดตัวอย่าง 500 LD และ IWJR มีประสิทธิภาพสูงที่สุด ในการประมาณค่าความแปรปรวนประชากรและค่าสัมประสิทธิ์สหสัมพันธ์ประชากร เมื่อขนาดตัวอย่าง 100 IWJR มีประสิทธิภาพที่สูงที่สุด เมื่อขนาดตัวอย่าง 200 และ 500 LD และ IWJR มีประสิทธิภาพสูงที่สุด 2) เมื่อจำแนกตามระดับความสัมพันธ์ระหว่างตัวแปร ในการประมาณค่าเฉลี่ยประชากร เมื่อระดับความสัมพันธ์ระหว่าง
    ตัวแปรต่ำ MI RI และ IWJR มีประสิทธิภาพสูงที่สุด เมื่อระดับความสัมพันธ์ระหว่างตัวแปรปานกลางและสูง RI และ IWJR มีประสิทธิภาพสูงที่สุด ในการประมาณค่าความแปรปรวนประชากร เมื่อระดับความสัมพันธ์ระหว่างตัวแปรต่ำ ปานกลางและสูง LD และ IWJR มีประสิทธิภาพสูงที่สุด ในการประมาณค่าสัมประสิทธิ์สหสัมพันธ์ประชากร เมื่อระดับความสัมพันธ์ระหว่างตัวแปรต่ำ IWJR มีประสิทธิภาพสูงที่สุด เมื่อระดับความสัมพันธ์ระหว่างตัวแปรปานกลาง LD และ IWJR มีประสิทธิภาพสูงที่สุด เมื่อระดับความสัมพันธ์ระหว่างตัวแปรสูง MI RI และ IWJRมีประสิทธิภาพสูงที่สุด
    3) เมื่อจำแนกตามร้อยละข้อมูลสูญหาย ในการประมาณค่าเฉลี่ยประชากร เมื่อข้อมูลสูญหายร้อยละ 5 IWJR มีประสิทธิภาพสูงที่สุด เมื่อข้อมูลสูญหายร้อยละ 10 RI และ IWJR มีประสิทธิภาพสูงที่สุด เมื่อข้อมูลสูญหายร้อยละ 15 และร้อยละ 20

    LD MI RI และ IWJR มีประสิทธิภาพสูงที่สุด ในการประมาณค่าความแปรปรวนประชากร เมื่อข้อมูลสูญหายร้อยละ 5 และร้อยละ10 IWJR มีประสิทธิภาพสูงที่สุด เมื่อข้อมูลสูญหายร้อยละ 15 LD EPR และ IWJR มีประสิทธิภาพสูงที่สุด เมื่อข้อมูลสูญหายร้อยละ 20 LD และ IWJR มีประสิทธิภาพสูงที่สุด ในการประมาณค่าสัมประสิทธิ์สหสัมพันธ์ประชากร เมื่อข้อมูลสูญหายร้อยละ 5 และร้อยละ 10 IWJR มีประสิทธิภาพสูงที่สุด เมื่อข้อมูลสูญหายร้อยละ 15 และร้อยละ 20 LD และ IWJR มีประสิทธิภาพสูงที่สุด

    1. ไม่พบความแตกต่างของอำนาจการทดสอบ ของวิธีการประมาณข้อมูลสูญหายทั้ง 4 วิธี
    2. พบปฏิสัมพันธ์สามทาง ในการประมาณค่าเฉลี่ยประชากร 1) ขนาดตัวอย่าง ระดับความสัมพันธ์ระหว่างตัวแปรและร้อยละข้อมูลสูญหาย และ 2) ระดับความสัมพันธ์ระหว่างตัวแปร ร้อยละข้อมูลสูญหายและวิธีการประมาณข้อมูลสูญหาย ในการประมาณความแปรปรวนประชากร 1) ขนาดตัวอย่าง ระดับความสัมพันธ์ระหว่างตัวแปรและร้อยละข้อมูลสูญหาย 2) ระดับความสัมพันธ์ระหว่างตัวแปร ร้อยละข้อมูลสูญหายและวิธีการประมาณข้อมูลสูญหาย และ 3) ขนาดตัวอย่าง ร้อยละข้อมูลสูญหาย วิธีการประมาณข้อมูลสูญหาย ในการประมาณค่าสัมประสิทธิ์สหสัมพันธ์ประชากร 1) ขนาดตัวอย่าง ระดับความสัมพันธ์ระหว่างตัวแปรและร้อยละข้อมูลสูญหาย 2) ขนาดตัวอย่าง ระดับความสัมพันธ์ระหว่างตัวแปรและวิธีการประมาณข้อมูลสูญหาย และ3) ระดับสัมพันธ์ระหว่างตัวแปร ร้อยละข้อมูลสูญหายและวิธีการประมาณข้อมูลสูญหาย
    3. ในการประมาณค่าเฉลี่ยประชากร ความแปรปรวนประชากรและสัมประสิทธิ์สหสัมพันธ์ประชากร IWJRมีความแกร่งต่อขนาดตัวอย่าง ระดับความสัมพันธ์ระหว่างตัวแปรและร้อยละข้อมูลสูญหาย ซึ่งสอดคล้องกัน
      ทั้งข้อมูลจากการจำลองและข้อมูลจริง

     

เอกสารอ้างอิง

เชาว์ อินใย. (2547). การพัฒนาวิธีการจัดการข้อมูลสูญหายแบบอีพีเอสเอสอีและการตรวจสอบความแม่นยำและอำนาจการทดสอบเปรียบเทียบกับวิธีอีเอ็มและลิสท์ไวท์:เทคนิคมอนติคาร์โล. วิทยานิพนธ์ปริญญาเอก. พิษณุโลก : มหาวิทยาลัยนเรศวร.
เชาว์ อินใย. (2552). การพัฒนาวิธีการจัดการข้อมูลสูญหายแบบอีพีเอาร์และการตรวจสอบความแม่นยำและอำนาจการทดสอบเปรียบเทียบกับวิธีอีเอ็มและลิสท์ไวท์:เทคนิคมอนติคาร์โล. เลย : มหาวิทยาลัยราชภัฏเลย.
ปรีชา วิจิตรธรรมรส. (2542). ตัวประมาณแจ็คไนฟ์. วารสารพัฒนบริหารศาสตร์, ปีที่ 39(ฉบับที่ 3), กรุงเทพฯ : สถาบันบัณฑิตพัฒนบริหารศาสตร์. ก.ค.-ก.ย. 2542 : หน้า 13-21.
Adam, Carlson. (2001). Data Mining: Finding Nuggets of Knowledge in Mountains of Data. Northwest Science & Technology, Autumn, 24-25.
Beale, E. M. L., & Little, R. J. A. (1975). Missing values in multivariate analysis. Journal of the Royal Statistical Society, 37, 129-145, B.
Brockmeier, L. L., Kromrey, J. D. & Hines, C. V. (1998). Systematically missing data and multiple regression analysis: An empirical comparison of deletion and imputation techniques. Multiple Linear Regression Viewpoints, 25, 20-39.
Chaimongkol , W. (2004). Three composite imputation methods for item nonresponse estimation in sample surveys. Doctor’s Thesis. Bangkok :National Institute of Development Administration.
Chan, L. S., Gilman, J. A., & Dunn, O. J. (1976). Alternative approaches to missing values in discriminant analysis. Journal of the American Statistical Association, 71, 842-844.
Draper, Norman R., Smith Harry. (1998). Applied Regression Analysis. 3rd ed. John Willey & Sons, Inc. NY.
Frane, J.W. (1976). Some simple procedures for handling missing data in multivariate analysis. Psychometrika, 41, 409–415.
Furlow CF, et al. (2007). A Monte Carlo study of the impact of missing data and differential item functioning on theta estimates from two polytomous Rasch family models. Journal of Applied Measurement, 8(4), 388-403.
Gleason, T. C. & Staelin, R. (1975). A proposal for handling missing data. Psvchometrika, 40,
229-252.
Hank John E., Reitsch Arthur G. and Wichern Dean W. (2001). Business Forecasting, 7th ed.
New Jersey. Prentice Hall.
Hegamin-Younger, C. & Forsyth, R. (1998). A comparison of four imputation procedures in a two-variable prediction system. Educational and Psychological Measurement, 58(2),
197-210.
Huisman, M. (1998). Item Nonrespons : Occurrence cause, and Imputation of Missing Answers to Test Item. DSWO Press, Lieden University, The Netherlands.
Landerman LR, Land KC, Pieper CF. (1997). An empirical evaluation of the predictive mean matching method for imputing missing values. Sociological Methods and Research, 26(1), 3–33.
Little, R. J. A. & Schenker, N. (1995). Missing data. In G. Arminger, C. C. Clogg, & M.E. Sobel (Eds.), Handbook of statistical modeling for the social and behavioral sciences. New York.
Little, R. J. A. (1976). Inference about means from incomplete multivariate data. Biometrika, 63, 593-604.
Little, R. J. A., & Rubin, D. B. (1987). Statistical Analysis with Missing Data. New York : John Wiley & Sons.
Peng, C.-Y. J., et al. (2006). Advances in missing data methods and implications for educational research In Sawilowsky, S. (eds). Real data analysis. Greenwich, CT., Information Age Publishing Inc. 31-78.
Quenonuille, M. H. (1956). Notes on Bias in Estimation. Biometrika. 43, 353-360.
Raymond, M. R., & Roberts, D. M. (1987). A comparison of methods for treating incomplete data in selection research. Educational and Psychological Measurement, 47, 13-26.
Raymond, M.R. (1986). Missing Data in Evaluation Research. Eval Health Prof. 9(4), 395-420.
Richard J. R. and Marx, Morris L. (1986). An Introduction to Mathematical Statistics and Its Applications, New Jersey. Prentice-Hall.
Robitszsch, A. and Rupp, A. A. (2009). Impact of Missing Data on the Detection of Differential Item Functioning: The Case of Mantel-Haenszel and Logistic Regression Analysis. Educational and Psychological Measurement, 69(1), 18-34.
Roth, P.L. (1994). Missing Data: A Conceptual Review for Applied Psychology. Journal of Personal Psychology, 47, 537-560.
Rovine, M. J., & Delaney, M. (1990). Missing data estimation in developmental research. In A. Von Eye (Ed.), Statistical methods in longitudinal research, Stanford: Academic Press, 1, 35–79.
Suat SAHINLER and Derviz TOPUZ. (2007). Bootstrap and Jackknife Resampling Algorithms for Estimation of Regression Parameters. Journal of Applied Qualitative Methods, 2(2), Summer 2007, 188-199.
Timm, N. H. (1970). The estimation of variance-covariance and correlation matrices from incomplete data. Psychometrika. 35(4), 417-437.
Viragoontavan, S. (2000). Comparing Six Missing Data Methods within the Discriminant Analysis Context: A Monte Carlo Study. Doctor’s Thesis. Ohio : The Ohio State University.


Wang, Betty Lu-Ti. (2000). Imputation Methods for missing Data in Growth Curve Models. Doctor’s Thesis. California : University of Southern California. Dissertation Abstract International. < http://proquest.umi.com/pqdweb?did =728849541 &sid=2&Fmt= 2&clientId=73599&RQT=309&VName=PQD> October, 13 2009.
Yu, Chong Ho. (2003). Resampling methods: concepts, applications, and justification. Practical Assessment, Research & Evaluation, 8(19). http://pareonline.net/getvn.asp? v=8&n=19 October, 13 2009.
Zhang, B. and Walker, C.M. (2008). Impact of Missing Data on Person Model Fit and Person Trait Estimation. Applied Psychological Measurement, 32(8), 466-479.

ดาวน์โหลด

เผยแพร่แล้ว

2021-08-27

รูปแบบการอ้างอิง

วงษ์ประเสริฐ จ., & ศรีสะอาด บ. (2021). การพัฒนาวิธีการประมาณข้อมูลสูญหายโดยการถ่วงน้ำหนักแบบวนซ้ำ ด้วยวิธีของแจ็คไนฟ์และการวิเคราะห์การถดถอย. วิจัยและประเมินผลอุบลราชธานี, 1(1), 143–154. สืบค้น จาก https://so06.tci-thaijo.org/index.php/ubonreseva/article/view/250804