การเปรียบเทียบวิธีการประมาณค่าสูญหายในการพยากรณ์ความเข้มข้นของ PM2.5 ด้วยโครงข่ายประสาทเทียม LSTM

ผู้แต่ง

  • ศรีรักษ์ ศรีทองชัย ภาควิชาวิศวกรรมอุตสาหการและการจัดการ คณะวิศวกรรมศาสตร์และเทคโนโลยีอุตสาหกรรรม มหาวิทยาลัยศิลปากร วิทยาเขตพระราชวังสนามจันทร์

คำสำคัญ:

การแทนค่าสูญหาย, ฝุ่น PM2.5, โครงข่ายประสาทเทียม, แบบจำลองหน่วยความจำระยะสั้นแบบยาว

บทคัดย่อ

ข้อมูลสูญหายเป็นปัญหาหนึ่งที่พบได้บ่อยในการเก็บรวบรวมข้อมูลเพื่อการวิจัย มักส่งผลกระทบต่อความถูกต้องและความเชื่อมั่นของผลการวิเคราะห์ข้อมูล รวมไปถึงข้อค้นพบและข้อสรุปที่ได้จากการศึกษา วิธีการจัดการความไม่สมบูรณ์ของข้อมูลอาจใช้การกำจัดทิ้งหรือแทนค่าที่สูญหายด้วยการประมาณค่า งานวิจัยนี้นำเสนอวิธีการประมาณค่าข้อมูลสูญหายในการพยากรณ์ความเข้มข้นของ PM2.5 ด้วยแบบจำลองโครงข่ายประสาทเทียมแบบหน่วยความจำระยะสั้นแบบยาว (LSTM) จำแนกได้ 4 วิธี ได้แก่ วิธีค่าเฉลี่ย วิธีการประมาณค่าในช่วงแบบเชิงเส้น (LI) วิธีเพื่อนบ้านใกล้สุด (KNN) และวิธีการแทนค่าแบบพหุด้วยสมการลูกโซ่ (MICE) ใช้ค่ารากที่สองความคลาดเคลื่อนกำลังสองเฉลี่ย (RMSE) และความคลาดเคลื่อนสัมบูรณ์เฉลี่ย (MAE) เป็นเครื่องมือวัดความถูกต้องในการทำนายค่าฝุ่น PM2.5 ซึ่งเป็นตัวบ่งชี้ที่ใช้เปรียบเทียบประสิทธิภาพของวิธีการจัดการกับข้อมูลสูญหาย โดยข้อมูลจริงที่ทดแทนค่าสูญหายแล้วจะถูกนำไปใช้กับแบบจำลองการพยากรณ์ 4 แบบ ผลการศึกษาพบว่าวิธี KNN (k=11) และ วิธี MICE ให้ค่าความผิดพลาดน้อยที่สุดจึงเป็นวิธีการประมาณค่าสูญหายที่ดีที่สุด ทั้งสองวิธีให้ผลลัพธ์ดีกว่าวิธีค่าเฉลี่ยและวิธี LI และยังแสดงให้เห็นว่าแบบจำลองที่ 2 ให้ความแม่นยำมากที่สุดในทุกวิธีการประมาณค่า

References

World Health Organization, Switzerland (n.d.)., Air Pollution, URL: https://www.who.int/health-topics/air- pollution#tab=tab_1, accessed on 1/05/2022.

กรมควบคุมมลพิษ, กระทรวงทรัพยากรธรรมชาติและสิ่งแวดล้อม, 2563, รายงานสถานการณ์มลพิษของประเทศไทยปี 2562.

คณะกรรมการสิ่งแวดล้อมแห่งชาติ, 2553, เรื่องกำหนดมาตรฐานฝุ่นละอองขนาดไม่เกิน 2.5 ไมครอนในบรรยากาศโดยทั่วไป, [ระบบออนไลน์], แหล่งที่มา https://www.pcd.go.th/laws/ประกาศคณะกรรมการสิ่งแวดล้อม, เข้าดูเมื่อวันที่ 5 พฤษภาคม 2564.

ชัยยศ ยงค์เจริญชัย, 2562, ฝุ่น: PM2.5 ในเชียงใหม่ขึ้นสูงแตะอันดับหนึ่งของโลก, บีบีซีไทย, [ระบบออนไลน์], แหล่งที่มา https://www.bbc.com/thai/47534868, เข้าดูเมื่อวันที่ 20 เมษายน 2564.

กรีนพีซ, 2565, ความเหลื่อมล้ำใต้ท้องฟ้าเดียวกัน: เมื่อต่างจังหวัดฝุ่นเยอะพอๆ กับกรุงเทพฯ แต่เข้าถึงเครื่องวัดคุณภาพอากาศได้ยากกว่า, [ระบบออนไลน์], แหล่งที่มา https://www.greenpeace.org/thailand/story/25299/climate-airpollution-inquity-of-airpollutin, เข้าดูเมื่อวันที่ 30 มีนาคม 2566.

Ahn, H., Sun, K. and Kim, K.P., 2021, Comparison of Missing Data Imputation Methods in Time Series Forecasting, Computers, Materials and Continua, Vol. 70, September 2021, pp. 767–779.

Little, R.J.A. and Rubin, D.B., 2002, Statistical Analysis with Missing Data, 2nd edition, John Wiley & Sons, Hoboken.

Pollice, A. and Lasinio, G.J., 2009, Two Approaches to Imputation and Adjustment of Air Quality Data from a Composite Monitoring Network, Journal of Data Science, Vol. 7, January 2009, pp. 43–59.

Marwala, T., 2009, Computational Intelligence for Missing Data Imputation, Estimation and Management: Knowledge Optimization Techniques, Information Science Reference, Hershey.

Junger, W.L. and Leon, P.D., 2015, Imputation of Missing Data in Time Series for Air Pollutants, Atmospheric Environment, Vol. 102, February 2015, pp. 96–104.

Saeipourdizaj, K.P., Sarbakhsh, P. and Gholampour, A., 2021, Application of Imputation Methods for Missing Values of PM10 and O3 Data: Interpolation, Moving Average and K-nearest Neighbor Methods, Environmental Health Engineering and Management Journal, Vol. 8, September 2021, pp. 215–226.

Rumaling, M.I., Chee, F.P., Dayou, J. and Chang, J., 2020, Missing Value Imputation for PM10 Concentration in Sabah Using Nearest Neighbour Method (NNM) and Expectation-Maximization (EM) Algorithm, Asian Journal of Atmospheric Environment, Vol. 14, March 2020, pp. 62–72.

Wijesekara, W.M.L.K.N. and Liyanage, L., 2020, Comparison of Imputation Methods for Missing Values in Air Pollution Data: Case Study on Sydney Air Quality Index, In: Arai, K., Kapoor, S. and Bhatia, R. (eds) Advances in Information and Communication, FICC 2020, Advances in Intelligent Systems and Computing, Vol. 1130, Springer, Cham.

Zainuri, N.A., Jemain, A.A. and Muda, N., 2015, A Comparison of Various Imputation Methods for Missing Values in Air Quality Data, Sains Malaysiana, Vol. 44, March 2015, pp. 449–456.

Donders, A.R., Van Der Heijden, G.J., Stijnen, T., and Moons, K.G., 2006, A Gentle Introduction to Imputation of Missing Values. Journal of Clinical Epidemiology, Vol. 59, October 2006, pp. 1087–1091.

Quinteros, M.E, Lu, S., Blazquez, C., Cárdenas-R, J.P., Ossa, X., Delgado-Saborit, J.M., Harrison, R.M. and Ruiz-Rudolph, P., 2019, Use of Data Imputation Tools to Reconstruct Incomplete Air Quality Datasets: A Case-Study in Temuco, Chile. Atmospheric Environment, Vol. 200, March 2019, pp. 40–49.

Wilson, S., 2021, Miceforest: Fast Imputation with Random Forests in Python, Virginia, USA, URL: https:// morioh.com/p/e19cd87c66e3, Accessed on 10 May 2022.

McCulloch, W.S. and Pitts, W., 1943, A Logical Calculus of the Ideas Immanent in Nervous Activity, The Bulletin of Mathematical Biophysics, Vol. 5, December 1943, pp. 115–133.

Hochreiter, S. and Schmidhuber, J., 1997, Long Short-Term Memory, Neural Computation, Vol. 9, November 1997, pp. 1735–1780.

Olah, C., 2015, Understanding LSTM Networks, Anthropic, California, USA, URL: http://colah.github.io/ posts/2015-08-Understanding-LSTMs, Accessed on 10 May 2022.

McCulloch, W.S. and Pitts, W., 1943, A Logical Calculus of the Ideas Immanent in Nervous Activity, The Bulletin of Mathematical Biophysics, Vol. 5, December 1943, pp. 115–133.

Hochreiter, S. and Schmidhuber, J., 1997, Long Short-ธerm Memory, Neural Computation, Vol. 9, November 1997, pp. 1735–1780.

Olah, C., 2015, Understanding LSTM Networks, Anthropic, California, USA, URL: http://colah.github.io/ posts/2015-08-Understanding-LSTMs, Accessed on 10 May 2022.

Downloads

เผยแพร่แล้ว

2023-06-22