จะทำโมเดลทั้งที แต่มีข้อมูลสูญหาย (Missing Data) ควรทำอย่างไรดี? [EP.2/2]

ภาคต่อจากบทความที่แล้ว สำหรับบทความนี้ เราจะมาเรียนรู้เกี่ยวกับเจ้า Missing Value ตัวปัญหากัน เชื่อว่าหลายคนที่อยู่ในวงการ Data ต้องเคยพบเจอปัญหานี้กันไม่มากก็น้อย สำหรับผู้เขียนเองก็เจอปัญหานี้บ่อยมากในการทำงานเช่นกัน
27 กรกฎาคม ค.ศ. 2021 โดย
Administrator

วิธีการจัดการข้อมูลสูญหาย

(Missing Data Management)

1. วิธีการลบข้อมูล
(Listwise Deletion or Complete Case Analysis)

​กรณีที่ข้อมูลสูญหายเกิดขึ้นหลายตัวแปร แต่ปริมาณการสูญหายไม่เกิน 5% ของข้อมูลทั้งหมด เราก็จะตัดหรือลบข้อมูลส่วนที่สูญหายออกทั้ง record ถือเป็นวิธีพื้นฐานที่นิยมใช้กัน 


* ข้อดี คือ ง่ายและสามารถวิเคราะห์เชิงเปรียบเทียบระหว่างตัวแปรได้ เพราะแต่ละตัวแปรมีขนาดเท่ากัน


** แต่ข้อเสียที่เกิดขึ้น คือ ผลลัพธ์ที่ได้จากการวิเคราะห์เชื่อถือไม่ได้ 100% เนื่องจากมีข้อมูลบางส่วนถูกตัดออกไป ทำให้ข้อมูลไม่ครบถ้วนสมบูรณ์ ที่แย่ไปกว่านั้นคือ ถ้าข้อมูลที่สูญหายมีลักษณะกระจายตัว การตัดข้อมูลสูญหายทิ้งอาจจะทำให้ข้อมูลมีความเอนเอียง เบซ้าย เบ้ขวา เนื่องจากข้อมูลของกลุ่มตัวอย่างแต่ละกลุ่มถูกตัดออกไม่เท่ากัน

2. วิธีการประมาณค่าข้อมูลสูญหาย (Imputation Methods)

​เป็นวิธีการประมาณค่าสูญหายโดยเอาหลักการทางคณิตศาสตร์ มาเติมเต็มค่าที่สูญหายไป ทำให้ผลลัพธ์สุดท้ายคล้ายกับว่าไม่เคยมีข้อมูลสูญหายเกิดขึ้นมาก่อนเลย ซึ่งมีหลากหลายวิธีมากแต่ในที่นี้ ขอยกมาแค่ 2 วิธี ดังต่อไปนี้

◾ วิธีการประมาณค่าด้วยค่าเฉลี่ย (Mean Imputation: MI)


​วิธีการประมาณค่าด้วยค่าเฉลี่ย เป็นวิธีการคำนวณหาค่าเฉลี่ยของตัวแปรอิสระ (X) จากชุดข้อมูลที่ปรากฎอยู่ เพื่อแทนค่าข้อมูลสูญหายของตัวแปรตาม (Y) ซึ่งวิธีดังกล่าว ถือเป็นวิธีจัดการค่าข้อมูลสูญหายที่ง่าย ไม่ซับซ้อน แต่วิธีนี้อาจทำให้ค่าประมาณที่ได้เป็นค่าเอนเอียงได้เหมือนกันถ้าชุดข้อมูลมี outlier

วิธีการคำนวณหาค่าเฉลี่ยของตัวแปรอิสระ (X) จากชุดข้อมูลที่ปรากฎอยู่ เพื่อแทนค่าข้อมูลสูญหายของตัวแปรตาม (Y)สูตรการคำนวณสำหรับวิธีการประมาณค่าด้วยค่าเฉลี่ย (MI)

◾ วิธีการถดถอย (Regression Imputation: RI)

​วิธีการประมาณค่าด้วยวิธีการถดถอย เป็นลักษณะการประมาณค่าตัวแปรที่ต้องการศึกษา โดยอาศัยความสัมพันธ์ระหว่างตัวแปรอิสระ (X) และตัวแปรตาม (Y) มาช่วยในการประมาณค่า ถ้าชุดข้อมูลที่มีอยู่มีความสัมพันธ์กัน วิธีนี้ก็ถือว่าเป็นวิธีที่น่าสนใจเลยทีเดียวเพราะวิธีการคำนวณยังไม่ยุ่งยาก ซับซ้อนมากนัก

ะการประมาณค่าตัวแปรที่ต้องการศึกษา โดยอาศัยความสัมพันธ์ระหว่างตัวแปรอิสระ (X) และตัวแปรตาม (Y) มาช่วยในการประมาณค่าสูตรการคำนวณสำหรับวิธีการถดถอย (RI)

3. วิธีการขั้นสูง (Advanced Methods)

​วิธีการขั้นสูงนี้ เป็นลักษณะของการประมาณค่าด้วยวิธีการคำนวณที่มีความซับซ้อนมากขึ้นไปอีก ซึ่งในที่นี้จะขอเล่าคร่าว ๆ ถึง 3 วิธีดังต่อไปนี้


วิธีการประมาณค่าด้วยวิธีเอ็มไอ (Multiple Imputation)

 
​วิธีการประมาณค่าด้วยวิธีเอ็มไอ เป็นลักษณะการประมาณค่าด้วยวิธีการแทนค่าหลายค่าลงในชุดข้อมูลสูญหาย โดยทำการประมาณค่าตั้งแต่ 2 วิธีขึ้นไป ภายใต้เงื่อนไขการกระจายข้อมูลสูญหายแบบสุ่ม ซึ่งประกอบด้วย 3 ขั้นตอน ดังนี้


​ขั้นตอนที่ 1 คือ ทำการประมาณค่าข้อมูลสูญหายแต่ละวิธี เพื่อมาเติมเป็นชุดข้อมูลที่สมบูรณ์

​ขั้นตอนที่ 2 คือ วิเคราะห์ข้อมูลแต่ละชุดแยกกัน เพื่อประมาณค่าข้อมูลสูญหาย

​ขั้นตอนที่ 3 คือ รวบรวมผลลัพธ์ที่ได้มาสรุปค่าที่จะใช้แทนค่าข้อมูลสูญหายทั้งหมด

การประมาณค่าด้วยวิธีการแทนค่าหลายค่าลงในชุดข้อมูลสูญหาย โดยทำการประมาณค่าตั้งแต่ 2 วิธีขึ้นไป ภายใต้เงื่อนไขการกระจายข้อมูลสูญหายแบบสุ่มวิธีการประมาณค่าด้วยวิธีเอ็มไอ (Multiple Imputation)

วิธีการประมาณค่าโดยวิธีอีเอ็ม (Expectation Maximization Algorithm: EM Algorithm)

 
​วิธีการประมาณค่าด้วยวิธีอีเอ็ม เป็นลักษณะการประมาณค่าโดยอาศัยหลักการพื้นฐาน Maximum Likelihood Estimation โดยประกอบด้วย 2 ขั้นตอน นั่นคือ ขั้นตอนการประมาณค่าคาดหวัง (Expectation: E step) โดยใช้วิธีการประมาณค่าด้วย log-likelihood และขั้นตอนการใช้ค่าสูงสุด (Maximization: M step) คือ ขั้นตอนการแทนค่าข้อมูลสูญหายด้วยค่าที่ได้จากขั้นตอนการประมาณค่าคาดหวัง จากนั้นดำเนินการประมาณค่าคาดหวังซ้ำเพื่อเปรียบเทียบ จนได้ค่าที่ไม่เปลี่ยนแปลงหรือ เปลี่ยนแปลงน้อยมาก และใช้ค่าดังกล่าวแทนค่าข้อมูลสูญหาย

​ข้อดีของวิธีนี้ คือ การได้ใช้ข้อมูลครบทุกตัวอย่าง ทั้งที่มีข้อมูลสูญหายและไม่มีข้อมูลสูญหาย อีกทั้งไม่เกิดความเอนเอียงหากข้อมูลสูญหายมีการกระจายตัวแบบข้อมูลสูญหายแบบสุ่ม

การประมาณค่าโดยอาศัยหลักการพื้นฐาน Maximum Likelihood Estimation โดยประกอบด้วย 2 ขั้นตอน นั่นคือ ขั้นตอนการประมาณค่าคาดหวัง (Expectation: E step) และขั้นตอนการใช้ค่าสูงสุด (Maximization: M step)วิธีการประมาณค่าด้วยวิธีการประมาณค่าโดยวิธีอีเอ็ม (EM Algorithm)

◾ วิธีการประมาณค่าโดยวิธีเพื่อนบ้านใกล้เคียง (K-Nearest Neighbor: KNN)

 
​เป็นการประมาณค่าสูญหายด้วยค่าเฉลี่ยของข้อมูลที่ทราบค่า จำนวน K ตัว ที่ไม่ใช่ข้อมูลสูญหาย อีกทั้งยังมีลักษณะคล้ายคลึงกับข้อมูลสูญหายมากที่สุด ซึ่งโดยทั่วไปจะกำหนดให้ K มีค่าประมาณเท่ากับ sqrt(m) โดยที่ K เป็นจำนวนคี่ที่มีค่าใกล้เคียงกับ sqrt(m) มากที่สุด เมื่อ m คือจำนวนข้อมูลไม่สูญหาย พิจารณาจากระยะห่างยุคลิด (Euclidean Distance) ของข้อมูลไม่สูญหาย

นการประมาณค่าสูญหายด้วยค่าเฉลี่ยของข้อมูลที่ทราบค่า จำนวน K ตัว ที่ไม่ใช่ข้อมูลสูญหายสูตรแสดงวิธีการประมาณค่าด้วยวิธีเพื่อนบ้านใกล้เคียง (K-Nearest Neighbor: KNN)

​จากทั้งหมดที่เล่าไป เป็นแค่วิธีการจัดการ Missing Value ส่วนหนึ่งเท่านั้น เนื่องจากปัญหานี้มีผู้คิดค้นทำวิจัยจนเกิดเป็นทฤษฎีต่าง ๆ มากมาย ดังนั้น สำหรับผู้ที่สนใจอยากรู้ข้อมูลเพิ่มเติมสามารถศึกษาเพิ่มได้จาก Reference ด้านล่างนี้

Reference

- Little, R.J.A and Rubin, D.B. 1987. Statistical Analysis with Missing Data. New York: Wiley.

- Soley-Bori, M. 2013. “Dealing with missing data: Key assumptions and methods for applied analysis”. Boston University School of Public Health Department of Health Policy & Management. 4 (May): 1–10.

- รัตติกาล จอมประพันธ์. 2555. การประมาณค่าสูญหายในการวิเคราะห์การถดถอยเชิงเส้นพหุคูณ. การค้นคว้าอิสระปริญญามหาบัณฑิต สถาบันพัฒนบริหารศาสตร์.

Administrator 27 กรกฎาคม ค.ศ. 2021
แชร์โพสต์นี้
แท็ก