วันพุธที่ 15 มิถุนายน พ.ศ. 2559

วิธีอ่าน box-and-whisker plot

วิธีอ่าน box-and-whisker plot



เช้าวันหยุดแบบนี้ ผมมีเทคนิกง่ายๆมาแนะนำ แต่ช่วยเพิ่มสกิลการอ่านเปเปอร์ขึ้นไปอีกขั้นนึง ... เคยมีการเปิดเผยข้อมูลที่ทำกันอย่างลับๆ รู้กันเฉพาะวงใน เปรียบเทียบความสวยของแพทย์ประจำบ้านอายุรศาสตร์หญิง ระหว่าง 5 สถาบัน ศิริราช จุฬา รามา เชียงใหม่ และ ขอนแก่น (สมมุติว่าความสวยวัดออกมาเป็นตัวเลขได้นะครับ) ในกรณีนี้เชื่อมั๊ยครับ ค่า mean หรือ sd ไม่ใช่สิ่งที่หมอหนุ่มๆอยากรู้เลย สิ่งที่หนุ่มๆต้องการคือ box-and-whisker plot เท่านั้น เพราะอะไร?
จำไว้เลยนะครับ เวลาอ่านเปเปอร์ แล้วเห็นกราฟหน้าตาแบบในรูปนี้ สิ่งที่ผู้เขียนต้องการจะสื่อออกมาคือลักษณะการกระจายตัวของข้อมูลดิบเปรียบเทียบกันในแต่ละกลุ่ม และทำให้เราสามารถเห็นรายละเอียดที่ส่วนหางของข้อมูลหรือที่เรียกว่า outlier ได้ด้วย
(1) รูปสี่เหลี่ยมที่เห็นเราเรียกว่า 'box' นะครับ ความกว้างของ box เป็น arbitrary คือกว้างเท่าไหร่ก็ได้แล้วแต่คนเขียนกำหนดไม่ได้สื่อถึงตัวเลขหรือค่าอะไรทั้งสิ้น แต่ความสูงต่างหากที่สำคัญ ขอบล่างของ box คือ lower quartile (Q1) ขอบบนของ box คือ upper quartile (Q3) เส้นคั่นกลางที่มักจะไม่ได้อยู่ตรงกลางของ box คือ ค่ามัธยฐาน หรือ median (Q2) แปลว่า box แสดงให้เราเห็นว่า ครึ่งหนึ่ง ของ sample data ตกอยู่ในนี้!! ความสูงของ box เราเรียกว่า interquartile range หรือ Q3 - Q1 ถ้า box เตี้ยแปลว่ามีความแตกต่างกันของข้อมูลค่อนข้างน้อยของประชากรครึ่งนึงที่อยู่ตรงกลาง
(2) box จะไม่ sensitive ต่อ outlier เหมือนกับค่า mean ต่อให้มีค่าที่ฉีกออกจากกลุ่มมากๆ ก็จะไม่กระทบกระเทือน box มากนัก box จะ preserve center และ spread ของ sample data อย่างแท้จริง
(3) จากโจทย์ตัวอย่าง เราจะเห็นว่า เรซิเดนท์เมดของรามา มีตำแหน่งของ box ที่สูงกว่าสถาบันอื่นอย่างชัดเจน ขณะที่ศิริราชมีตำแหน่งของ box ต่ำที่สุด และความสูงของ box ก็เตี้ยมากด้วย นั่นแสดงให้เห็นว่า เรซิเดนท์เมดของศิริราชความน่ารักไม่ค่อยต่างกันมากนักและมักจะไปบีบอัดกันอยู่ข้างล่าง อันนี้เราเอ่านตามเนื้อผ้านะครับ เอาแค่ box ก่อน ค่อยๆอ่านไปช้าๆทีละขั้น
(4) เส้นแนวดิ่งที่ลากต่อขึ้นไปและลงมาจาก box เราเรียกว่า 'whisker' สังเกตดีๆนะครับ ถ้าเราอ่านเปเปอร์ที่มีกราฟพวกนี้บ่อยๆ เราจะเห็นว่าบางทีความยาวของเส้นบนล่างเท่ากัน บางทีไม่เท่ากัน อย่างในโจทย์ตัวอย่างก็ไม่เท่ากัน ถูกมั๊ยครับ การเขียน whisker มีสองแบบ แบบแรก เราใช้ maximum กับ minimum ของข้อมูลเป็น upper และ lower whisker แบบนี้นิยมมากเรียกว่า spear style แบบที่สองเราใช้ค่า 1.5 เท่าของ interquartile range (IQR) ต่อออกจาก median ไปแทน แบบนี้จะทำให้ความยาวเส้นบนล่างเท่ากัน เรียกว่า Tukey style
(5) ทำไมต้องใช้ 1.5 เท่าของ IQR? เพราะถ้าหากข้อมูลอันนั้นมีการกระจายความถี่เป็นแบบ normal distribution ค่า 1.5 x IQR จะอยู่ที่ประมาณ 2.7 s.d. ตัว whisker จะคลุม 99.3% ของข้อมูล เป็นที่มาของการใช้ Tukey style นั่นเอง แต่ยากมากนะครับที่การศึกษาในเปเปอร์จะมีข้อมูลที่เป็น normal distribution ดังนั้นในงานวิจัยที่เราอ่านเกือบทั้งหมดเราจึงเห็นเป็น spear type คือ whisker บนล่างไม่เท่ากัน
(6) ส่วนที่อยู่สูงและต่ำกว่า whisker เราเรียกว่า outlier ช่วยทำให้เราเห็นรายละเอียดที่ tail ได้มากขึ้น จะเห็นว่า outlier ที่โดดไปสูงที่สุดคือ เรซิเดนท์เมดจุฬา เรซิเดนท์คนนี้อาจจะดึง mean ให้จุฬาได้ แต่ทำอะไร box and whisker ไม่ได้ ถูกมั๊ยครับ จะสวยแค่ไหนก็เป็นได้แค่ outlier ไม่มากระทบกับประชากรส่วนใหญ่
(7) ถ้าเป็น spear type จะตัด outlier ที่ 1.5 x IQR เรียกว่า upper และ lower fence ซึ่งไม่แสดงให้เห็นในกราฟ เป็นค่ามาตรฐานที่เราใช้กัน บางตำราจะกำหนด far upper และ far lower fence ที่ 3 x IQR และเรียก ข้อมูลเหล่านั้นว่า far outlier หรือ extreme
(8) outlier ยังช่วยบอกการกระจายของข้อมูล ถ้าเป็น normal distribution ค่า outlier บนล่างจะพอๆกัน ยกตัวอย่างเช่น เรซิเดนท์เมดของ ขอนแก่น และ เชียงใหม่ แต่ถ้า outlier ไปกระจุกอยู่ข้างใดข้างหนึ่ง แปลว่าไม่ใช่ normal distribution แล้ว ถ้าหาก outlier ไปอยู่ด้านบนเป็นส่วนใหญ่ แปลว่า เบ้ขวา (skew to the right) ครับ ข้อมูลส่วนใหญ่จะอยู่ด้านซ้ายหรือส่วนต่ำ เช่นข้อมูลของ เรซิเดนท์เมด จุฬา ศิริราช รามา เป็นต้น แต่ถ้า outlier ไปอยู่ด้านล่าง แปลว่า เบ้ซ้าย (skew to the left)
วิธีจำง่ายๆ outlier ไปอยู่ด้านไหน skew ด้านนั้น นี่เป็นเหตุผลที่นักสถิติบางคนชอบ box and whisker ที่วางตัวในแนวนอน เพราะมันเทียบกับกราฟการแจกแจงข้อมูลได้เลยตรงๆ
(9) ข้อสุดท้าย แถมให้นิดนึง บางคนอ่านเปเปอร์เยอะมาก อาจจะเคยเห็น box plot ที่มันมีรอยคอด หรือ notch แคบเข้ามาหา median ไม่ต้องตกใจ ความกว้างของรอยคอดอันนั้นคือ 95% CI ของ median ซึ่งได้จากการคำนวณนะครับ สูตรไม่ต้องจำ เอาแค่รู้ว่าใช้ค่าอะไรมาคำนวณก็พอ
m +/- 1.58 x IQR/square root n
1412

ไม่มีความคิดเห็น:

แสดงความคิดเห็น