P-hacking เมื่อสถิติกลายเป็นกับดักของความจริง

P-hacking เมื่อสถิติกลายเป็นกับดักของความจริง

หลาย ๆ คนที่เคยทำวิจัย หรือต้องอ่านงานวิจัย น่าจะเคยได้ยินชื่อค่า P-value กันมาบ้างใช่ไหมครับ

P-value คือ ค่าทางสถิติที่ใช้ในการทดสอบสมมติฐาน เพื่อดูว่าเราสามารถปฏิเสธ null hypothesis ได้หรือไม่

ในการทำวิจัยโดยทั่วไป ถ้า P-value มันน้อยกว่า 0.05 หรือต่ำกว่าระดับนัยสำคัญที่ตั้งไว้ ก็พอจะบอกได้ว่า

"เออ เราน่าจะมีหลักฐานพอที่จะแย้ง null hypothesis แล้วนะ"

แต่ถ้า P-value มันมากกว่า 0.05 ก็แปลว่า หลักฐานยังไม่พอจะเถียง null hypothesis ได้ หรือก็คือยังไม่มั่นใจพอว่าสิ่งที่เราคิด มันต่างจากที่เคยเชื่อกันมาหรือไม่ เช่น ถ้าเราทดลองว่ายาตัวใหม่ลดไข้ได้ไหม แล้วได้ P-value ต่ำ ๆ ก็พอจะบอกได้ว่ายานั้นน่าจะใช้ได้ผลจริง

ที่มาภาพ: gigacalculator

นั่นจึงเป็นเหตุให้ค่า P-value นั้นเหมือนกลายเป็นจุดมุ่งหมายสำคัญของบรรดานักวิจัย เพราะหากไม่มีค่า P-value ที่ต่ำจนน่าพอใจ งานวิจัยที่ทำออกมานั้นก็อาจจะไม่ถูกพิจารณาให้ตีพิมพ์ในวารสารด้วยซ้ำ

และพอมันสำคัญขนาดนี้ ก็ทำให้เริ่มมีคนเล่นตุกติกขึ้นมา หรือที่เรียกว่า P-hacking นั่นเอง

P-hacking คืออะไร?

สมมติว่าเราเป็นนักวิจัยในสถาบันวิจัยทางการแพทย์แห่งหนึ่ง ซึ่งมีหน้าที่ทดสอบประสิทธิภาพของยาใหม่ ๆ ก่อนจะเข้าสู่ขั้นตอนทดลองในมนุษย์

วันหนึ่งทีมเรากำลังทำโปรเจกต์ทดลองยาต้านมะเร็งตัวใหม่ ที่ดูจากกลไกแล้วมีแววดีมาก
มันคือยาที่อ้างว่าสามารถลดการแบ่งตัวของเซลล์มะเร็งได้ โดยไม่ทำลายเซลล์ปกติ
เราตื่นเต้นกันมาก เพราะถ้าผลออกมาดี นี่อาจเป็นอีกหนึ่งก้าวใหญ่ของการรักษามะเร็ง

หลังจากเก็บข้อมูลเสร็จ เรารีบเอามาวิเคราะห์ ผลการทดลองรอบแรกออกมาได้ P-value = 0.21 ซึ่งมันก็ยังไม่ดีพอ

ตามหลักแล้วเราก็ควรจะสรุปผลว่ายาที่เราสร้างนั้นไม่มีประสิทธิภาพ แต่ด้วยความเสียดายข้อมูลที่อุตส่าห์ทำการทดลองมา น้องในทีมคนนึงเลยคิดความคิดขึ้นมาว่า

"หรือเราลองเล่นกับข้อมูลดูสักหน่อย"

คิดได้ดังนั้นน้องคนนั้นก็เริ่มลองแยกข้อมูลคนร่วมการทดลองตามช่วงอายุ เพศ ระยะของโรค ประวัติการรักษา ก่อนจะสามารถทำให้ P-value ลดเหลือแค่ 0.03 เท่านั้นเอง ทีมวิจัยก็ฉลองกันยกใหญ่เลย เอาผลรอบนั้นมาเขียนเป็นรายงานโดยที่คุณก็ไม่ได้ตรวจสอบก่อน ส่งไปตีพิมพ์ได้สำเร็จ จนมีสื่อเอาไปลงข่าวพาดหัวว่า

“ยาตัวใหม่นี้มีศักยภาพในการยับยั้งเซลล์มะเร็ง”

หลังจากนั้น บริษัทต่าง ๆ ที่สนับสนุนต่างก็ตื่นเต้นกันยกใหญ่ จนกระทั่งถึงเวลาทดลองกับกลุ่มคนไข้จริงในวงกว้าง และพบว่าผลกลับไม่เป็นไปตามคาด ยากลับไม่มีผลที่ชัดเจน แถมบางคนมีอาการข้างเคียงที่เราไม่เคยเจอ และเรื่องมันก็เริ่มบานปลาย

เราเลยไปตรวจสอบการวิเคราะห์ข้อมูลดูดี ๆ ก่อนจะพบว่าสิ่งที่น้องคนนั้นทำคือการตัดคนไข้ทิ้งไปเรื่อย ๆ จากการวิเคราะห์ จนกระทั่ง P-value ออกมาตามที่ต้องการ และที่จริงแล้วจากข้อมูลนั้นสรุปได้แค่ว่า กลุ่มคนไข้เพศหญิงที่อยู่ในช่วงอายุ 40–50 ปี ที่รับยาอย่างสม่ำเสมอ ดูจะมีผลลัพธ์ดีขึ้น

ที่มาภาพ: blogs.lshtm

นี่เป็นตัวอย่างหนึ่งของการทำ P-hacking ฮะ ด้วยการการวิเคราะห์ข้อมูลหลายรอบ และเลือกเฉพาะผลที่ดูดีเพื่อนำมาโชว์ โดยไม่ได้แจ้งรายละเอียดทั้งหมด

P-hacking อีกรูปแบบหนึ่งที่อาจเกิดขึ้นได้คือการเก็บข้อมูลเพิ่มไปเรื่อย ๆ จนกว่าจะได้ P-value ที่ต่ำพอ ถ้ายังก็เก็บเพิ่มอีก จนพอ P-value มันต่ำปุ๊บ ก็หยุดเก็บข้อมูลแล้วสรุปผลทันที

ถ้าจะเปรียบเทียบให้เห็นภาพ มันก็เหมือนกับการขว้างลูกดอกหลายร้อยลูก พอมีลูกนึงปักเป้าที่ตรงกลางเป๊ะ ก็บอกว่า "เฮ้ย ดูสิ เราขว้างแค่ทีเดียวก็โดนเลย!" ทั้งที่ความจริงคือลองไปหลายร้อยรอบแล้ว กว่าจะได้ลูกที่โดนเป๊ะ ๆ แบบนั้น

P-hacking ในวงการวิทยาศาสตร์

เรื่อง P-hacking ถูกพูดถึงมากในช่วงหลายปีที่ผ่านมา เพราะมีงานวิจัยหลายชิ้นที่อ้างว่าได้ผล สุดท้ายกลับทำซ้ำไม่ได้ วงการวิทยาศาสตร์เลยต้องเจอกับวิกฤตที่เรียกว่า replication crisis ซึ่งหนึ่งในต้นตอก็มาจากการที่นักวิจัย หันไปพึ่ง P-hacking เพื่อให้ได้ผลที่ดูน่าสนใจ แทนที่จะยึดหลักการที่โปร่งใสโดยเฉพาะในวงการจิตวิทยา การแพทย์ การตลาด และสังคมศาสตร์ ซึ่งต่างก็ได้รับผลกระทบจากปัญหานี้ทั้งสิ้น

งานวิจัยเรื่อง Estimating the reproducibility of psychological science ที่เอางานวิจัยทางจิตวิทยาจำนวน 100 ชิ้นไปทดลองซ้ำ และพบว่ามีเพียง 36 ชิ้นเท่านั้นที่ได้ผลเหมือนเดิม ไม่มีใครรู้ว่าเกิดอะไรขึ้น แต่ P-hacking ก็เป็นข้อสันนิษฐานหนึ่ง

ที่มาภาพ: science.org

สิ่งที่ทำให้ P-hacking น่ากังวล ไม่ใช่แค่การทำให้ผลวิจัยดูน่าสนใจเกินจริง แต่คือการที่มันบ่อนทำลายความน่าเชื่อถือของวิทยาศาสตร์ในระยะยาว ลองคิดดูว่า ถ้าผลการทดลองที่ตีพิมพ์ออกไป ถูกใช้ต่อยอดเป็นพื้นฐานในการพัฒนานโยบาย สร้างผลิตภัณฑ์ หรือวางแผนการรักษา แต่สุดท้ายกลับพบว่ามันตั้งอยู่บนข้อมูลที่ได้มาจากการ P-hacking นั่นเท่ากับเรากำลังสร้างสิ่งสำคัญบนรากฐานที่ไม่มั่นคง

ในช่วงไม่กี่ปีที่ผ่านมา วงการวิจัยจึงเริ่มตื่นตัวและหาทางรับมือกับปัญหานี้มากขึ้น หลายวารสารชั้นนำเริ่มบังคับให้นักวิจัยต้อง pre-register หรือระบุแผนการวิเคราะห์ล่วงหน้าก่อนจะเริ่มเก็บข้อมูลจริง เพื่อป้องกันการวิเคราะห์ข้อมูลซ้ำแล้วซ้ำอีกจนเจอสิ่งที่ดูดี และส่งเสริมให้เปิดเผยข้อมูลดิบและโค้ดเพื่อให้ผู้อื่นสามารถตรวจสอบและทำซ้ำได้

ในฐานะ นักวิจัย เราต้องตระหนักว่า P-hacking ไม่ใช่ทางลัดสู่ความสำเร็จ แต่มันคือการเล่นตุกติกที่อาจพาเราและผู้อื่นหลงทาง เราจำเป็นต้องทำงานด้วยความโปร่งใส ซื่อสัตย์ และยอมรับผลลัพธ์ที่ไม่เป็นไปตามหวังให้ได้ เพราะนั่นก็เป็นส่วนหนึ่งของความรู้เหมือนกัน

และสำหรับคนทั่วไป การเข้าใจเรื่อง P-hacking นั้นทำให้เราตระหนักว่าผลวิจัยที่ตีพิมพ์แล้วก็อาจจะผิดได้ ไม่ว่าจะโดยตั้งใจหรือไม่ตั้งใจก็ตาม ไม่ได้แปลว่าเราต้องหวาดระแวงวิทยาศาสตร์จนไม่เชื่ออะไรเลย แต่การรู้เท่าทันมันจะช่วยให้เรามีภูมิคุ้มกัน และไม่ตกเป็นเหยื่อของผู้ไม่ประสงค์ดีมากขึ้นครับ


และเช่นเดิม ใครที่อยากสนับสนุนเพจเว็บไซต์ของเรา ให้ผลิตคอนเทนต์คณิตศาสตร์แบบนี้ต่อไป ก็สามารถสมัครเป็นสมาชิกรายเดือนได้โดยกดปุ่ม 'สมัครสมาชิก' ได้เลยนะฮะ

เอกสารอ้างอิง