วิกฤตการจำลองแบบทางจิตวิทยาทำให้เกิดการโต้วาทีครั้งใหม่

วิกฤตการจำลองแบบทางจิตวิทยาทำให้เกิดการโต้วาทีครั้งใหม่

จิตวิทยาสั่นสะเทือนเมื่อปีที่แล้วจากรายงานที่ตีพิมพ์ผลงานในสาขาต่างๆ หายไปในการทดลองซ้ำ แต่การศึกษาที่น่ารำคาญนั้นส่งเสียงเตือนที่ผิดพลาด การวิเคราะห์ที่ขัดแย้งพบว่าการตรวจสอบครั้งแรกของการศึกษา 100 ชิ้นมีข้อผิดพลาดที่สำคัญ แดเนี่ยล กิลเบิร์ต นักจิตวิทยาจากมหาวิทยาลัยฮาร์วาร์ดและเพื่อนร่วมงานโต้แย้ง หลังจากแก้ไขข้อผิดพลาดเหล่านั้นแล้ว ผลกระทบที่รายงานใน 85 ของการศึกษาเหล่านั้นปรากฏในการจำลองที่ดำเนินการโดยนักวิจัยที่แตกต่างกัน ดังนั้น ข้อสรุปเบื้องต้นว่าการศึกษาเพียง 35 ชิ้นที่สร้างการค้นพบซ้ำได้นั้นเป็นการประเมิน ที่ต่ำเกินไป ทีมของกิลเบิร์ ตรายงานในวารสาร Science 4 มีนาคม

“ไม่มีหลักฐานว่าวิกฤตการจำลองแบบในทางจิตวิทยา” กิลเบิร์ตกล่าว

นักจิตวิทยา Brian Nosek แห่งมหาวิทยาลัยเวอร์จิเนียใน Charlottesville และสมาชิกคนอื่นๆ ในกลุ่มที่ทำการศึกษาการจำลองแบบเดิม ( SN: 10/3/15, p. 8 ) ปฏิเสธการวิเคราะห์ของ Gilbert รายงานปี 2015 ให้ “หลักฐานเบื้องต้นที่ไม่ชัดเจน” ว่าจิตวิทยามีปัญหาในการทำซ้ำได้ พวกเขาเขียนคำตอบที่ตีพิมพ์ในฉบับเดียวกันของScience

นักระบาดวิทยาของมหาวิทยาลัยสแตนฟอร์ด จอห์น ไอโออันนิดิส กล่าวว่า น่าแปลกใจที่ “นักวิทยาศาสตร์ที่เก่งที่สุดไม่สามารถเห็นด้วยจริงๆ ว่าผลลัพธ์ของบทความที่สำคัญที่สุดในประวัติศาสตร์จิตวิทยาหมายความว่าอย่างไร” สมมติฐานและความคาดหวังของนักวิจัยสามารถมีอิทธิพลต่อผลลัพธ์ของพวกเขา “ไม่ว่าจะชัดเจนและแข็งแกร่งเพียงใด”

การศึกษาซ้ำหลายครั้งในกระดาษปี 2015 

แตกต่างอย่างมากจากการศึกษาเบื้องต้น โดยซ้อนสำรับกับการทำสำเนาที่ประสบความสำเร็จ Gilbert กล่าว การจำลองแบบมักจะสุ่มตัวอย่างประชากรที่แตกต่างกัน เช่น การแทนที่ชาวอิตาเลียนพื้นเมืองสำหรับชาวอเมริกันในการศึกษาทัศนคติต่อชาวอเมริกันผิวดำ ขั้นตอนการเปลี่ยนแปลงมากมาย ความพยายามในการจำลองแบบครั้งเดียวทำให้เด็กโตเป็นงานที่ค่อนข้างง่ายในการค้นหารายการบนหน้าจอคอมพิวเตอร์ขนาดเล็ก ในขณะที่การศึกษาดั้งเดิมทำให้เด็กที่อายุน้อยกว่าทำงานได้ยากขึ้นในการค้นหารายการบนหน้าจอคอมพิวเตอร์ขนาดใหญ่

การศึกษาซ้ำมักจะรวมอาสาสมัครน้อยเกินไปที่จะสร้างกรณีที่น่าสนใจทางสถิติว่าการจำลองแบบสำเร็จหรือล้มเหลว Gilbert กล่าว ปัญหาอีกประการหนึ่งคือการศึกษาต้นฉบับแต่ละครั้งทำซ้ำเพียงครั้งเดียว การศึกษาซ้ำหลายครั้งสร้างสมดุลระหว่างความแตกต่างในขั้นตอนการศึกษาและเพิ่มจำนวนการจำลองที่ประสบความสำเร็จ นักวิทยาศาสตร์กล่าว

ในการศึกษาการจำลองแบบที่มักเป็นการเปรียบเทียบระหว่างแอปเปิ้ลและส้ม การศึกษาการจำลองแบบอย่างน้อย 34 ครั้งควรล้มเหลวโดยบังเอิญ สมมติว่าการศึกษาดั้งเดิมทั้งหมด 100 ชิ้นอธิบายผลกระทบที่แท้จริง Gilbert และเพื่อนร่วมงานของเขาประเมิน นั่นทำให้การประเมินใหม่ของการจำลองที่ประสบความสำเร็จ 85 รายการนั้นน่าประทับใจยิ่งขึ้นไปอีก

กลุ่มของ Nosek คำนวณว่ามีเพียง 22 ครั้งเท่านั้นที่พยายามจำลองแบบในการศึกษาปี 2015 ที่น่าจะล้มเหลวโดยบังเอิญ Nosek กล่าวว่าแม้การจำลองแบบที่ประสบความสำเร็จก็พบว่ามีผลทางสถิติที่อ่อนแอกว่าการศึกษาดั้งเดิม การศึกษาที่ตีพิมพ์ทำให้ผลการวิจัยที่มีนัยสำคัญทางสถิติดูแข็งแกร่งเกินควร เขากล่าว วารสารมักจะไม่เผยแพร่ความล้มเหลวในการจำลองแบบและนักวิจัยหลายคนก็เก็บมันออกไป

การวิเคราะห์ใหม่เกี่ยวกับงานของกลุ่ม Nosek ชี้ให้เห็นว่าตัวอย่างการศึกษาการจำลองแบบต้องได้รับการเสริมกำลังก่อนจึงจะสามารถสรุปผลเกี่ยวกับความทนทานของผลลัพธ์ทางจิตวิทยาได้ ความล้มเหลวในการทำซ้ำในการตรวจสอบปี 2015 ส่วนใหญ่เกิดขึ้นเนื่องจากการศึกษาดั้งเดิมจำนวนมากมีผู้เข้าร่วมเพียงพอที่จะสร้างผลกระทบที่อ่อนแอ แต่มีนัยสำคัญทางสถิติ นักจิตวิทยาสองคนยืนยัน 26 กุมภาพันธ์ในPLOS ONE อคติของวารสารในการเผยแพร่ผลในเชิงบวกเพียงอย่างเดียวยังส่งผลต่อความล้มเหลวในการจำลองแบบ เพิ่ม Alexander Etz ที่ University of Amsterdam ในขณะที่ทำการศึกษา และ Joachim Vandekerckhove จาก University of California, Irvine

ทั้งคู่วิเคราะห์ทางสถิติ 72 เอกสารและความพยายามจำลองแบบจากโครงการของ Nosek การศึกษาดั้งเดิมเพียง 19 ชิ้นเท่านั้นที่มีอาสาสมัครเพียงพอที่จะให้ผลที่แข็งแกร่งและมีนัยสำคัญทางสถิติ ทีมวิจัยของ Nosek ต้องการการศึกษาเพิ่มเติมอีกมากโดยมีขนาดกลุ่มตัวอย่างที่ใหญ่พอๆ กันเพื่อสรุปเกี่ยวกับสถานะของการจำลองแบบในทางจิตวิทยา นักวิจัยกล่าว

นักวิจัยด้านจิตวิทยาและสาขาอื่น ๆ ไม่จำเป็นต้องกังวลน้อยลงเกี่ยวกับการทำซ้ำผลลัพธ์ที่มีนัยสำคัญทางสถิติและเพิ่มเติมเกี่ยวกับทฤษฎีการพัฒนาที่สามารถทดสอบได้ด้วยวิธีทางสถิติที่หลากหลาย นักจิตวิทยา Gerd Gigerenzer จากสถาบัน Max Planck เพื่อการพัฒนามนุษย์ในเบอร์ลินกล่าว นัยสำคัญทางสถิติแสดงความน่าจะเป็นของการสังเกตความสัมพันธ์ระหว่างสองตัวแปร กล่าวคือ ความเชื่อมโยงระหว่างการเปลี่ยนแปลงในถ้อยคำของการอุทธรณ์เพื่อการกุศลและการบริจาคที่เพิ่มขึ้น โดยถือว่าตั้งแต่เริ่มต้นว่าไม่มีความสัมพันธ์ดังกล่าวอยู่จริง แต่นักวิจัยไม่ค่อยทดสอบคำอธิบายที่เสนอสำหรับผลลัพธ์ที่มีนัยสำคัญทางสถิติ

แรงกดดันในการเผยแพร่กระตุ้นให้นักวิจัยปรับเปลี่ยนสิ่งที่พวกเขากำลังศึกษาและวิธีที่พวกเขาวัดผลเพื่อให้แน่ใจว่าได้ผลลัพธ์ที่มีนัยสำคัญทางสถิติ Gigerenzer กล่าวเสริม วารสารจำเป็นต้องทบทวนข้อเสนอการศึกษาก่อนที่จะทำการทดลองใดๆ เพื่อที่จะกีดกัน “การโกงแนวเขต” เขาแนะนำ

credit : austinyouthempowerment.org bethanybaptistcollege.org bethanyboulder.org bippityboppitybook.com bostonsceneparty.com