BridgeMind AI อ้างว่า Claude Opus 4.6 ของ Anthropic ถูกลดประสิทธิภาพแบบลับๆ หลังการทดสอบซ้ำด้วยเกณฑ์วัดอาการหลอน โพสต์ที่กลายเป็นกระแสไวรัลนี้จึงถูกวิพากษ์วิจารณ์อย่างหนักในเรื่องวิธีการทดสอบที่มีข้อบกพร่อง
ข้อกล่าวหาดังกล่าวทำให้เกิดการถกเถียงในวงกว้างว่าบริษัท AI กำลังลดคุณภาพโมเดลที่มีค่าใช้จ่ายเพื่อประหยัดต้นทุนแบบเงียบๆ หรือไม่
BridgeMind ระบุอาการหลอนพุ่งขึ้น 98%
BridgeMind ซึ่งเป็นทีมที่อยู่เบื้องหลังการทดสอบการเขียนโค้ด Benchmark BridgeBench ได้โพสต์ว่า Claude Opus 4.6 หล่นจากอันดับสองไปอยู่อันดับที่สิบในกระดานผู้นำด้านอาการหลอน โดยความแม่นยำลดลงจาก 83.3% เหลือเพียง 68.3%
CLAUDE OPUS 4.6 ถูกเนิร์ฟแล้ว BridgeBench เพิ่งพิสูจน์ได้ สัปดาห์ที่แล้ว Claude Opus 4.6 อยู่อันดับ 2 ในเกณฑ์ Hallucination ด้วยความแม่นยำ 83.3% วันนี้อดีต Claude Opus 4.6 ถูกทดสอบใหม่และหล่นไปอยู่อันดับ 10 บนกระดานผู้นำโดยมีความแม่นยำเพียง 68.3% เท่านั้น โดยพวกเขา ระบุไว้
โพสต์ดังกล่าวชี้ว่าเป็นหลักฐานถึง ระดับการให้เหตุผลที่ลดลง แต่เมื่อตรวจสอบข้อมูลที่ใช้จริงกลับสะท้อนภาพที่แตกต่างกัน
นักวิจารณ์ยืนยันว่าการเปรียบเทียบนั้นมีข้อบกพร่องโดยพื้นฐาน
ตามที่นักวิทยาศาสตร์คอมพิวเตอร์ Paul Calcraft ระบุว่า ข้อกล่าวหานี้ถือเป็น วิทยาศาสตร์ที่แย่มาก โดยชี้ปัญหาสำคัญในกระบวนการทดสอบ
วิทยาศาสตร์ที่แย่มาก วันนี้คุณทดสอบ Opus บน 30 งานผลคะแนนก่อนหน้านี้อยู่แค่ *6* งาน เปรียบเทียบผลลัพธ์ใน 6 งานที่ซ้ำกัน: วันนี้ได้ 85.4% เทียบกับก่อนหน้านี้ 87.6% ความเปลี่ยนแปลงมาจากการประดิษฐ์ข้อมูล *เพียงครั้งเดียว* โดยไม่มีการทำซ้ำ ใกล้เคียงกับความแปรปรวนทางสถิติแบบธรรมดา Calcraft แสดงความคิดเห็น
คะแนนสูงเดิมได้มาจากแค่หกงานทดสอบเท่านั้น การทดสอบซ้ำรอบใหม่เพิ่มจำนวนงาน Benchmark เป็น 30 งาน
ในหกงานที่ตรงกัน ผลการทำงานเกือบเหมือนเดิม ลดลงจาก 87.6% เหลือเพียง 85.4% เท่านั้น
ความเปลี่ยนแปลงเล็กน้อยนี้เกิดจากการประดิษฐ์ข้อมูลเพิ่มเติมครั้งเดียวในงานหนึ่ง เมื่อไม่มีการทดสอบซ้ำ จึงถือว่าอยู่ในขอบเขตของความแตกต่างทางสถิติของโมเดล AI ปกติ
โมเดลภาษาใหญ่ไม่ได้เป็นแบบกำหนดตายตัว ดังนั้นผลลัพธ์ที่ผิดพลาดครั้งเดียวในตัวอย่างขนาดเล็กก็สามารถเปลี่ยนแปลงผลได้อย่างมาก
ความไม่พอใจในวงกว้างเป็นเชื้อไฟให้กับกระแสนี้
อย่างไรก็ตาม โพสต์นี้ก็ได้สร้างความสะเทือนใจ เนื่องจากนับตั้งแต่เปิดตัวเมื่อเดือนกุมภาพันธ์ 2026 Claude Opus 4.6 ก็ เผชิญกับคำร้องเรียนอย่างต่อเนื่อง เกี่ยวกับการรับรู้ถึงคุณภาพที่ลดลง
นักพัฒนารายงานว่าคำตอบที่ได้รับสั้นลง ติดตามคำสั่งได้อ่อนลง และความลึกด้านเหตุผลก็ลดลงโดยเฉพาะช่วงชั่วโมงเร่งด่วน
บางส่วนของปัญหานี้เกิดจากการเปลี่ยนแปลงตัวผลิตภัณฑ์โดยตั้งใจ โดย Anthropic ได้ นำเสนอตัวควบคุมการคิดแบบปรับได้ ที่ทำให้โมเดลสามารถปรับงบประมาณด้านเหตุผลของตนเองได้โดยอัตโนมัติ และหลังจากนั้นจึงตั้งค่าความพยายามโดยเริ่มต้นไว้ที่ระดับกลาง ซึ่งเน้นประสิทธิภาพมากกว่าความลึกสูงสุด
การวิเคราะห์โดยอิสระของเซสชัน Claude Code กว่า 6,800 ครั้งพบว่าความลึกด้านเหตุผลลดลงประมาณ 67% ภายในช่วงปลายเดือนกุมภาพันธ์
สัดส่วนการอ่านไฟล์ของโมเดลก่อนที่จะแก้ไขโค้ดลดลงจาก 6.6 เหลือ 2.0 ซึ่งบ่งชี้ว่ามันพยายามแก้ไขโค้ดทั้งที่ ตรวจสอบโค้ดเพียงเล็กน้อย
ความหมายต่อผู้ใช้ AI
สิ่งนี้สะท้อนถึงความตึงเครียดที่เพิ่มขึ้นในอุตสาหกรรม AI เพราะบริษัทต่างๆ จะปรับโมเดลเพื่อเน้นต้นทุนและขยายขนาดหลังเปิดตัว แต่ผู้ใช้หนักๆ ก็ยังคาดหวัง ประสิทธิภาพ สูงสุดอย่างสม่ำเสมอ ซึ่งความแตกต่างในลำดับความสำคัญเหล่านี้ก็ทำให้ความไว้วางใจถูกกัดกร่อน
จากหลักฐานที่มีอยู่ ข้อมูลของ BridgeBench ไม่ได้พิสูจน์ว่ามีการลดคุณภาพโดยตั้งใจ เนื่องจากการเปรียบเทียบเบนช์มาร์กไม่ได้อยู่ในเงื่อนไขเดียวกัน ผลลัพธ์ที่ซ้อนทับกันก็แทบจะเหมือนเดิม
อย่างไรก็ตาม ความไม่พอใจที่อยู่เบื้องหลังก็ไม่ได้ไร้เหตุผลเสียทีเดียว เพราะตัวควบคุมคอมพิวต์แบบปรับได้และการปรับระดับบริการ ได้เปลี่ยนแปลงการทำงานของ Claude Opus 4.6 ในทางปฏิบัติ สำหรับนักพัฒนาที่ต้องพึ่งพาผลลัพธ์ที่สม่ำเสมอ การเปลี่ยนแปลงเหล่านี้จึงสำคัญ
จนถึงวันที่ 13 เมษายน Anthropic ยังไม่ได้แถลงต่อสาธารณชนเกี่ยวกับข้อกล่าวหา BridgeBench เฉพาะนี้





