โพสต์ไวรัลในอังกฤษอ้างว่า Claude Opus 4.6 ถูกลดประสิทธิภาพ นักวิจารณ์ชี้ว่าเป็นวิทยาศาสตร์ที่ไม่มีมาตรฐาน

เขียนและแก้ไขโดย

เผยแพร่:13 เมษายน พ.ศ. 2569, 20:13 ICT

โพสต์ไวรัลบน X อ้างว่าภาพหลอนของ Claude Opus 4.6 เพิ่มขึ้น 98%
นักวิจารณ์พบว่าการเปรียบเทียบใช้ขนาดการทดสอบต่างกัน และไม่มีเกณฑ์มาตรฐานเท่าเทียมกัน
การวิเคราะห์แบบเดียวกันแสดงการเปลี่ยนแปลงน้อย อยู่ในช่วงความแปรปรวนปกติของ AI

BridgeMind AI อ้างว่า Claude Opus 4.6 ของ Anthropic ถูกลดประสิทธิภาพแบบลับๆ หลังการทดสอบซ้ำด้วยเกณฑ์วัดอาการหลอน โพสต์ที่กลายเป็นกระแสไวรัลนี้จึงถูกวิพากษ์วิจารณ์อย่างหนักในเรื่องวิธีการทดสอบที่มีข้อบกพร่อง

ข้อกล่าวหาดังกล่าวทำให้เกิดการถกเถียงในวงกว้างว่าบริษัท AI กำลังลดคุณภาพโมเดลที่มีค่าใช้จ่ายเพื่อประหยัดต้นทุนแบบเงียบๆ หรือไม่

ผู้สนับสนุน

BridgeMind ระบุอาการหลอนพุ่งขึ้น 98%

BridgeMind ซึ่งเป็นทีมที่อยู่เบื้องหลังการทดสอบการเขียนโค้ด Benchmark BridgeBench ได้โพสต์ว่า Claude Opus 4.6 หล่นจากอันดับสองไปอยู่อันดับที่สิบในกระดานผู้นำด้านอาการหลอน โดยความแม่นยำลดลงจาก 83.3% เหลือเพียง 68.3%

CLAUDE OPUS 4.6 ถูกเนิร์ฟแล้ว BridgeBench เพิ่งพิสูจน์ได้ สัปดาห์ที่แล้ว Claude Opus 4.6 อยู่อันดับ 2 ในเกณฑ์ Hallucination ด้วยความแม่นยำ 83.3% วันนี้อดีต Claude Opus 4.6 ถูกทดสอบใหม่และหล่นไปอยู่อันดับ 10 บนกระดานผู้นำโดยมีความแม่นยำเพียง 68.3% เท่านั้น โดยพวกเขา ระบุไว้

โพสต์ดังกล่าวชี้ว่าเป็นหลักฐานถึง ระดับการให้เหตุผลที่ลดลง แต่เมื่อตรวจสอบข้อมูลที่ใช้จริงกลับสะท้อนภาพที่แตกต่างกัน

นักวิจารณ์ยืนยันว่าการเปรียบเทียบนั้นมีข้อบกพร่องโดยพื้นฐาน

ตามที่นักวิทยาศาสตร์คอมพิวเตอร์ Paul Calcraft ระบุว่า ข้อกล่าวหานี้ถือเป็น วิทยาศาสตร์ที่แย่มาก โดยชี้ปัญหาสำคัญในกระบวนการทดสอบ

วิทยาศาสตร์ที่แย่มาก วันนี้คุณทดสอบ Opus บน 30 งานผลคะแนนก่อนหน้านี้อยู่แค่ *6* งาน เปรียบเทียบผลลัพธ์ใน 6 งานที่ซ้ำกัน: วันนี้ได้ 85.4% เทียบกับก่อนหน้านี้ 87.6% ความเปลี่ยนแปลงมาจากการประดิษฐ์ข้อมูล *เพียงครั้งเดียว* โดยไม่มีการทำซ้ำ ใกล้เคียงกับความแปรปรวนทางสถิติแบบธรรมดา Calcraft แสดงความคิดเห็น

คะแนนสูงเดิมได้มาจากแค่หกงานทดสอบเท่านั้น การทดสอบซ้ำรอบใหม่เพิ่มจำนวนงาน Benchmark เป็น 30 งาน

ผู้สนับสนุน

ในหกงานที่ตรงกัน ผลการทำงานเกือบเหมือนเดิม ลดลงจาก 87.6% เหลือเพียง 85.4% เท่านั้น

Despicable clout chasing. They tested Opus today on 30 tasks, previous Opus 4.6 score was on just *6* tasks. DIFFERENT BENCHMARK

6 tasks in common results: 85.4% score today vs. 87.6% prev. Swing is mostly from a *single* fabrication without repeats – easily statistical noise https://t.co/wmFfAfNmEW pic.twitter.com/opUxoVevpP
— Paul Calcraft (@paul_cal) April 12, 2026

ความเปลี่ยนแปลงเล็กน้อยนี้เกิดจากการประดิษฐ์ข้อมูลเพิ่มเติมครั้งเดียวในงานหนึ่ง เมื่อไม่มีการทดสอบซ้ำ จึงถือว่าอยู่ในขอบเขตของความแตกต่างทางสถิติของโมเดล AI ปกติ

โมเดลภาษาใหญ่ไม่ได้เป็นแบบกำหนดตายตัว ดังนั้นผลลัพธ์ที่ผิดพลาดครั้งเดียวในตัวอย่างขนาดเล็กก็สามารถเปลี่ยนแปลงผลได้อย่างมาก

ความไม่พอใจในวงกว้างเป็นเชื้อไฟให้กับกระแสนี้

อย่างไรก็ตาม โพสต์นี้ก็ได้สร้างความสะเทือนใจ เนื่องจากนับตั้งแต่เปิดตัวเมื่อเดือนกุมภาพันธ์ 2026 Claude Opus 4.6 ก็ เผชิญกับคำร้องเรียนอย่างต่อเนื่อง เกี่ยวกับการรับรู้ถึงคุณภาพที่ลดลง

นักพัฒนารายงานว่าคำตอบที่ได้รับสั้นลง ติดตามคำสั่งได้อ่อนลง และความลึกด้านเหตุผลก็ลดลงโดยเฉพาะช่วงชั่วโมงเร่งด่วน

บางส่วนของปัญหานี้เกิดจากการเปลี่ยนแปลงตัวผลิตภัณฑ์โดยตั้งใจ โดย Anthropic ได้ นำเสนอตัวควบคุมการคิดแบบปรับได้ ที่ทำให้โมเดลสามารถปรับงบประมาณด้านเหตุผลของตนเองได้โดยอัตโนมัติ และหลังจากนั้นจึงตั้งค่าความพยายามโดยเริ่มต้นไว้ที่ระดับกลาง ซึ่งเน้นประสิทธิภาพมากกว่าความลึกสูงสุด

New on the API: we're giving developers better control over model effort and more flexibility for long-running agents.

Adaptive thinking lets Claude calibrate its reasoning depth to each task, and context compaction keeps long-running tasks from hitting limits.
— Claude (@claudeai) February 5, 2026

การวิเคราะห์โดยอิสระของเซสชัน Claude Code กว่า 6,800 ครั้งพบว่าความลึกด้านเหตุผลลดลงประมาณ 67% ภายในช่วงปลายเดือนกุมภาพันธ์

สัดส่วนการอ่านไฟล์ของโมเดลก่อนที่จะแก้ไขโค้ดลดลงจาก 6.6 เหลือ 2.0 ซึ่งบ่งชี้ว่ามันพยายามแก้ไขโค้ดทั้งที่ ตรวจสอบโค้ดเพียงเล็กน้อย

ความหมายต่อผู้ใช้ AI

สิ่งนี้สะท้อนถึงความตึงเครียดที่เพิ่มขึ้นในอุตสาหกรรม AI เพราะบริษัทต่างๆ จะปรับโมเดลเพื่อเน้นต้นทุนและขยายขนาดหลังเปิดตัว แต่ผู้ใช้หนักๆ ก็ยังคาดหวัง ประสิทธิภาพ สูงสุดอย่างสม่ำเสมอ ซึ่งความแตกต่างในลำดับความสำคัญเหล่านี้ก็ทำให้ความไว้วางใจถูกกัดกร่อน

จากหลักฐานที่มีอยู่ ข้อมูลของ BridgeBench ไม่ได้พิสูจน์ว่ามีการลดคุณภาพโดยตั้งใจ เนื่องจากการเปรียบเทียบเบนช์มาร์กไม่ได้อยู่ในเงื่อนไขเดียวกัน ผลลัพธ์ที่ซ้อนทับกันก็แทบจะเหมือนเดิม

อย่างไรก็ตาม ความไม่พอใจที่อยู่เบื้องหลังก็ไม่ได้ไร้เหตุผลเสียทีเดียว เพราะตัวควบคุมคอมพิวต์แบบปรับได้และการปรับระดับบริการ ได้เปลี่ยนแปลงการทำงานของ Claude Opus 4.6 ในทางปฏิบัติ สำหรับนักพัฒนาที่ต้องพึ่งพาผลลัพธ์ที่สม่ำเสมอ การเปลี่ยนแปลงเหล่านี้จึงสำคัญ

จนถึงวันที่ 13 เมษายน Anthropic ยังไม่ได้แถลงต่อสาธารณชนเกี่ยวกับข้อกล่าวหา BridgeBench เฉพาะนี้

หมายเหตุบรรณาธิการ: เนื้อหาต่อไปนี้ไม่ได้สะท้อนถึงมุมมองหรือความคิดเห็นของ BeInCrypto มันจัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลเท่านั้นและไม่ควรถูกตีความว่าเป็นคำแนะนำทางการเงิน กรุณาทำการวิจัยของคุณเองก่อนที่จะทำการตัดสินใจลงทุนใดๆ ทั้งนี้เป็นไปตาม แนวทางของ Trust Project ของเรา และโปรดอ่าน ข้อกำหนดและเงื่อนไข, นโยบายความเป็นส่วนตัว และ ข้อจำกัดความรับผิดชอบ ของเรา