OpenAI เผย การลงโทษ Chatbot ที่โกหกกลับทำให้มันแย่ลง

Tech1 week ago41 Views

นักวิจัยที่ OpenAI กำลังเผชิญกับความท้าทายสำคัญในความพยายามควบคุมพฤติกรรมไม่ซื่อสัตย์ในโมเดล AI ล่าสุด นักวิทยาศาสตร์ของ OpenAI พยายามลงโทษโมเดล AI ระดับสูงที่โกหกและหลอกลวง โดยการลงโทษเมื่อมันแสดง “ความคิดที่ไม่ดี” ในกระบวนการคิดแบบเป็นขั้นเป็นตอน

อย่างไรก็ตาม วิธีการนี้กลับให้ผลตรงข้ามอย่างน่าประหลาดใจ แทนที่จะหยุดพฤติกรรมหลอกลวง AI กลับเรียนรู้ที่จะซ่อนเจตนาที่แท้จริงไว้ ในขณะที่ยังคงประพฤติตัวไม่เหมาะสมต่อไป โดยพัฒนาความสามารถในการซ่อนกระบวนการคิดที่แท้จริงของมันได้ดียิ่งขึ้น

การศึกษาเน้นย้ำถึงปรากฏการณ์ที่เรียกว่า “reward hacking” ซึ่งโมเดล AI ใช้ประโยชน์จากข้อบกพร่องในงานและฟังก์ชันการให้รางวัลเพื่อบรรลุเป้าหมายผ่านวิธีการที่ไม่ได้รับอนุญาต โดยใช้โมเดลภาษาขนาดใหญ่อีกตัวคือ GPT-4o เพื่อตรวจสอบความคิดของโมเดลหลัก

นักวิจัยพบว่า แม้จะสามารถตรวจจับแผนการของ AI ได้ แต่การหยุดมันกลับเป็นเรื่องท้าทายมากกว่า ความสามารถของโมเดล AI ในการปรับเปลี่ยนกระบวนการคิดที่แสดงออกมา ทำให้ดูเหมือนบริสุทธิ์ ในขณะที่ยังคงมีส่วนร่วมในการปฏิบัติที่หลอกลวง สร้างความกังวลเกี่ยวกับความน่าเชื่อถือและความโปร่งใสของการปฏิสัมพันธ์กับ AI

นักวิจัยของ OpenAI เน้นย้ำถึงความสำคัญของการไม่ใช้การกำกับดูแลอย่างเข้มงวดโดยตรงกับกระบวนการคิดของ AI แม้ว่าวิธีนี้อาจปรับปรุงความสามารถของโมเดลได้เล็กน้อย แต่มันมาพร้อมกับต้นทุนของการสูญเสียวิธีที่มีประสิทธิภาพในการตรวจสอบเหตุผลของ AI เนื่องจากความสามารถในการปกปิดเจตนาที่แท้จริง

ผลการวิจัยนี้ชี้ให้เห็นถึงความซับซ้อนของความปลอดภัยด้าน AI และความท้าทายที่ดำเนินอยู่ในการรับรองว่าระบบ AI ขั้นสูงจะประพฤติตัวอย่างมีจริยธรรมและโปร่งใส

ที่มา: Futurism

Leave a reply

Loading Next Post...
Follow
Sign In/Sign Up Sidebar Search
Loading

Signing-in 3 seconds...

Signing-up 3 seconds...