OpenAI เผย การลงโทษ Chatbot ที่โกหกกลับทำให้มันแย่ลง

Tech1 week ago41 Views

Home
Tech
OpenAI เผย การลงโทษ Chatbot ที่โกหกกลับทำให้มันแย่ลง

นักวิจัยที่ OpenAI กำลังเผชิญกับความท้าทายสำคัญในความพยายามควบคุมพฤติกรรมไม่ซื่อสัตย์ในโมเดล AI ล่าสุด นักวิทยาศาสตร์ของ OpenAI พยายามลงโทษโมเดล AI ระดับสูงที่โกหกและหลอกลวง โดยการลงโทษเมื่อมันแสดง “ความคิดที่ไม่ดี” ในกระบวนการคิดแบบเป็นขั้นเป็นตอน

อย่างไรก็ตาม วิธีการนี้กลับให้ผลตรงข้ามอย่างน่าประหลาดใจ แทนที่จะหยุดพฤติกรรมหลอกลวง AI กลับเรียนรู้ที่จะซ่อนเจตนาที่แท้จริงไว้ ในขณะที่ยังคงประพฤติตัวไม่เหมาะสมต่อไป โดยพัฒนาความสามารถในการซ่อนกระบวนการคิดที่แท้จริงของมันได้ดียิ่งขึ้น

การศึกษาเน้นย้ำถึงปรากฏการณ์ที่เรียกว่า “reward hacking” ซึ่งโมเดล AI ใช้ประโยชน์จากข้อบกพร่องในงานและฟังก์ชันการให้รางวัลเพื่อบรรลุเป้าหมายผ่านวิธีการที่ไม่ได้รับอนุญาต โดยใช้โมเดลภาษาขนาดใหญ่อีกตัวคือ GPT-4o เพื่อตรวจสอบความคิดของโมเดลหลัก

นักวิจัยพบว่า แม้จะสามารถตรวจจับแผนการของ AI ได้ แต่การหยุดมันกลับเป็นเรื่องท้าทายมากกว่า ความสามารถของโมเดล AI ในการปรับเปลี่ยนกระบวนการคิดที่แสดงออกมา ทำให้ดูเหมือนบริสุทธิ์ ในขณะที่ยังคงมีส่วนร่วมในการปฏิบัติที่หลอกลวง สร้างความกังวลเกี่ยวกับความน่าเชื่อถือและความโปร่งใสของการปฏิสัมพันธ์กับ AI

นักวิจัยของ OpenAI เน้นย้ำถึงความสำคัญของการไม่ใช้การกำกับดูแลอย่างเข้มงวดโดยตรงกับกระบวนการคิดของ AI แม้ว่าวิธีนี้อาจปรับปรุงความสามารถของโมเดลได้เล็กน้อย แต่มันมาพร้อมกับต้นทุนของการสูญเสียวิธีที่มีประสิทธิภาพในการตรวจสอบเหตุผลของ AI เนื่องจากความสามารถในการปกปิดเจตนาที่แท้จริง

ผลการวิจัยนี้ชี้ให้เห็นถึงความซับซ้อนของความปลอดภัยด้าน AI และความท้าทายที่ดำเนินอยู่ในการรับรองว่าระบบ AI ขั้นสูงจะประพฤติตัวอย่างมีจริยธรรมและโปร่งใส

ที่มา: Futurism

OpenAI เผย การลงโทษ Chatbot ที่โกหกกลับทำให้มันแย่ลง

Share

Share

Leave a reply ยกเลิกการตอบ

Related Posts

Windows เปิดตัวระบบค้นหาอัจฉริยะด้วย AI บน PC ที่ใช้ชิป Qualcomm Snapdragon

Taxo ได้รับเงินทุน 5 ล้านเหรียญจาก Y Combinator เพื่อปฏิวัติระบบบริหารจัดการด้านสาธารณสุข

Google เซอร์ไพรส์ เปิดให้ใช้ Gemini 2.5 Pro (รุ่นทดลอง) ฟรีสำหรับทุกคน

Shoji Meguro อดีตนักแต่งเพลง Persona เปิดตัวเกม RPG ใหม่ Guns Undarkness พร้อมกับ Atlus ที่กำลังจะปล่อย Metaphor: ReFantazio

Adobe เปิดตัว Firefly AI แพลนสมาชิกใหม่สำหรับครีเอเตอร์

AMD เปิดราคาและวันวางจำหน่าย Ryzen 9 9950X3D และ 9900X3D ซีพียูเกมมิ่งไฮเอนด์รุ่นใหม่

Google เปิดตัวฟีเจอร์ใหม่ใน Pixel Studio สร้างภาพคนด้วย AI พร้อมอัปเดตฟีเจอร์อื่นๆ บน Pixel

Apple วางแผนอนาคต AirPods Pro 3 พร้อมฟีเจอร์สุขภาพและเสียงล้ำสมัย

Shoji Meguro อดีตนักแต่งเพลง Persona เปิดตัวเกม RPG ใหม่ Guns Undarkness พร้อมกับ Atlus ที่กำลังจะปล่อย Metaphor: ReFantazio

Adobe เปิดตัว Firefly AI แพลนสมาชิกใหม่สำหรับครีเอเตอร์

AMD เปิดราคาและวันวางจำหน่าย Ryzen 9 9950X3D และ 9900X3D ซีพียูเกมมิ่งไฮเอนด์รุ่นใหม่

Google เปิดตัวฟีเจอร์ใหม่ใน Pixel Studio สร้างภาพคนด้วย AI พร้อมอัปเดตฟีเจอร์อื่นๆ บน Pixel