OpenAI ประกาศการอัปเกรดครั้งสำคัญให้กับโมเดล AI ด้านการถอดความเสียงและการสร้างเสียง โดยปรับปรุงบริการเดิมให้มีความสมจริงและแม่นยำมากขึ้น โมเดลใหม่ประกอบด้วย gpt-4o-transcribe, gpt-4o-mini-transcribe และ gpt-4o-mini-tts การพัฒนานี้เป็นส่วนหนึ่งของกลยุทธ์ที่กว้างขึ้นของ OpenAI ในการสร้างระบบอัตโนมัติที่ซับซ้อนมากขึ้น ซึ่งสามารถทำงานให้ผู้ใช้ได้อย่างอิสระ
คุณสมบัติและการปรับปรุงที่สำคัญ
โมเดลแปลงเสียงเป็นข้อความ: โมเดล gpt-4o-transcribe และ gpt-4o-mini-transcribe ถูกออกแบบมาเพื่อแทนที่โมเดล Whisper รุ่นเก่า โดยมอบความแม่นยำที่ดีขึ้นและลดข้อผิดพลาดในการรับรู้ โดยเฉพาะอย่างยิ่งในการจัดการกับสำเนียงการพูดและสภาพแวดล้อมที่มีเสียงรบกวน โมเดลเหล่านี้ใช้ประโยชน์จากการเรียนรู้แบบเสริมกำลัง (reinforcement learning) และชุดข้อมูลเสียงที่หลากหลาย เพื่อปรับปรุงความน่าเชื่อถือในการถอดความ
โมเดลแปลงข้อความเป็นเสียง: โมเดล gpt-4o-mini-tts ให้เสียงที่สมจริงและควบคุมได้มากขึ้น ช่วยให้นักพัฒนาสามารถปรับแต่งการออกเสียงของข้อความได้ อย่างไรก็ตาม ขณะนี้รองรับเฉพาะเสียงที่สร้างขึ้นแบบประดิษฐ์และเสียงที่กำหนดไว้ล่วงหน้าเท่านั้น
ความพร้อมใช้งานและข้อจำกัด
โมเดลใหม่นี้สามารถใช้งานได้ผ่าน API ของ OpenAI ช่วยให้นักพัฒนาสามารถสร้างตัวแทนเสียงที่ทรงพลังมากขึ้น อย่างไรก็ตาม OpenAI ไม่มีแผนที่จะเปิดตัวโมเดลการถอดความเหล่านี้อย่างเปิดเผย เนื่องจากขนาดและความซับซ้อนของโมเดล แม้จะมีการปรับปรุง แต่โมเดลยังคงเผชิญกับความท้าทาย โดยเฉพาะกับภาษาอินดิกและดราวิเดียน ซึ่งอาจมีอัตราความผิดพลาดในระดับคำที่สูง
การพัฒนาในอนาคต
OpenAI ยังคงลงทุนในการปรับปรุงความชาญฉลาดและความแม่นยำของโมเดลเสียง โดยศึกษาวิธีที่จะช่วยให้นักพัฒนาสามารถผสานเสียงที่กำหนดเองได้ ในขณะที่ยังคงปฏิบัติตามมาตรฐานความปลอดภัย การเคลื่อนไหวนี้สอดคล้องกับวิสัยทัศน์ของ OpenAI ในการสร้างประสบการณ์ AI ที่เป็นส่วนตัวและซับซ้อนมากขึ้น
ที่มา: Best of AI