OpenAI อัปเกรดโมเดล AI ด้านการถอดความเสียงและการสร้างเสียง เพิ่มความสมจริงและแม่นยำมากขึ้น

Tech1 week ago34 Views

OpenAI ประกาศการอัปเกรดครั้งสำคัญให้กับโมเดล AI ด้านการถอดความเสียงและการสร้างเสียง โดยปรับปรุงบริการเดิมให้มีความสมจริงและแม่นยำมากขึ้น โมเดลใหม่ประกอบด้วย gpt-4o-transcribe, gpt-4o-mini-transcribe และ gpt-4o-mini-tts การพัฒนานี้เป็นส่วนหนึ่งของกลยุทธ์ที่กว้างขึ้นของ OpenAI ในการสร้างระบบอัตโนมัติที่ซับซ้อนมากขึ้น ซึ่งสามารถทำงานให้ผู้ใช้ได้อย่างอิสระ

คุณสมบัติและการปรับปรุงที่สำคัญ

โมเดลแปลงเสียงเป็นข้อความ: โมเดล gpt-4o-transcribe และ gpt-4o-mini-transcribe ถูกออกแบบมาเพื่อแทนที่โมเดล Whisper รุ่นเก่า โดยมอบความแม่นยำที่ดีขึ้นและลดข้อผิดพลาดในการรับรู้ โดยเฉพาะอย่างยิ่งในการจัดการกับสำเนียงการพูดและสภาพแวดล้อมที่มีเสียงรบกวน โมเดลเหล่านี้ใช้ประโยชน์จากการเรียนรู้แบบเสริมกำลัง (reinforcement learning) และชุดข้อมูลเสียงที่หลากหลาย เพื่อปรับปรุงความน่าเชื่อถือในการถอดความ

โมเดลแปลงข้อความเป็นเสียง: โมเดล gpt-4o-mini-tts ให้เสียงที่สมจริงและควบคุมได้มากขึ้น ช่วยให้นักพัฒนาสามารถปรับแต่งการออกเสียงของข้อความได้ อย่างไรก็ตาม ขณะนี้รองรับเฉพาะเสียงที่สร้างขึ้นแบบประดิษฐ์และเสียงที่กำหนดไว้ล่วงหน้าเท่านั้น

ความพร้อมใช้งานและข้อจำกัด

โมเดลใหม่นี้สามารถใช้งานได้ผ่าน API ของ OpenAI ช่วยให้นักพัฒนาสามารถสร้างตัวแทนเสียงที่ทรงพลังมากขึ้น อย่างไรก็ตาม OpenAI ไม่มีแผนที่จะเปิดตัวโมเดลการถอดความเหล่านี้อย่างเปิดเผย เนื่องจากขนาดและความซับซ้อนของโมเดล แม้จะมีการปรับปรุง แต่โมเดลยังคงเผชิญกับความท้าทาย โดยเฉพาะกับภาษาอินดิกและดราวิเดียน ซึ่งอาจมีอัตราความผิดพลาดในระดับคำที่สูง

การพัฒนาในอนาคต

OpenAI ยังคงลงทุนในการปรับปรุงความชาญฉลาดและความแม่นยำของโมเดลเสียง โดยศึกษาวิธีที่จะช่วยให้นักพัฒนาสามารถผสานเสียงที่กำหนดเองได้ ในขณะที่ยังคงปฏิบัติตามมาตรฐานความปลอดภัย การเคลื่อนไหวนี้สอดคล้องกับวิสัยทัศน์ของ OpenAI ในการสร้างประสบการณ์ AI ที่เป็นส่วนตัวและซับซ้อนมากขึ้น

ที่มา: Best of AI

Leave a reply

Loading Next Post...
Follow
Sign In/Sign Up Sidebar Search
Loading

Signing-in 3 seconds...

Signing-up 3 seconds...