ElevenLabs สตาร์ทอัพด้าน AI ที่มีมูลค่าบริษัท 3.3 พันล้านเหรียญสหรัฐ (ประมาณ 115,000 ล้านบาท) เปิดตัวโมเดลแปลงเสียงเป็นข้อความตัวแรกของบริษัทชื่อว่า Scribe โดยรองรับการถอดเสียงได้มากกว่า 99 ภาษา และให้ความแม่นยำสูงใน 25 ภาษาหลัก รวมถึงภาษาอังกฤษ ฝรั่งเศส และสเปน ซึ่งถูกออกแบบมาเพื่อแข่งขันกับโซลูชันที่มีอยู่ในตลาดอย่าง Gemini 2.0 Flash ของ Google และ Whisper ของ OpenAI โดยทำผลงานได้ดีกว่าในการทดสอบเกณฑ์มาตรฐานต่างๆ
Scribe มาพร้อมฟีเจอร์ขั้นสูง เช่น การแยกแยะผู้พูดอัจฉริยะ การระบุเวลาระดับคำ และการแท็กเหตุการณ์เสียงอัตโนมัติ สามารถแยกแยะผู้พูดได้ถึง 32 คนในไฟล์เสียงเดียว และจัดการกับเสียงแวดล้อมที่ซับซ้อนได้ เช่น เสียงหัวเราะ และเสียงรบกวนพื้นหลัง ปัจจุบันโมเดลนี้รองรับเฉพาะไฟล์เสียงที่บันทึกไว้แล้ว และมีแผนจะเปิดตัวเวอร์ชันแบบเรียลไทม์ในเร็วๆ นี้
ด้านราคา Scribe คิดค่าบริการชั่วโมงละ 0.40 เหรียญสหรัฐ (ประมาณ 14 บาท) ต่อชั่วโมงการถอดเสียง แม้ว่าคู่แข่งบางรายจะเสนอราคาที่ถูกกว่า ElevenLabs มุ่งมั่นที่จะพัฒนาโมเดลตรวจจับเสียงให้ดียิ่งขึ้น โดยใช้ทีมงานภายในบริษัทในการตรวจสอบและให้ข้อมูลย้อนกลับอย่างรวดเร็ว นอกจากนี้ยังมีเครื่องมือสำหรับลูกค้าในการถอดข้อความจากวิดีโอเพื่อทำคำบรรยายหรือซับไตเติ้ล
การเปิดตัว Scribe แสดงให้เห็นถึงความมุ่งมั่นของ ElevenLabs ในการพัฒนาโมเดล AI ด้านเสียง โดยเฉพาะในภาษาที่ยังไม่ค่อยมีการรองรับ ด้วยความแม่นยำสูงและการรองรับหลายภาษา ทำให้เป็นโซลูชันที่น่าสนใจสำหรับบริษัทข้ามชาติและบริษัทสื่อ
ที่มา: Best of AI