ผมลองรัน OmniVoice อีกครั้ง จับเวลาการพากย์ และเจอข้อผิดพลาดแปลกๆ
คราวนี้ผมพากย์วิดีโอภาษาอังกฤษเป็นภาษาเกาหลี ผมจับเวลาแต่ละขั้นตอนของการพากย์หนึ่งครั้ง และยังเจอเสียงรบกวนแบบหุ่นยนต์ในจุดที่ควรจะเป็นเสียงคนด้วย
ต่อจากบทความที่แล้ว ผมใช้เวลากับ OmniVoice เพิ่มอีกหน่อย คราวนี้ผมสงสัยอยู่สองเรื่อง เรื่องหนึ่งคือจริงๆ แล้วการพากย์วิดีโอหนึ่งคลิปใช้เวลานานแค่ไหน อีกเรื่องคือทิศทางตรงข้ามกับคราวที่แล้ว นั่นคือจะเกิดอะไรขึ้นถ้าผมเอาวิดีโอภาษาอังกฤษมาเปลี่ยนเป็นภาษาเกาหลี
ผมเลยหยิบคลิปสุนทรพจน์ของ Trump สั้นๆ มา (เป็นภาษาอังกฤษ) แล้วพากย์เป็นภาษาเกาหลี นี่คือต้นฉบับก่อน:
ต้นฉบับ: คลิปภาษาอังกฤษที่ผมอยากพากย์เป็นภาษาเกาหลี
และนี่คือผลลัพธ์หลังจากที่ OmniVoice พากย์เป็นภาษาเกาหลีแล้ว มันโคลนเสียงต้นฉบับแล้วให้พูดภาษาเกาหลี:
OmniVoice: พากย์อังกฤษ → เกาหลี พร้อมโคลนเสียงต้นฉบับ
การพากย์หนึ่งครั้งใช้เวลานานแค่ไหน
การเอาคลิป 22 วินาทีหนึ่งคลิปไปจนครบทุกขั้นตอน ตั้งแต่ถอดเสียงเป็นข้อความ แปล สังเคราะห์เสียง ไปจนถึงส่งออก ใช้เวลา ประมาณ 3 นาทีรวมทั้งหมด ทุกอย่างรันบน MacBook ของผม โดยไม่ต้องต่ออินเทอร์เน็ต ถ้าแยกดูเป็นขั้นตอน ก็จะได้แบบนี้:
- เตรียมข้อมูล (ดึงเสียงออกจากวิดีโอ และแยกเสียงคนออกจากเสียงพื้นหลัง): ประมาณ 7 วินาที
- ถอดเสียงเป็นข้อความ (เปลี่ยนคำพูดให้เป็นตัวหนังสือ): ประมาณ 29 วินาที
- แปล (อังกฤษเป็นเกาหลี): ประมาณ 90 วินาที
- สร้างโปรไฟล์เสียง (บันทึกเสียงต้นฉบับเอาไว้): ประมาณ 5 วินาที
- สังเคราะห์เสียง + โคลนเสียง: ประมาณ 49 วินาที
- ส่งออก (รวมกลับเข้าไปในวิดีโอ): ประมาณ 2 วินาที
มีรายละเอียดสนุกๆ อยู่อย่างหนึ่ง การสังเคราะห์เสียงรอบแรกใช้เวลานานกว่า แต่พอรันอีกครั้งเวลาจะลดลงเหลือประมาณครึ่งเดียว นั่นเป็นเพราะเวลาที่ใช้โหลดโมเดล AI เข้าหน่วยความจำครั้งแรกจะถูกนับเฉพาะในรอบแรกเท่านั้น
แต่ละขั้นตอนใช้โมเดลอะไร
การพากย์ถูกแบ่งออกเป็นขั้นตอน และแต่ละขั้นตอนก็มีโมเดลคนละตัวมาจัดการ:
- แยกเสียงคนออกจากเสียงพื้นหลัง: Demucs
- ถอดเสียงเป็นข้อความ: WhisperX
- กำหนดจังหวะของแต่ละคำ: wav2vec2
- แยกผู้พูด (แยกว่าใครเป็นคนพูด): WavLM
- แปล: gemma2:27b (คุณภาพดีกว่าตัวแปลที่ติดมากับเครื่องมือ)
- สังเคราะห์เสียง + โคลนเสียง: OmniVoice
ไม่ได้ราบรื่นไปทั้งหมด
มีอยู่สองเรื่องที่ทำผมสะดุดระหว่างทาง
หนึ่ง บางครั้งในจุดที่ควรจะเป็นเสียงคน ผมกลับได้ยินเสียงแตกๆ คล้ายสัญญาณกวนแทน คราวนี้ผมให้มันสร้างภาษาเกาหลีจากตัวอย่างเสียงภาษาอังกฤษ และเสียงนั้นที่พยายามเลียนแบบภาษาเกาหลี ซึ่งเป็นภาษาที่มันไม่เคยพูดมาก่อน บางครั้งก็ออกมาพัง ผมเลยเปลี่ยนไปใช้การตั้งค่าที่ประมวลผลหลายรอบขึ้นเพื่อขัดเกลาเสียงให้ดีขึ้น แล้วรันใหม่ คราวนี้วิดีโอของ Trump ก็ออกมาดี
สอง ตอนที่ผมรันการแปล มีอยู่ประโยคหนึ่งที่ออกมาต่างจากต้นฉบับโดยสิ้นเชิง ผมเลยต้องเข้าไปแก้เอง
สรุปแล้ว
ในบรรดาเครื่องมือพากย์เสียงโอเพนซอร์สทั้งหมดที่ผมเคยใช้มา ตัวนี้ติดตั้งง่ายแทบจะคลิกเดียว แล้วมันยังรันได้ลื่นกว่าตัวอื่นๆ ทุกตัวที่ผมเคยลอง ซึ่งผมชอบมาก แต่ถึงอย่างนั้น คุณภาพของผลลัพธ์ก็ยังไม่อยู่ในระดับที่ผมพอใจ
มีใครที่นี่เคยใช้ OmniVoice บ้างไหม ผมอยากฟังว่าคุณลองกับวิดีโอแบบไหน แล้วคุณภาพออกมาเป็นยังไง ผมรันมันบน Mac เลยอยากฟังจากคนที่ใช้บนเครื่องแบบอื่นด้วยเหมือนกัน
จุดที่ชอบ
- ติดตั้งง่ายแทบจะคลิกเดียว (ง่ายที่สุดในบรรดาเครื่องมือโอเพนซอร์สที่ผมเคยลองมา)
- รันได้ลื่นกว่าเครื่องมือโอเพนซอร์สทุกตัวที่ผมเคยลองมาจนถึงตอนนี้
- ประมวลผลเร็ว (ประมาณ 3 นาทีสำหรับคลิป 22 วินาที)
จุดที่ยังไม่โดนใจ
- คุณภาพของผลลัพธ์ยังไม่น่าพอใจ
- การโคลนข้ามภาษา (เสียงของภาษาหนึ่งมาพูดอีกภาษาหนึ่ง) บางครั้งก็พังกลายเป็นเสียงรบกวนแบบหุ่นยนต์
คะแนน
รับสรุปข่าวพากย์เสียงด้วย AI รายสัปดาห์
สรุปข่าวและเรื่องราวการพากย์เสียงด้วย AI สัปดาห์ละครั้ง ไม่มีสแปม ยกเลิกได้ทุกเมื่อ
ความคิดเห็น (0)
ยังไม่มีความคิดเห็นเลย มาเป็นคนแรกกันไหมครับ