ในที่สุดผมก็พากย์เสียงวิดีโอทั้งคลิปได้ด้วย AI โอเพนซอร์ส

งานพากย์ที่เคยทำได้กลับพังใส่ผมอีกครั้ง และนี่คือวิธีที่ผมยังได้วิดีโอที่เสร็จสมบูรณ์ออกมาสองคลิป

ก่อนหน้านี้ผมเคยทำให้เครื่องมือพวกนี้พากย์เสียงได้แล้ว แต่พอนั่งลงทำสิ่งเดิมเป๊ะๆ อีกครั้ง ข้อผิดพลาดก็กลับมาทันที คราวนี้ผมสู้ฝ่ามันมาทีละอันจนครบ และเครื่องมือทั้งสองตัวก็ผลิตงานพากย์ของจริงที่ดูได้จริงๆ ออกมา เวลาส่วนใหญ่ของวันนั้นผมก็ยังนั่งติดอยู่เหมือนเดิม แต่สุดท้ายมันก็ใช้ได้ และในที่สุดผมก็มีวิดีโอที่เสร็จสมบูรณ์เอาไว้โชว์ แทนที่จะเป็นแค่เรื่องเล่าว่าเกือบจะสำเร็จ

คลิปเดียวกัน พากย์สองแบบ

เครื่องมือทั้งสองพากย์คลิปเดียวกัน เป็นวิดีโอสั้นสาธารณสมบัติ (ปลอดลิขสิทธิ์) ของ NASA เกี่ยวกับภารกิจดวงจันทร์ Artemis คุณจึงเปรียบเทียบได้ตรงๆ ทั้งสองทำงานคนละแบบกันโดยสิ้นเชิง:

KrillinAI ถอดเสียงเป็นตัวอักษร แปล แล้วพากย์ด้วยเสียงสำเร็จรูป และยังเผาซับไตเติลลงบนวิดีโอให้ด้วย
Voice-Pro โคลนเสียงจากตัวอย่างสั้นๆ แล้วพากย์ด้วย เสียงนั้น

นี่คือคลิปต้นฉบับ ก่อนที่เครื่องมือไหนจะแตะมัน:

ต้นฉบับ: คลิปของ NASA ภาษาอังกฤษ (ก่อนพากย์เสียง)

KrillinAI: ความล้มเหลวเงียบๆ ที่ทำผมขนลุก

KrillinAI พ่นข้อผิดพลาดออกมารัวๆ ก่อนจะยอมพากย์ ส่วนใหญ่มาจากการไปชนกับอีกแอปพากย์เสียงที่ผมติดตั้งไว้ แต่ตัวที่ทำผมขนลุกจริงๆ กลับไม่ใช่ข้อผิดพลาดด้วยซ้ำ คืองานแปลของผมออกมาเป็นภาษาอังกฤษล้วนๆ ยังไม่ได้แปล โดยไม่มีคำเตือน และไม่มีอะไรขึ้นสีแดงบนจอ เครื่องแปลแค่ไม่ได้ทำงาน และแทนที่จะบ่นสักคำ KrillinAI กลับปล่อยข้อความต้นฉบับผ่านไปดื้อๆ ราวกับว่ามัน คือ คำแปล สำหรับคนอย่างผม นั่นคือบั๊กที่น่ากลัวที่สุด: ผลลัพธ์ดูเหมือนเสร็จแล้ว คุณจึงไม่มีทางนึกขึ้นได้ว่าต้องไปตรวจ

KrillinAI: พากย์ด้วยเสียง Edge-TTS

ขอบันทึกตามจริงสักหน่อย ในแพ็กเกจฟรี คุณจะใช้ได้แค่เสียงของ Microsoft และการเลือกเสียงต้องพิมพ์รหัสของมันลงไปเอง ไม่ใช่เลือกจากเมนู เป็นความแปลกเล็กๆ ที่คุณจะชินเร็วมาก แต่คุณภาพการพากย์ก็ค่อนข้างแน่นสำหรับเครื่องมือโอเพนซอร์ส และงานแปลก็ยืนระยะได้ดีเช่นกัน หน้าตาการใช้งานเรียบง่ายกว่าของ Voice-Pro และผมก็ชอบมันเพราะแบบนั้น สิ่งที่ผมซาบซึ้งที่สุด: มันเผาซับไตเติลที่สะอาดและจับจังหวะตรงเป๊ะลงให้เองโดยอัตโนมัติ ผมเลยไม่ต้องไปจัดอะไรเลย ใช้แบบฟรีไปแล้วรู้สึกดีพอจนผมเริ่มอยากลองฟีเจอร์โคลนเสียงแบบเสียเงินของมันสักวันเหมือนกัน

Voice-Pro: ลงมือซ่อมเครื่องยนต์เอง

ข้อผิดพลาดของ Voice-Pro อยู่ลึกกว่า ลงไปข้างในไลบรารีเล็กๆ ที่มันถูกประกอบขึ้นมา ตัวหนึ่งเอาแต่ร้องหาชิ้นส่วนที่ไม่ได้ใช้ในการพากย์ด้วยซ้ำ แล้วมันก็แครชตั้งแต่ยังไม่ทันได้เริ่ม การไล่แก้ทีละอันนั้นไม่มีวันจบ ทุกครั้งที่ผมปิดอันหนึ่งได้ ก็มีอันคล้ายๆ กันโผล่ขึ้นมาอีก สิ่งที่สุดท้ายแล้วได้ผลคือไปแก้ที่ จุดเดียว ที่ทุกตัวต้องผ่าน: ให้ข้ามชิ้นส่วนเสริมที่ขาดไปแทนที่จะแครช เปลี่ยนแค่จุดเดียว ข้อผิดพลาดทั้งฝูงนั้นก็หายไปพร้อมกันหมด

ผมรันมันสองแบบเพื่อให้การเปรียบเทียบยุติธรรม แบบแรกด้วยเสียง Microsoft ตัวเดียวกัน กับที่ KrillinAI ใช้ ปรับเงื่อนไขให้เหมือนกันมากที่สุดเท่าที่ทำได้:

Voice-Pro: เสียง Edge-TTS ตัวเดียวกับ KrillinAI

จากนั้นด้วยการโคลนเสียงของ Voice-Pro เอง ซึ่งเป็นฟีเจอร์ที่มันถูกสร้างขึ้นมาเพื่อสิ่งนี้จริงๆ:

Voice-Pro: โคลนเสียงด้วย CosyVoice

การโคลนนั้นดีจริงๆ เป็นสิ่งที่เก่งที่สุดที่เครื่องมือทั้งสองทำได้ มันใช้เวลารันนานกว่าเสียง Microsoft ธรรมดาอย่างเห็นได้ชัด แต่ผลลัพธ์ก็คุ้มกับการรอเพิ่มอย่างเต็มที่ และนี่คือความต่างหลักระหว่างสองตัว: Voice-Pro ให้ทุกอย่างฟรี รวมถึงการโคลน ขณะที่ KrillinAI เก็บการโคลนไว้หลัง API แบบเสียเงิน สำหรับคนที่ตั้งใจจะอยู่กับของฟรีล้วนๆ อย่างผม แค่นั้นก็ตัดสินอะไรไปได้เยอะ

วางเทียบข้างกัน ทั้งสองมีบุคลิกต่างกันมาก ความสะดวกที่แท้จริงของ KrillinAI คือซับไตเติล: มันออกมาสะอาดและตัดบรรทัดได้ดีเองโดยไม่ต้องแก้ จุดอ่อนคือจังหวะ: เพื่อให้เสียงพากย์เข้ากับจังหวะของต้นฉบับ มันเร่งแล้วก็หน่วง และการยืดๆ หดๆ อยู่ตลอดนั้นสุดท้ายฟังดูค่อนข้างไม่เป็นธรรมชาติ การจะทำให้จังหวะลงตัวคงต้องใช้แรงเพิ่มอีกหน่อย อีกอย่างที่ผมรู้สึกขาดคือวิดีโอที่เสร็จออกมาโดนถอดเสียงพื้นหลังออกไป

Voice-Pro ไปคนละทาง ซับไตเติลนั้นคุณต้องแก้เอง แต่ทุกอย่างที่เหลือทำให้ผมพอใจ ความยาวของเสียงถูกจับให้พอดีโดยอัตโนมัติ จังหวะเลยคงที่และเป็นธรรมชาติ และอย่างที่บอก เสียงโคลนก็ฟังดูดีมาก ที่ดีที่สุดคือเสียงพื้นหลังถูกเก็บไว้ในวิดีโอที่เสร็จแล้ว ผลลัพธ์จึงพร้อมเอาไปโพสต์ที่ไหนก็ได้ทันที สำหรับผม ส่วนสุดท้ายนี่แหละที่สร้างความต่างมากที่สุด

แต่ละตัวใช้เวลานานแค่ไหน

บน RTX 3080 พากย์ทั้งคลิปตั้งแต่ต้น:

เครื่องมือ & เสียง	เวลา
KrillinAI (Edge-TTS)	1 นาที 56 วินาที
Voice-Pro (Edge-TTS, เสียงเดียวกัน)	4 นาที 4 วินาที
Voice-Pro (โคลน CosyVoice)	4 นาที 32 วินาที

ด้วยเสียง Edge-TTS ตัวเดียวกัน KrillinAI เร็วกว่าราวสองเท่า ส่วนใหญ่เพราะ Voice-Pro ทำงานเสริมที่หนักกว่า อย่างการแยกเสียงพื้นหลังออกมา การโคลนเสียงด้วย CosyVoice ช้าที่สุด เพราะมันรันโมเดลบน GPU ทีละบรรทัด ถึงอย่างนั้น ไม่มีอันไหนช้าในแง่สัมบูรณ์เลย ยังไงก็พูดถึงแค่ไม่กี่นาทีทั้งนั้น

สิ่งที่วันนั้นสอนผม

ผมนึกว่าส่วนที่ยากจะเป็นพื้นที่ดิสก์หรือการนั่งรอดาวน์โหลด ที่ไหนได้ ไม่ใช่เลย ทุกอย่างดาวน์โหลดมาเรียบร้อยดี ส่วนที่ยากที่สุดคือทั้งหมดนี้เคยทำได้มาก่อน แต่พอผมนั่งลงทำสิ่งเดิมเป๊ะๆ อีกครั้ง มันกลับไม่ยอมรันเฉยๆ นั่นแหละที่ทำเอาหัวหมุน: ไม่ใช่ปัญหาใหม่เอี่ยมอะไร แต่เป็นสิ่งที่ครั้งก่อนทำงานได้สมบูรณ์แบบ คราวนี้กลับเงียบๆ ปฏิเสธที่จะทำงาน อีกบทเรียนที่ควรเก็บไว้: ระวังความล้มเหลวแบบ เงียบๆ การที่ KrillinAI ส่งภาษาอังกฤษที่ยังไม่ได้แปลคืนมาโดยไม่ปริปากสักคำ คือกับดักที่สมบูรณ์แบบ เพราะผลลัพธ์ดูเหมือนเสร็จแล้ว

เรื่องพวกนี้แทบทั้งหมด ผมก็ยังเป็นแค่คนเขียนโค้ดไม่เป็นที่คลำทางอยู่ในความมืดเหมือนเดิม แต่คราวนี้การคลำทางจบลงที่บางอย่างซึ่งเป็นจริง: งานพากย์ที่เสร็จสมบูรณ์ของคลิปเดียวกันสองชิ้น ทำขึ้นทั้งหมดด้วยเครื่องมือโอเพนซอร์สที่ใช้ฟรี

ในที่สุดผมก็พากย์เสียงวิดีโอทั้งคลิปได้ด้วย AI โอเพนซอร์ส

คลิปเดียวกัน พากย์สองแบบ

KrillinAI: ความล้มเหลวเงียบๆ ที่ทำผมขนลุก

Voice-Pro: ลงมือซ่อมเครื่องยนต์เอง

แต่ละตัวใช้เวลานานแค่ไหน

สิ่งที่วันนั้นสอนผม

คะแนน

ความคิดเห็น (0)

ในที่สุดผมก็พากย์เสียงวิดีโอทั้งคลิปได้ด้วย AI โอเพนซอร์ส

คลิปเดียวกัน พากย์สองแบบ

KrillinAI: ความล้มเหลวเงียบๆ ที่ทำผมขนลุก

Voice-Pro: ลงมือซ่อมเครื่องยนต์เอง

แต่ละตัวใช้เวลานานแค่ไหน

สิ่งที่วันนั้นสอนผม

คะแนน

รับสรุปข่าวพากย์เสียงด้วย AI รายสัปดาห์

ความคิดเห็น (0)