Mình chạy lại OmniVoice, bấm giờ từng bước lồng tiếng, và gặp vài lỗi kỳ lạ

Lần này mình lồng một video tiếng Anh sang tiếng Hàn. Mình bấm giờ từng bước của một lần lồng tiếng, và còn gặp cả tiếng rè rè như máy ngay chỗ lẽ ra phải là giọng người.

Nối tiếp bài trước, mình dành thêm chút thời gian với OmniVoice. Lần này mình tò mò hai chuyện. Một là lồng tiếng một video thực ra mất bao lâu. Hai là chiều ngược lại so với lần trước: chuyện gì xảy ra nếu mình biến một video tiếng Anh thành tiếng Hàn.

Nên mình lấy một đoạn clip ngắn bài phát biểu của Trump (tiếng Anh) và lồng sang tiếng Hàn. Đây là bản gốc trước:

Bản gốc: đoạn clip tiếng Anh mình muốn lồng sang tiếng Hàn

Và đây là kết quả sau khi OmniVoice lồng nó sang tiếng Hàn. Nó nhân bản giọng gốc rồi cho giọng đó nói tiếng Hàn:

OmniVoice: lồng tiếng Anh → Hàn, có nhân bản giọng gốc

Một lần lồng tiếng mất bao lâu

Để đưa một clip 22 giây đi trọn quy trình từ chép lời, dịch, tổng hợp giọng cho đến xuất ra mất khoảng 3 phút tổng cộng. Tất cả đều chạy trên chiếc MacBook của mình, không cần internet. Chia nhỏ theo từng bước thì như thế này:

Chuẩn bị (tách âm thanh ra khỏi video và tách giọng khỏi nền): khoảng 7 giây
Chép lời (biến lời nói thành chữ): khoảng 29 giây
Dịch (Anh sang Hàn): khoảng 90 giây
Dựng hồ sơ giọng (ghi nhận giọng gốc): khoảng 5 giây
Tổng hợp giọng + nhân bản: khoảng 49 giây
Xuất ra (ghép trở lại vào video): khoảng 2 giây

Một chi tiết thú vị: lần tổng hợp đầu tiên mất lâu hơn, nhưng chạy lại lần nữa thì thời gian giảm khoảng một nửa. Đó là vì thời gian nạp mô hình AI vào bộ nhớ lần đầu chỉ được tính ở lần chạy đầu tiên thôi.

Mỗi bước chạy bằng mô hình nào

Việc lồng tiếng được chia thành các bước, và mỗi bước do một mô hình khác nhau lo:

Tách giọng và nền: Demucs
Chép lời: WhisperX
Khớp thời gian từng từ: wav2vec2
Tách người nói (phân biệt ai đang nói): WavLM
Dịch: gemma2:27b (chất lượng tốt hơn trình dịch tích hợp sẵn)
Tổng hợp giọng + nhân bản: OmniVoice

Không phải mọi thứ đều suôn sẻ

Có hai chuyện làm mình vấp dọc đường.

Một, đôi khi ngay chỗ lẽ ra phải có giọng nói, mình lại nhận về một tiếng rè rè méo mó thay vì giọng người. Lần này mình bắt nó dựng tiếng Hàn từ một mẫu giọng tiếng Anh, và cái giọng đó cố bắt chước tiếng Hàn, một thứ tiếng nó chưa từng nói, nên đôi khi phát ra bị vỡ. Vậy nên mình chuyển sang một thiết lập tinh chỉnh phần tổng hợp qua nhiều lượt hơn, chạy lại, và video Trump ra ổn.

Hai, khi mình chạy bản dịch, có một câu dịch ra hoàn toàn khác với bản gốc, nên mình phải vào sửa tay.

Vậy, điều rút ra là

Trong tất cả các công cụ lồng tiếng mã nguồn mở mình từng dùng, cái này cài dễ gần như chỉ một cú nhấp. Nó cũng chạy mượt hơn mọi cái khác mình từng thử, điều mình rất thích. Dù vậy, chất lượng đầu ra vẫn chưa ở mức làm mình hài lòng.

Có ai ở đây từng dùng OmniVoice chưa? Mình rất muốn nghe các bạn đã thử loại video nào và chất lượng ra sao. Mình chạy nó trên Mac, nên mình cũng tò mò muốn nghe từ những người đã dùng nó trên các cấu hình khác.

Mình chạy lại OmniVoice, bấm giờ từng bước lồng tiếng, và gặp vài lỗi kỳ lạ

Một lần lồng tiếng mất bao lâu

Mỗi bước chạy bằng mô hình nào

Không phải mọi thứ đều suôn sẻ

Vậy, điều rút ra là

Điều mình thích

Điều còn tiếc

Đánh giá

Bình luận (0)

Mình chạy lại OmniVoice, bấm giờ từng bước lồng tiếng, và gặp vài lỗi kỳ lạ

Một lần lồng tiếng mất bao lâu

Mỗi bước chạy bằng mô hình nào

Không phải mọi thứ đều suôn sẻ

Vậy, điều rút ra là

Điều mình thích

Điều còn tiếc

Đánh giá

Nhận bản tin lồng tiếng AI hằng tuần

Bình luận (0)