opendub.ai
#ai-dubbing#omnivoice#open-source#voice-cloning

Mình chạy lại OmniVoice, bấm giờ từng bước lồng tiếng, và gặp vài lỗi kỳ lạ

Lần này mình lồng một video tiếng Anh sang tiếng Hàn. Mình bấm giờ từng bước của một lần lồng tiếng, và còn gặp cả tiếng rè rè như máy ngay chỗ lẽ ra phải là giọng người.

opendub · 2026-06-23 · 4 phút đọc

Nối tiếp bài trước, mình dành thêm chút thời gian với OmniVoice. Lần này mình tò mò hai chuyện. Một là lồng tiếng một video thực ra mất bao lâu. Hai là chiều ngược lại so với lần trước: chuyện gì xảy ra nếu mình biến một video tiếng Anh thành tiếng Hàn.

Nên mình lấy một đoạn clip ngắn bài phát biểu của Trump (tiếng Anh) và lồng sang tiếng Hàn. Đây là bản gốc trước:

Bản gốc: đoạn clip tiếng Anh mình muốn lồng sang tiếng Hàn

Và đây là kết quả sau khi OmniVoice lồng nó sang tiếng Hàn. Nó nhân bản giọng gốc rồi cho giọng đó nói tiếng Hàn:

OmniVoice: lồng tiếng Anh → Hàn, có nhân bản giọng gốc

Một lần lồng tiếng mất bao lâu

Để đưa một clip 22 giây đi trọn quy trình từ chép lời, dịch, tổng hợp giọng cho đến xuất ra mất khoảng 3 phút tổng cộng. Tất cả đều chạy trên chiếc MacBook của mình, không cần internet. Chia nhỏ theo từng bước thì như thế này:

  • Chuẩn bị (tách âm thanh ra khỏi video và tách giọng khỏi nền): khoảng 7 giây
  • Chép lời (biến lời nói thành chữ): khoảng 29 giây
  • Dịch (Anh sang Hàn): khoảng 90 giây
  • Dựng hồ sơ giọng (ghi nhận giọng gốc): khoảng 5 giây
  • Tổng hợp giọng + nhân bản: khoảng 49 giây
  • Xuất ra (ghép trở lại vào video): khoảng 2 giây

Một chi tiết thú vị: lần tổng hợp đầu tiên mất lâu hơn, nhưng chạy lại lần nữa thì thời gian giảm khoảng một nửa. Đó là vì thời gian nạp mô hình AI vào bộ nhớ lần đầu chỉ được tính ở lần chạy đầu tiên thôi.

Mỗi bước chạy bằng mô hình nào

Việc lồng tiếng được chia thành các bước, và mỗi bước do một mô hình khác nhau lo:

  • Tách giọng và nền: Demucs
  • Chép lời: WhisperX
  • Khớp thời gian từng từ: wav2vec2
  • Tách người nói (phân biệt ai đang nói): WavLM
  • Dịch: gemma2:27b (chất lượng tốt hơn trình dịch tích hợp sẵn)
  • Tổng hợp giọng + nhân bản: OmniVoice

Không phải mọi thứ đều suôn sẻ

Có hai chuyện làm mình vấp dọc đường.

Một, đôi khi ngay chỗ lẽ ra phải có giọng nói, mình lại nhận về một tiếng rè rè méo mó thay vì giọng người. Lần này mình bắt nó dựng tiếng Hàn từ một mẫu giọng tiếng Anh, và cái giọng đó cố bắt chước tiếng Hàn, một thứ tiếng nó chưa từng nói, nên đôi khi phát ra bị vỡ. Vậy nên mình chuyển sang một thiết lập tinh chỉnh phần tổng hợp qua nhiều lượt hơn, chạy lại, và video Trump ra ổn.

Hai, khi mình chạy bản dịch, có một câu dịch ra hoàn toàn khác với bản gốc, nên mình phải vào sửa tay.

Vậy, điều rút ra là

Trong tất cả các công cụ lồng tiếng mã nguồn mở mình từng dùng, cái này cài dễ gần như chỉ một cú nhấp. Nó cũng chạy mượt hơn mọi cái khác mình từng thử, điều mình rất thích. Dù vậy, chất lượng đầu ra vẫn chưa ở mức làm mình hài lòng.

Có ai ở đây từng dùng OmniVoice chưa? Mình rất muốn nghe các bạn đã thử loại video nào và chất lượng ra sao. Mình chạy nó trên Mac, nên mình cũng tò mò muốn nghe từ những người đã dùng nó trên các cấu hình khác.

Điều mình thích

  • Cài dễ gần như chỉ một cú nhấp (dễ nhất trong các công cụ mã nguồn mở mình từng thử)
  • Chạy mượt hơn mọi công cụ mã nguồn mở mình từng thử cho tới giờ
  • Xử lý nhanh (khoảng 3 phút cho một clip 22 giây)

Điều còn tiếc

  • Chất lượng đầu ra vẫn chưa làm mình ưng
  • Nhân bản giọng khác ngôn ngữ (giọng của một thứ tiếng nói sang thứ tiếng khác) đôi khi vỡ thành tiếng ồn rè rè

Đánh giá

cài dễ, chạy mượt · nhưng chất lượng thì vẫn chưa tới
bình luận

Bình luận (0)

Chưa có bình luận nào, bạn là người đầu tiên nhé.