opendub.ai
#ai-dubbing#krillinai#voice-pro#open-source

Cuối cùng mình đã lồng tiếng trọn một video bằng AI mã nguồn mở

Những bản lồng tiếng từng chạy được lại hỏng trên tay mình, và đây là cách mình vẫn ra được hai video hoàn chỉnh.

opendub · 2026-06-05 · 4 phút đọc

Trước đây mình từng làm cho mấy công cụ này lồng tiếng được rồi, nhưng khi ngồi xuống làm lại đúng y việc đó lần nữa, mấy lỗi quay lại ngay tức thì. Lần này mình chiến đấu xuyên qua từng lỗi một, và cả hai công cụ đều cho ra một bản lồng tiếng thật, xem được hẳn hoi. Phần lớn ngày hôm đó mình vẫn ngồi mắc kẹt, vậy mà nó vẫn chạy, và cuối cùng mình có được những video hoàn chỉnh để khoe, thay vì lại một câu chuyện kiểu suýt-thì-thành-công.

Cùng một đoạn clip, lồng tiếng theo hai cách

Cả hai công cụ cùng lồng tiếng cho một đoạn clip, một video ngắn thuộc phạm vi công cộng (miễn bản quyền) của NASA về sứ mệnh Mặt Trăng Artemis, nên bạn có thể so sánh trực tiếp. Chúng hoạt động theo hai cách hoàn toàn khác nhau:

  • KrillinAI bóc lời thành chữ, dịch, rồi lồng tiếng bằng một giọng có sẵn, và còn nung phụ đề lên video luôn.
  • Voice-Pro nhân bản một giọng từ một mẫu ngắn rồi lồng tiếng bằng chính giọng đó.

Đây là bản gốc, trước khi công cụ nào chạm vào nó:

Bản gốc: clip của NASA, tiếng Anh (trước khi lồng tiếng)

KrillinAI: cú thất bại lặng lẽ khiến mình sợ

KrillinAI tuôn ra một chuỗi lỗi trước khi chịu lồng tiếng, phần lớn là do xung đột với một ứng dụng lồng tiếng khác mình đã cài. Nhưng cái khiến mình chột dạ thì lại còn chẳng phải là một lỗi: bản dịch của mình cứ ra nguyên tiếng Anh, chưa dịch gì cả, không một lời cảnh báo, cũng chẳng có gì đỏ trên màn hình. Cái máy dịch đơn giản là không chạy, và thay vì kêu ca lên một tiếng, KrillinAI cho nguyên văn bản gốc đi thẳng qua như thể đó chính là bản dịch. Với một người như mình, đó là loại lỗi đáng sợ nhất: kết quả trông như đã xong, nên bạn chẳng đời nào nghĩ tới chuyện kiểm tra lại.

KrillinAI: lồng tiếng bằng một giọng Edge-TTS

Vài ghi chú thành thật. Ở bản miễn phí, bạn bị giới hạn trong các giọng của Microsoft, và bạn chọn giọng bằng cách gõ mã của nó vào chứ không phải chọn từ một danh sách, một điểm lạ nho nhỏ mà bạn quen rất nhanh. Nhưng chất lượng lồng tiếng khá chắc tay so với một công cụ mã nguồn mở, và bản dịch cũng trụ tốt. Giao diện đơn giản hơn của Voice-Pro, và mình lại thích nó vì điều đó. Thứ mình biết ơn nhất: nó tự nung lên những phụ đề sạch sẽ, canh giờ chuẩn, nên mình chẳng phải căn chỉnh gì cả. Dùng miễn phí thấy ổn đến mức mình bị cám dỗ muốn thử cả tính năng nhân bản giọng trả phí của nó một ngày nào đó.

Voice-Pro: tự tay sửa cái động cơ

Lỗi của Voice-Pro nằm sâu hơn, tận bên trong những thư viện nhỏ mà nó được dựng nên. Một trong số đó cứ nằng nặc đòi một thành phần mà lồng tiếng còn chẳng dùng đến, thế là nó sập trước cả khi kịp khởi động. Sửa từng cái một thì vô tận: cứ mỗi lần mình chặn được một cái, lại có một cái tương tự bùng lên. Thứ cuối cùng có tác dụng là sửa ngay tại một chỗ duy nhất mà tất cả chúng đều đi qua: bỏ qua cái thành phần tùy chọn bị thiếu thay vì để nó sập. Một thay đổi thôi, mà cả lũ lỗi đó biến mất cùng một lúc.

Mình chạy nó theo hai cách để cuộc so sánh được công bằng. Đầu tiên là với cùng giọng Microsoft mà KrillinAI dùng, cố cân điều kiện cho giống nhau hết mức:

Voice-Pro: cùng giọng Edge-TTS như KrillinAI

Rồi đến phần thật sự là sở trường của Voice-Pro, nhân bản giọng của riêng nó:

Voice-Pro: nhân bản giọng bằng CosyVoice

Khả năng nhân bản thật sự tốt, là thứ mạnh nhất mà một trong hai công cụ làm được. Nó chạy lâu hơn thấy rõ so với giọng Microsoft thường, nhưng kết quả thì hoàn toàn xứng với khoảng chờ thêm đó. Và đây là khác biệt cốt lõi giữa chúng: Voice-Pro cho bạn mọi thứ miễn phí, kể cả nhân bản, trong khi KrillinAI giấu phần nhân bản sau một API trả phí. Với một người quyết tâm giữ mọi thứ hoàn toàn miễn phí như mình, điều đó quyết định rất nhiều.

Đặt cạnh nhau, hai công cụ có tính cách rất khác. Cái tiện thật sự của KrillinAI là phụ đề: chúng tự ra một cách sạch sẽ, ngắt câu gọn gàng, chẳng cần chỉnh sửa gì. Điểm yếu là nhịp độ: để cho giọng lồng khớp với thời điểm của bản gốc, nó tăng tốc rồi chậm lại, và cái chuyện co kéo liên tục đó rốt cuộc nghe khá thiếu tự nhiên. Muốn cho phần canh giờ ngồi đúng chỗ thì chắc phải tốn thêm chút công. Điều nữa mình thấy tiếc là video hoàn chỉnh ra lò với phần âm thanh nền bị bỏ mất.

Voice-Pro đi theo hướng ngược lại. Phụ đề thì đúng là bạn phải tự sửa, nhưng mọi thứ còn lại đều khiến mình hài lòng. Độ dài giọng tự khớp một cách tự động, nên nhịp độ giữ được đều và tự nhiên, và như mình đã nói, giọng nhân bản nghe rất tốt. Hơn hết, âm thanh nền được giữ nguyên trong video hoàn chỉnh, nên kết quả sẵn sàng để đăng đâu đó luôn mà chẳng cần sửa. Với mình, chính phần cuối đó tạo ra khác biệt lớn nhất.

Mỗi công cụ tốn bao lâu

Trên một chiếc RTX 3080, lồng tiếng trọn đoạn clip từ đầu:

Công cụ & giọng Thời gian
KrillinAI (Edge-TTS) 1 phút 56 giây
Voice-Pro (Edge-TTS, cùng giọng) 4 phút 4 giây
Voice-Pro (nhân bản CosyVoice) 4 phút 32 giây

Với cùng một giọng Edge-TTS, KrillinAI nhanh hơn khoảng gấp đôi, chủ yếu vì Voice-Pro làm thêm những việc nặng hơn, như tách riêng phần âm thanh nền ra. Nhân bản một giọng bằng CosyVoice là chậm nhất, vì nó chạy một mô hình trên GPU từng dòng một. Dù vậy, chẳng cái nào chậm xét theo nghĩa tuyệt đối cả. Đằng nào thì cũng chỉ là chuyện vài phút.

Điều ngày hôm đó dạy mình

Mình cứ tưởng phần khó sẽ là dung lượng ổ đĩa hay ngồi chờ tải về. Hóa ra không phải. Mọi thứ đều đã tải xong xuôi. Phần khó nhất là tất cả những thứ này trước đây đều đã chạy, vậy mà khi mình ngồi xuống làm lại đúng y việc đó lần nữa, nó cứ thế không chịu chạy. Đó mới là cái khiến đầu óc bạn quay cuồng: không phải một vấn đề mới toanh nào đó, mà là một thứ lần trước chạy hoàn hảo nay lặng lẽ từ chối hoạt động. Bài học kia đáng để giữ: hãy coi chừng những thất bại lặng lẽ. Việc KrillinAI trả về tiếng Anh chưa dịch mà chẳng hé một lời chính là cái bẫy hoàn hảo, vì kết quả trông cứ như đã xong.

Mình vẫn là một người mù code mò mẫm trong bóng tối ở gần như mọi chuyện này. Nhưng lần này, sự mò mẫm kết thúc ở một nơi có thật: hai bản lồng tiếng hoàn chỉnh của cùng một đoạn clip, làm hoàn toàn bằng các công cụ mã nguồn mở miễn phí.

Đánh giá

cài đặt lằng nhằng · nhiều lỗi vặt · nhưng quen tay thì dùng ổn
bình luận

Bình luận (0)

Chưa có bình luận nào, bạn là người đầu tiên nhé.