드디어 오픈소스 AI로 영상 하나를 통째로 더빙했어요

전에 잘 되던 더빙이 또 안 됐어요. 그래도 끝까지 매달려서 영상 두 개를 완성해낸 과정을 풀어볼게요.

예전에 이 도구들로 더빙을 해본 적은 있었어요. 그런데 똑같은 걸 다시 하려고 앉으니, 그 오류가 똑같이 또 나더라고요. 이번엔 그걸 하나하나 다 잡아냈고, 두 도구 다 제대로 볼 만한 더빙을 만들어냈어요. 하루의 대부분은 여전히 막혀서 보냈지만, 결국 됐고, 이제 ‘거의 다 됐어요’ 하는 이야기 대신 진짜 완성된 영상을 보여드릴 수 있게 됐어요.

같은 영상, 두 가지 방식으로 더빙하기

두 도구 모두 같은 영상을 더빙했어요. 아르테미스 달 탐사 임무에 관한 짧은 NASA 영상이고, 퍼블릭 도메인(저작권 자유)이라 직접 비교해볼 수 있어요. 둘은 완전히 다른 방식으로 작동해요:

KrillinAI는 음성을 받아쓰고, 번역하고, 미리 만들어진 목소리로 더빙해요. 자막도 영상에 같이 입혀주고요.
Voice-Pro는 짧은 샘플에서 목소리를 복제해서, 그 목소리로 더빙해요.

두 도구를 거치기 전, 원본 영상이에요:

원본: NASA 영상, 영어 (더빙 전)

KrillinAI: 나를 겁먹게 한 조용한 실패

KrillinAI는 더빙을 시작하기 전에 오류를 줄줄이 뱉었어요. 대부분은 제가 깔아둔 다른 더빙 앱이랑 충돌해서 난 거였고요. 근데 정작 저를 당황하게 한 건 오류가 아니었어요. 번역 결과가 그냥 영어 그대로, 번역도 안 된 채로 나오고 있었거든요. 경고도 없고 화면에 빨갛게 뜨는 것도 없이요. 번역 엔진이 아예 안 돌고 있었는데, KrillinAI는 그 사실을 알려주기는커녕 원본 텍스트를 마치 번역인 양 그대로 통과시켜버린 거예요. 저 같은 사람한텐 이게 제일 무서운 버그예요. 결과물이 완성된 것처럼 보이니까, 확인해볼 생각조차 안 하게 되거든요.

KrillinAI: Edge-TTS 목소리로 더빙함

솔직한 메모 몇 가지요. 무료 등급에서는 마이크로소프트 목소리만 쓸 수 있고, 목소리도 메뉴에서 고르는 게 아니라 코드를 입력해서 골라요. 좀 별나긴 한데 금방 익숙해져요. 그래도 오픈소스 도구치고 더빙 품질은 꽤 좋았고, 번역도 무난하게 잘 나왔어요. 인터페이스는 Voice-Pro보다 단순한데, 저는 그래서 더 마음에 들었어요. 제일 고마웠던 건, 깔끔하고 타이밍까지 잘 맞는 자막을 알아서 입혀줘서 제가 따로 맞출 게 없었다는 거예요. 무료로 써봤는데 꽤 만족스러워서, 언젠가 유료 목소리 복제 기능도 한번 써보고 싶더라고요.

Voice-Pro: 엔진을 손으로 고치기

Voice-Pro의 오류는 더 깊은 곳, 이 도구를 이루는 작은 라이브러리들 안쪽에 있었어요. 그중 하나는 더빙엔 쓰지도 않는 부품을 자꾸 찾으면서, 시작도 하기 전에 튕겨버렸죠. 하나씩 고치는 건 끝이 없었어요. 하나를 막으면 비슷한 오류가 또 튀어나왔거든요. 결국 통한 건, 그것들이 전부 거쳐 가는 한 곳에서 고치는 거였어요. 없는 선택 부품은 튕기지 말고 그냥 건너뛰게 한 거죠. 그 한 번의 수정으로, 그 비슷한 오류들이 한꺼번에 싹 사라졌어요.

비교가 공정하도록 두 가지 방식으로 돌려봤어요. 먼저 KrillinAI가 쓰는 것과 같은 마이크로소프트 목소리로요. 조건을 최대한 똑같이 맞춰서 비교해본 거죠:

Voice-Pro: KrillinAI와 같은 Edge-TTS 목소리

그다음엔 Voice-Pro의 진짜 핵심 기능인, 자체 목소리 복제로요:

Voice-Pro: CosyVoice 목소리 복제

목소리 복제는 정말 좋아요. 두 도구가 하는 것 중에 제일 강력한 기능이에요. 그냥 마이크로소프트 목소리를 쓸 때보다 실행 시간이 눈에 띄게 더 걸리긴 하는데, 결과를 보면 더 기다린 보람이 있어요. 그리고 둘의 핵심 차이가 여기 있어요. Voice-Pro는 복제까지 전부 무료로 주는데, KrillinAI는 복제를 유료 API 뒤에 막아둬요. 저처럼 끝까지 완전 무료로 가려는 사람한테는, 이 차이가 거의 다예요.

나란히 놓고 보니, 둘은 성격이 꽤 달랐어요. KrillinAI의 진짜 편한 점은 자막이에요. 알아서 깔끔하게, 잘 끊어서 나오고, 따로 손볼 게 없거든요. 단점은 속도 조절이에요. 더빙한 목소리를 원본 타이밍에 맞추려고 빨라졌다 느려졌다 하는데, 그렇게 계속 늘렸다 줄였다 하니까 꽤 부자연스럽게 들렸어요. 타이밍을 제대로 맞추려면 아마 추가 작업이 좀 필요할 거예요. 또 하나 아쉬웠던 건, 완성된 영상에 배경 소리가 사라져 있던 거였어요.

Voice-Pro는 반대로 갔어요. 자막은 직접 고쳐야 하지만, 그 외에는 모든 게 만족스러웠어요. 목소리 길이가 알아서 맞춰져서 속도가 일정하고 자연스럽게 유지됐고, 말했듯이 복제 목소리도 정말 좋았어요. 무엇보다, 완성된 영상에 배경 소리가 그대로 남아 있어서 결과물을 어디든 바로 올릴 수 있었어요. 저한테는 이 마지막 부분이 가장 큰 차이를 만들었어요.

각 도구가 걸린 시간

RTX 3080에서, 영상 전체를 처음부터 더빙하는 데 걸린 시간이에요:

도구 & 목소리	시간
KrillinAI (Edge-TTS)	1분 56초
Voice-Pro (Edge-TTS, 같은 목소리)	4분 4초
Voice-Pro (CosyVoice 복제)	4분 32초

같은 Edge-TTS 목소리를 쓸 때, KrillinAI가 약 두 배 빨랐어요. 주로 Voice-Pro가 배경 소리를 분리하는 것처럼 더 무거운 추가 작업을 하기 때문이에요. CosyVoice로 목소리를 복제하는 게 제일 느린데, GPU에서 모델을 한 줄씩 처리하기 때문이에요. 그래도 어느 쪽이든 절대적으로 느린 건 아니에요. 어차피 둘 다 몇 분이면 끝나거든요.

그날 하루가 가르쳐준 것

힘든 건 디스크 용량이나 다운로드일 줄 알았는데, 아니었어요. 파일은 다 잘 받아졌거든요. 진짜 힘들었던 건, 예전엔 분명히 됐던 게 똑같이 다시 하니까 안 된다는 거였어요. 사람을 제일 헷갈리게 하는 게 바로 이거예요. 처음 보는 문제도 아니고, 지난번엔 멀쩡했던 게 슬그머니 안 돼버리는 거요. 그리고 하나 더, 티 안 나게 잘못되는 것을 조심해야 해요. KrillinAI가 번역 안 된 영어를 아무 말 없이 돌려주는 게 딱 그거예요. 결과물은 다 된 것처럼 보이니까요.

저는 여전히 코드를 못 짜는 사람이고, 이 대부분을 깜깜한 데서 더듬거리며 하고 있어요. 근데 이번엔 그 더듬거림이 진짜 결과로 이어졌어요. 같은 영상의 완성된 더빙 두 개를, 전부 무료 오픈소스 도구로만 만들어냈거든요.

드디어 오픈소스 AI로 영상 하나를 통째로 더빙했어요

같은 영상, 두 가지 방식으로 더빙하기

KrillinAI: 나를 겁먹게 한 조용한 실패

Voice-Pro: 엔진을 손으로 고치기

각 도구가 걸린 시간

그날 하루가 가르쳐준 것

평점

댓글 (0)

드디어 오픈소스 AI로 영상 하나를 통째로 더빙했어요

같은 영상, 두 가지 방식으로 더빙하기

KrillinAI: 나를 겁먹게 한 조용한 실패

Voice-Pro: 엔진을 손으로 고치기

각 도구가 걸린 시간

그날 하루가 가르쳐준 것

평점

주간 AI 더빙 다이제스트 받기

댓글 (0)