OmniVoice 다시 돌려봤어요 — 더빙 속도도 재보고, 황당한 에러도 만났어요

이번엔 영어 영상을 한국어로 바꿔봤어요. 더빙 한 편에 시간이 얼마나 걸리는지 단계별로 재보고, 목소리 대신 기계음이 나오는 일까지 겪었어요.

지난 글에 이어서 OmniVoice를 좀 더 써봤어요. 이번엔 두 가지가 궁금했어요. 하나는 영상 한 편 더빙하는 데 실제로 시간이 얼마나 걸리나, 또 하나는 지난번이랑 반대로 영어 영상을 한국어로 바꾸면 어떻게 나오나였어요.

그래서 트럼프 연설 짧은 영상(영어)을 가져와서 한국어로 더빙해봤어요. 먼저 원본이에요:

원본: 한국어로 더빙해보고 싶었던 영어 영상

그리고 OmniVoice로 한국어 더빙한 결과예요. 원본 목소리를 복제해서 한국어로 말하게 한 거예요:

OmniVoice: 영어 → 한국어 더빙, 원본 목소리를 복제함

더빙 한 편에 시간이 얼마나 걸렸나

22초짜리 영상 한 편을, 받아쓰기부터 번역, 목소리 합성, 내보내기까지 끝내는 데 총 약 3분이 걸렸어요. 전부 맥북에서, 인터넷 없이 돌린 거예요. 단계별로 나눠보면 이래요:

준비 (영상에서 소리 뽑고, 목소리와 배경음 분리): 약 7초
받아쓰기 (무슨 말인지 글자로 옮기기): 약 29초
번역 (영어 → 한국어): 약 90초
목소리 프로필 만들기 (원본 목소리 등록): 약 5초
목소리 합성 + 클론: 약 49초
내보내기 (영상에 합치기): 약 2초

한 가지 재밌던 건, 처음 합성할 땐 시간이 더 걸리는데 다시 돌리면 절반으로 줄어요. AI 모델을 처음 한 번 메모리에 올리는 시간이 첫 실행에만 포함되기 때문이에요.

어떤 단계에 어떤 모델이 쓰였나

더빙은 한 단계씩 나뉘는데, 단계마다 다른 모델이 쓰여요:

목소리/배경음 분리: Demucs
받아쓰기: WhisperX
단어 타이밍 맞추기: wav2vec2
화자 구분 (말하는 사람 나누기): WavLM
번역: gemma2:27b (기본 제공 번역기보다 품질이 좋았어요)
목소리 합성 + 클론: OmniVoice

다 매끄럽진 않았어요

쓰다 보니 걸린 게 두 개 있었어요.

하나, 가끔 목소리가 나와야 할 자리에 사람 목소리 대신 찌그러진 잡음이 났어요. 이번엔 영어 목소리를 견본 삼아 한국어를 만들게 했는데, 그 목소리가 한 번도 해본 적 없는 한국어를 흉내 내려다 보니 가끔 소리가 깨지더라고요. 그래서 합성을 더 여러 번 다듬는 설정으로 바꿔 다시 만드니 트럼프 영상은 괜찮아졌어요.

둘, 번역을 돌리니 한 문장이 원문과 완전 다른 말로 나와서, 제가 수동으로 고쳐주는 작업도 했어요.

그래서 결론은

지금까지 써본 오픈소스 더빙 도구 중에서 설치가 정말 “딸깍” 한 번으로 끝날 만큼 쉬웠어요. 그리고 지금까지 써본 오픈소스 중에서 작동도 가장 잘 되는 편이었고요. 다만 아직 결과물 퀄리티는 만족할 만한 수준은 아니에요.

혹시 OmniVoice 써보신 분 있나요? 어떤 영상으로 해보셨고 퀄리티는 어떻게 나왔는지 궁금해요. 저는 맥에서 돌렸는데, 다른 환경에서 써보신 분들 얘기도 듣고 싶어요.

OmniVoice 다시 돌려봤어요 — 더빙 속도도 재보고, 황당한 에러도 만났어요

더빙 한 편에 시간이 얼마나 걸렸나

어떤 단계에 어떤 모델이 쓰였나

다 매끄럽진 않았어요

그래서 결론은

좋았던 점

아쉬웠던 점

평점

댓글 (0)

OmniVoice 다시 돌려봤어요 — 더빙 속도도 재보고, 황당한 에러도 만났어요

더빙 한 편에 시간이 얼마나 걸렸나

어떤 단계에 어떤 모델이 쓰였나

다 매끄럽진 않았어요

그래서 결론은

좋았던 점

아쉬웠던 점

평점

주간 AI 더빙 다이제스트 받기

댓글 (0)