VoiceCraft: 제로샷 음성 편집 및 텍스트 음성 변환

VoiceCraft

3.5 | 416 | 0
유형:
오픈 소스 프로젝트
최종 업데이트:
2025/10/04
설명:
VoiceCraft는 제로샷 음성 편집 및 텍스트 음성 변환을 위한 오픈 소스 AI 도구로, 몇 초의 참조 오디오만으로 음성 복제를 가능하게 합니다. 실제 데이터에서 최첨단 성능을 달성하십시오.
공유:
음성 합성
음성 복제
오디오 편집
TTS
제로샷 TTS

VoiceCraft 개요

VoiceCraft: 제로샷 음성 편집 및 텍스트 음성 변환

VoiceCraft는 최첨단 성능을 음성 편집과 제로샷 텍스트 음성 변환(TTS) 모두에 제공하는 강력한 오픈 소스 도구입니다. 오디오북, 인터넷 비디오, 팟캐스트 등 다양한 실제 오디오 데이터를 처리하는 데 탁월합니다. VoiceCraft의 특징은 몇 초의 참조 오디오만 사용하여 보이지 않는 음성을 복제하거나 편집할 수 있다는 것입니다.

VoiceCraft란 무엇입니까?

VoiceCraft는 고품질 음성 편집 및 TTS 작업을 위해 설계된 토큰 인필 신경 코덱 언어 모델입니다. 제로샷 학습을 활용하므로 최소한의 학습 데이터로 새로운 음성에 적응할 수 있습니다.

VoiceCraft는 어떻게 작동합니까?

VoiceCraft는 신경 코덱 언어 모델로 작동합니다. 기능의 주요 측면은 다음과 같습니다.

  • 토큰 인필: VoiceCraft는 토큰 인필 기술을 사용하여 음성을 원활하게 편집하고 생성합니다.
  • 제로샷 학습: 몇 초의 참조 오디오만으로 새로운 음성에 적응할 수 있으므로 광범위한 학습 데이터가 필요하지 않습니다.
  • 신경 코덱 언어 모델: 이 아키텍처는 고품질 음성 합성 및 편집을 가능하게 합니다.

VoiceCraft를 사용하는 방법은 무엇입니까?

VoiceCraft를 사용하는 방법은 여러 가지가 있습니다.

  • Google Colab: 시작하는 가장 간단한 방법은 제공된 Google Colab 노트북을 사용하여 음성 편집 및 TTS 추론을 수행하는 것입니다.
  • Docker: 제공된 Docker 이미지를 사용하여 일관되고 재현 가능한 환경을 만드십시오.
  • 독립 실행형 스크립트: 독립 실행형 스크립트를 사용하여 VoiceCraft를 프로젝트에 통합하십시오.

각 방법에 대한 분석은 다음과 같습니다.

Google Colab

Google Colab은 VoiceCraft 사용을 시작하는 간단한 방법을 제공합니다. 다음 단계를 따르십시오.

  1. 음성 편집 Colab 노트북을 엽니다.
  2. TTS 추론 Colab 노트북을 엽니다.
  3. 노트북 내의 지침에 따라 데모를 실행합니다.

Docker

Docker는 VoiceCraft를 실행하기 위한 일관된 환경을 제공합니다. 설정 방법은 다음과 같습니다.

  1. 리포지토리를 복제합니다.

git clone git@github.com:jasonppy/VoiceCraft.git cd VoiceCraft ``` 2. Docker 이미지를 빌드합니다.

```bash

docker build --tag "voicecraft" . ``` 3. Docker 컨테이너를 시작합니다.

```bash

./start-jupyter.sh # linux start-jupyter.bat # windows ``` 4. Docker 로그에 표시된 URL을 브라우저에서 엽니다. 5. inference_tts.ipynb를 열고 지침을 따릅니다.

독립 실행형 스크립트

VoiceCraft를 독립 실행형 스크립트로 사용하려면:

  1. 환경이 올바르게 설정되었는지 확인하십시오(환경 설정 섹션 참조).

  2. tts_demo.pyspeech_editing_demo.py 스크립트를 사용하십시오.

python3 tts_demo.py -h ```

VoiceCraft를 선택하는 이유는 무엇입니까?

  • 제로샷 기능: 최소한의 데이터로 새로운 음성에 빠르게 적응합니다.
  • 고품질 출력: 음성 편집 및 TTS에서 최첨단 성능을 제공합니다.
  • 다재다능함: 다양한 오디오 소스에서 잘 작동합니다.
  • 오픈 소스: 커뮤니티 기여 및 사용자 정의를 장려합니다.

VoiceCraft는 누구를 위한 것입니까?

VoiceCraft는 다음과 같은 사용자에게 적합합니다.

  • 연구원: 음성 합성 및 편집 기술을 탐구합니다.
  • 개발자: 고급 TTS 기능을 애플리케이션에 통합합니다.
  • 콘텐츠 제작자: 고품질 보이스오버 및 편집된 오디오를 생성합니다.
  • 애호가: 음성 복제 및 오디오 조작을 실험합니다.

주요 기능:

  • 스마트 트랜스크립트: 사용자가 생성하려는 내용을 정확하게 지정할 수 있습니다.
  • TTS 모드: 텍스트에서 음성을 생성하는 제로샷 TTS.
  • 편집 모드: 기존 오디오를 수정하기 위한 음성 편집 기능.
  • 긴 TTS 모드: 긴 텍스트에서 TTS를 간소화합니다.

환경 설정:

VoiceCraft에 대한 환경을 설정하려면:

  1. 새 Conda 환경을 만드십시오.

conda create -n voicecraft python=3.9.16 conda activate voicecraft ``` 2. 필요한 패키지를 설치합니다.

```bash

pip install -e git+https://github.com/facebookresearch/audiocraft.git@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft pip install xformers0.0.22 pip install torchaudio2.0.2 torch2.0.1 apt-get install ffmpeg apt-get install espeak-ng pip install tensorboard2.16.2 pip install phonemizer3.2.1 pip install datasets2.16.0 pip install torchmetrics0.11.1 pip install huggingface_hub0.22.2 conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068 mfa model download dictionary english_us_arpa mfa model download acoustic english_us_arpa conda install -n voicecraft ipykernel --no-deps --force-reinstall ```

학습 및 미세 조정:

VoiceCraft는 사용자 정의 데이터 세트에 대한 학습 및 미세 조정을 지원합니다. 프로세스에는 다음이 포함됩니다.

  1. 발화 및 해당 트랜스크립트를 준비합니다.
  2. Encodec를 사용하여 발화를 코드로 인코딩합니다.
  3. 트랜스크립트를 음소 시퀀스로 변환합니다.
  4. 매니페스트 파일을 만듭니다.

VoiceCraft를 활용하는 가장 좋은 방법은 제공된 스크립트와 노트북을 사용하고 특정 사용 사례에 맞게 조정하는 것입니다. 음성 편집, TTS 또는 음성 복제이든 VoiceCraft는 강력하고 유연한 솔루션을 제공합니다.

VoiceCraft는 코드베이스의 경우 CC BY-NC-SA 4.0(LICENSE-CODE)에 따라, 모델 가중치의 경우 Coqui Public Model License 1.0.0(LICENSE-MODEL)에 따라 라이선스가 부여됩니다. 또한 MIT 및 Apache 2.0 라이선스에 따라 다른 리포지토리의 코드를 통합합니다.

"VoiceCraft"의 최고의 대체 도구

AudioPod AI
이미지가 없습니다
419 0

AudioPod AI는 올인원 AI 오디오 워크스테이션 및 프로덕션 스위트입니다. 나레이션 생성, 스템 분리, 음악 생성, 콘텐츠 자동 더빙 등을 할 수 있습니다. 텍스트 음성 변환, 음성 텍스트 변환 및 AI 음악 생성이 포함됩니다.

텍스트 음성 변환
AI Avatar Generator
이미지가 없습니다
339 0

사진과 비디오를 즉시 현실적인 말하는 AI 아바타로 변환하세요. 40개 이상의 언어로 립싱크를 지원하는 전문 비디오. 오늘 무료로 시작하세요!

말하는 아바타
립싱크 AI
Typecast
이미지가 없습니다
404 0

Typecast는 콘텐츠 제작자를 위한 600개 이상의 맞춤형 음성, 음성 복제, 비디오 편집 및 말하는 아바타를 제공하는 AI 음성 생성기입니다.

음성합성
감정TTS
음성복제
AIEasy.life
이미지가 없습니다
565 0

AIEasy.life는 무료 디렉토리 및 검색 경험을 제공하는 AI 도구 플랫폼입니다. AIEasy.life에서 좋아하는 AI 도구를 찾으세요.

AI 도구 디렉토리
AI 플랫폼
Dub AI
이미지가 없습니다
399 0

Dub AI는 AI 음성 클로닝과 번역을 사용하여 콘텐츠 제작자가 비디오를 쉽게 번역하고 더빙할 수 있게 하며, 30개 이상의 언어로 글로벌 청중에게 자연스러운 결과를 제공하여 도달 범위를 확대합니다.

비디오 더빙
음성 클로닝
AIVocal
이미지가 없습니다
344 0

AIVocal은 음성 생성, 클로닝, 팟캐스트, 전사のための 올인원 AI 플랫폼입니다. 140개 이상의 언어로 무료 도구를 사용하여 크리에이터와 전문가를 위한 현실적인 음성, 오디오북 등을 만듭니다.

음성 생성
음성 합성
CREATUS.AI
이미지가 없습니다
444 0

CREATUS.AI는 중소기업이 생산성을 높이고 리소스 비용을 최적화할 수 있도록 AI 기능을 통합하여 자율적인 팀 구성원을 갖춘 AI 네이티브 작업 공간을 제공합니다. 무료 AI 도구를 사용해보고 Canva, Notion 및 Zapier와 같은 앱과 통합하십시오.

AI 작업 공간
워크플로 자동화
Twinning
이미지가 없습니다
416 0

Twinning은 인플루언서가 텍스트와 오디오를 통해 팬과 채팅할 수 있는 개인화된 AI 쌍둥이를 만들 수 있게 합니다. 대기자 명단에 가입하고 짧은 오디오를 녹음하며 월 요금 없이 상호작용을 수익화하세요.

AI 쌍둥이 생성
음성 클로닝
Trump AI Voice Generator
이미지가 없습니다
340 0

당신의 도널드 트럼프 AI 음성 생성기, 텍스트-투-스피치와 비디오용—생생한 리듬, 패러디와 소셜 미디어용 빠른 내보내기.

음성 클로닝
유명인 모방
VMEG
이미지가 없습니다
182 0

VMEG는 170개 이상의 언어로 7,000개 이상의 음성으로 비디오를 번역, 더빙 및 조정하는 AI 기반 비디오 현지화 플랫폼입니다. 글로벌 콘텐츠 제작을 위한 립싱크, 자막 및 필사 도구를 제공합니다.

비디오 현지화
AI 더빙
VoiceCanvas
이미지가 없습니다
454 0

VoiceCanvas는 50개 이상의 언어로 음성 합성 및 복제를 지원하는 AI 기반 플랫폼입니다. 스토리 음성 해설, 개인화된 음성 복제 등을 위해 자연스러운 음성을 만드십시오.

음성 복제
텍스트 음성 변환
F5 TTS
이미지가 없습니다
441 0

F5 TTS를 경험해 보세요. 고급 AI로 구동되는 무료 온라인 텍스트 음성 변환 솔루션입니다. 무료 데모를 통해 텍스트를 자연스러운 음성으로 즉시 변환하세요. 음성 복제 및 다국어 지원이 가능합니다.

텍스트 음성 변환
음성 합성
VoiSpark
이미지가 없습니다
307 0

VoiSpark 플랫폼으로 현실적인 AI 음성을 만드십시오. 텍스트 음성 변환, 음성 복제 및 맞춤형 음성 디자인 기능이 포함되어 있습니다. 오늘 100% 무료 평가판을 시작하십시오!

텍스트 음성 변환
음성 복제
AnyVoice
이미지가 없습니다
411 0

AnyVoice는 가장 빠른 AI 음성 복제를 제공하며 3초 오디오만으로 모든 음성을 복제할 수 있습니다. 여러 언어를 지원하며 사실적인 텍스트 음성 변환 기능을 제공하여 콘텐츠 제작 및 실시간 응용 프로그램에 적합합니다.

AI 음성 복제
텍스트 음성 변환