Audio Codecs

A collection of audio codecs with a standardized API. The following codecs are currently supported:

DAC
EnCodec
EnCodec + Vocos
Mimi
SemantiCodec
SpeechTokenizer
WavLM k-means
WavTokenizer

🛠️️ Installation

From source

First of all, install Python 3.8 or later. Clone or download and extract the repository, navigate to <path-to-repository>, open a terminal and run:

# Install the package locally in editable mode
pip install -e .[all]

▶️ Quickstart

To use one of the available codecs in your script:

import torch
import torchaudio
from audiocodecs import Encodec

sig, sample_rate = torchaudio.load("<path-to-audio-file>")
model = Encodec(sample_rate=sample_rate, orig_sample_rate=24000, num_codebooks=8)
with torch.no_grad():
    toks = model.sig_to_toks(sig)
    rec_sig = model.toks_to_sig(toks)
torchaudio.save("reconstruction.wav", rec_sig, sample_rate)

Reference implementations of downstream tasks using audio codecs can be found in benchmarks.

📧 Contact

luca.dellalib@gmail.com

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Audio Codecs

🛠️️ Installation

From source

▶️ Quickstart

📧 Contact

Files

README.md

Latest commit

History

README.md

File metadata and controls

Audio Codecs

🛠️️ Installation

From source

▶️ Quickstart

📧 Contact