Name		Name	Last commit message	Last commit date
parent directory ..
v2		v2
announcer.npz		announcer.npz
de_speaker_0.npz		de_speaker_0.npz
de_speaker_1.npz		de_speaker_1.npz
de_speaker_2.npz		de_speaker_2.npz
de_speaker_3.npz		de_speaker_3.npz
de_speaker_4.npz		de_speaker_4.npz
de_speaker_5.npz		de_speaker_5.npz
de_speaker_6.npz		de_speaker_6.npz
de_speaker_7.npz		de_speaker_7.npz
de_speaker_8.npz		de_speaker_8.npz
de_speaker_9.npz		de_speaker_9.npz
en_speaker_0.npz		en_speaker_0.npz
en_speaker_1.npz		en_speaker_1.npz
en_speaker_2.npz		en_speaker_2.npz
en_speaker_3.npz		en_speaker_3.npz
en_speaker_4.npz		en_speaker_4.npz
en_speaker_5.npz		en_speaker_5.npz
en_speaker_6.npz		en_speaker_6.npz
en_speaker_7.npz		en_speaker_7.npz
en_speaker_8.npz		en_speaker_8.npz
en_speaker_9.npz		en_speaker_9.npz
es_speaker_0.npz		es_speaker_0.npz
es_speaker_1.npz		es_speaker_1.npz
es_speaker_2.npz		es_speaker_2.npz
es_speaker_3.npz		es_speaker_3.npz
es_speaker_4.npz		es_speaker_4.npz
es_speaker_5.npz		es_speaker_5.npz
es_speaker_6.npz		es_speaker_6.npz
es_speaker_7.npz		es_speaker_7.npz
es_speaker_8.npz		es_speaker_8.npz
es_speaker_9.npz		es_speaker_9.npz
fr_speaker_0.npz		fr_speaker_0.npz
fr_speaker_1.npz		fr_speaker_1.npz
fr_speaker_2.npz		fr_speaker_2.npz
fr_speaker_3.npz		fr_speaker_3.npz
fr_speaker_4.npz		fr_speaker_4.npz
fr_speaker_5.npz		fr_speaker_5.npz
fr_speaker_6.npz		fr_speaker_6.npz
fr_speaker_7.npz		fr_speaker_7.npz
fr_speaker_8.npz		fr_speaker_8.npz
fr_speaker_9.npz		fr_speaker_9.npz
hi_speaker_0.npz		hi_speaker_0.npz
hi_speaker_1.npz		hi_speaker_1.npz
hi_speaker_2.npz		hi_speaker_2.npz
hi_speaker_3.npz		hi_speaker_3.npz
hi_speaker_4.npz		hi_speaker_4.npz
hi_speaker_5.npz		hi_speaker_5.npz
hi_speaker_6.npz		hi_speaker_6.npz
hi_speaker_7.npz		hi_speaker_7.npz
hi_speaker_8.npz		hi_speaker_8.npz
hi_speaker_9.npz		hi_speaker_9.npz
it_speaker_0.npz		it_speaker_0.npz
it_speaker_1.npz		it_speaker_1.npz
it_speaker_2.npz		it_speaker_2.npz
it_speaker_3.npz		it_speaker_3.npz
it_speaker_4.npz		it_speaker_4.npz
it_speaker_5.npz		it_speaker_5.npz
it_speaker_6.npz		it_speaker_6.npz
it_speaker_7.npz		it_speaker_7.npz
it_speaker_8.npz		it_speaker_8.npz
it_speaker_9.npz		it_speaker_9.npz
ja_speaker_0.npz		ja_speaker_0.npz
ja_speaker_1.npz		ja_speaker_1.npz
ja_speaker_2.npz		ja_speaker_2.npz
ja_speaker_3.npz		ja_speaker_3.npz
ja_speaker_4.npz		ja_speaker_4.npz
ja_speaker_5.npz		ja_speaker_5.npz
ja_speaker_6.npz		ja_speaker_6.npz
ja_speaker_7.npz		ja_speaker_7.npz
ja_speaker_8.npz		ja_speaker_8.npz
ja_speaker_9.npz		ja_speaker_9.npz
ko_speaker_0.npz		ko_speaker_0.npz
ko_speaker_1.npz		ko_speaker_1.npz
ko_speaker_2.npz		ko_speaker_2.npz
ko_speaker_3.npz		ko_speaker_3.npz
ko_speaker_4.npz		ko_speaker_4.npz
ko_speaker_5.npz		ko_speaker_5.npz
ko_speaker_6.npz		ko_speaker_6.npz
ko_speaker_7.npz		ko_speaker_7.npz
ko_speaker_8.npz		ko_speaker_8.npz
ko_speaker_9.npz		ko_speaker_9.npz
pl_speaker_0.npz		pl_speaker_0.npz
pl_speaker_1.npz		pl_speaker_1.npz
pl_speaker_2.npz		pl_speaker_2.npz
pl_speaker_3.npz		pl_speaker_3.npz
pl_speaker_4.npz		pl_speaker_4.npz
pl_speaker_5.npz		pl_speaker_5.npz
pl_speaker_6.npz		pl_speaker_6.npz
pl_speaker_7.npz		pl_speaker_7.npz
pl_speaker_8.npz		pl_speaker_8.npz
pl_speaker_9.npz		pl_speaker_9.npz
pt_speaker_0.npz		pt_speaker_0.npz
pt_speaker_1.npz		pt_speaker_1.npz
pt_speaker_2.npz		pt_speaker_2.npz
pt_speaker_3.npz		pt_speaker_3.npz
pt_speaker_4.npz		pt_speaker_4.npz
pt_speaker_5.npz		pt_speaker_5.npz
pt_speaker_6.npz		pt_speaker_6.npz
pt_speaker_7.npz		pt_speaker_7.npz

readme.md

Example Prompts Data

Version Two

The v2 prompts are better engineered to follow text with a consistent voice. To use them, simply include v2 in the prompt. For example

from bark import generate_audio
text_prompt = "madam I'm adam"
audio_array = generate_audio(text_prompt, history_prompt="v2/en_speaker_1")

Prompt Format

The provided data is in the .npz format, which is a file format used in Python for storing arrays and data. The data contains three arrays: semantic_prompt, coarse_prompt, and fine_prompt.

semantic_prompt

The semantic_prompt array contains a sequence of token IDs generated by the BERT tokenizer from Hugging Face. These tokens encode the text input and are used as an input to generate the audio output. The shape of this array is (n,), where n is the number of tokens in the input text.

coarse_prompt

The coarse_prompt array is an intermediate output of the text-to-speech pipeline, and contains token IDs generated by the first two codebooks of the EnCodec Codec from Facebook. This step converts the semantic tokens into a different representation that is better suited for the subsequent step. The shape of this array is (2, m), where m is the number of tokens after conversion by the EnCodec Codec.

fine_prompt

The fine_prompt array is a further processed output of the pipeline, and contains 8 codebooks from the EnCodec Codec. These codebooks represent the final stage of tokenization, and the resulting tokens are used to generate the audio output. The shape of this array is (8, p), where p is the number of tokens after further processing by the EnCodec Codec.

Overall, these arrays represent different stages of a text-to-speech pipeline that converts text input into synthesized audio output. The semantic_prompt array represents the input text, while coarse_prompt and fine_prompt represent intermediate and final stages of tokenization, respectively.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

prompts

prompts

readme.md

Example Prompts Data

Version Two

Prompt Format

Files

prompts

Directory actions

More options

Directory actions

More options

Latest commit

History

prompts

Folders and files

parent directory

readme.md

Example Prompts Data

Version Two

Prompt Format