Xenova
/

speecht5_hifigan

Add/update the quantized ONNX model files and README.md for Transformers.js v3

by whitphx HF Staff - opened Aug 4

←

Files changed (1) hide show

README.md CHANGED Viewed

@@ -5,17 +5,16 @@ library_name: transformers.js
 https://huggingface.co/microsoft/speecht5_hifigan with ONNX weights to be compatible with Transformers.js.
 ## Usage (Transformers.js)
-If you haven't already, you can install the [Transformers.js](https://huggingface.co/docs/transformers.js) JavaScript library from [NPM](https://www.npmjs.com/package/@xenova/transformers) using:
 ```bash
-npm i @xenova/transformers
 ```
 **Example:** Generate speech from text.
 ```js
-import { AutoTokenizer, AutoProcessor, SpeechT5ForTextToSpeech, SpeechT5HifiGan, Tensor } from '@xenova/transformers';
 // Load the tokenizer and processor
 const tokenizer = await AutoTokenizer.from_pretrained('Xenova/speecht5_tts');
@@ -23,8 +22,8 @@ const processor = await AutoProcessor.from_pretrained('Xenova/speecht5_tts');
 // Load the models
 // NOTE: We use the unquantized versions as they are more accurate
-const model = await SpeechT5ForTextToSpeech.from_pretrained('Xenova/speecht5_tts', { quantized: false });
-const vocoder = await SpeechT5HifiGan.from_pretrained('Xenova/speecht5_hifigan', { quantized: false });
 // Load speaker embeddings from URL
 const speaker_embeddings_data = new Float32Array(
@@ -41,7 +40,7 @@ const { input_ids } = tokenizer('Hello, my dog is cute');
 // Generate waveform
 const { waveform } = await model.generate_speech(input_ids, speaker_embeddings, { vocoder });
-console.log(waveform)
 // Tensor {
 //   dims: [ 26112 ],
 //   type: 'float32',

 https://huggingface.co/microsoft/speecht5_hifigan with ONNX weights to be compatible with Transformers.js.
 ## Usage (Transformers.js)
+If you haven't already, you can install the [Transformers.js](https://huggingface.co/docs/transformers.js) JavaScript library from [NPM](https://www.npmjs.com/package/@huggingface/transformers) using:
 ```bash
+npm i @huggingface/transformers
 ```
 **Example:** Generate speech from text.
 ```js
+import { AutoTokenizer, AutoProcessor, SpeechT5ForTextToSpeech, SpeechT5HifiGan, Tensor } from '@huggingface/transformers';
 // Load the tokenizer and processor
 const tokenizer = await AutoTokenizer.from_pretrained('Xenova/speecht5_tts');
 // Load the models
 // NOTE: We use the unquantized versions as they are more accurate
+const model = await SpeechT5ForTextToSpeech.from_pretrained('Xenova/speecht5_tts', { dtype: "fp32" }); // Options: "fp32", "fp16", "q8", "q4"
+const vocoder = await SpeechT5HifiGan.from_pretrained('Xenova/speecht5_hifigan', { dtype: "fp32" }); // Options: "fp32", "fp16", "q8", "q4"
 // Load speaker embeddings from URL
 const speaker_embeddings_data = new Float32Array(
 // Generate waveform
 const { waveform } = await model.generate_speech(input_ids, speaker_embeddings, { vocoder });
+console.log(waveform);
 // Tensor {
 //   dims: [ 26112 ],
 //   type: 'float32',