Descrizione
Utilizza l'API chrome.ttsEngine
per implementare un motore di sintesi vocale(TTS) utilizzando un'estensione. Se l'estensione si registra utilizzando questa API, riceverà eventi contenenti un'espressione da pronunciare e altri parametri quando qualsiasi estensione o app Chrome utilizza l'API tts
per generare voce. L'estensione può quindi utilizzare qualsiasi tecnologia web disponibile per sintetizzare e riprodurre il parlato e inviare nuovamente gli eventi alla funzione di chiamata per segnalare lo stato.
Autorizzazioni
ttsEngine
Concetti e utilizzo
Un'estensione può registrarsi come motore vocale. In questo modo, può intercettare alcune o tutte le chiamate
a funzioni come tts.speak()
e tts.stop()
e fornire un'implementazione alternativa.
Le estensioni sono libere di utilizzare qualsiasi tecnologia web disponibile per fornire la voce, incluso l'audio in streaming da un server e l'audio HTML5. Un'estensione potrebbe anche fare qualcosa di diverso con le frasi, ad esempio mostrare i sottotitoli codificati in un popup o inviarli come messaggi di log a un server remoto.
Per implementare un motore TTS, un'estensione deve dichiarare l'autorizzazione "ttsEngine" e poi dichiarare tutte le voci che fornisce nel file manifest dell'estensione, ad esempio:
{
"name": "My TTS Engine",
"version": "1.0",
"permissions": ["ttsEngine"],
"tts_engine": {
"voices": [
{
"voice_name": "Alice",
"lang": "en-US",
"event_types": ["start", "marker", "end"]
},
{
"voice_name": "Pat",
"lang": "en-US",
"event_types": ["end"]
}
]
},
"background": {
"page": "background.html",
"persistent": false
}
}
Un'estensione può specificare un numero qualsiasi di voci.
Il parametro voice_name
è obbligatorio. Il nome deve essere sufficientemente descrittivo da identificare il nome della voce e il motore utilizzato. Nell'improbabile caso che due estensioni registrino voci con lo stesso nome, un client può specificare l'ID dell'estensione che deve eseguire la sintesi.
Il parametro lang
è facoltativo, ma vivamente consigliato. Quasi sempre, una voce può sintetizzare
il parlato in una sola lingua. Quando un motore supporta più lingue, può registrare facilmente una voce separata per ogni lingua. In rare circostanze in cui una singola voce può gestire più lingue, è più semplice elencare due voci separate e gestirle internamente utilizzando la stessa logica. Tuttavia, se vuoi creare una voce che gestisca le frasi in qualsiasi lingua, ometti il parametro lang
dal file manifest dell'estensione.
Infine, il parametro event_types
è obbligatorio se il motore può inviare eventi per aggiornare il cliente sull'avanzamento della sintesi vocale. È vivamente consigliato supportare almeno il tipo di evento 'end'
per indicare quando il parlato è terminato, altrimenti Chrome non può pianificare le frasi in coda.
Una volta caricata, un'estensione può sostituire l'elenco delle voci dichiarate chiamando
chrome.ttsEngine.updateVoices
. Tieni presente che i parametri utilizzati nella chiamata programmatica a
updateVoices
sono in lettere maiuscole iniziali: ad es. voiceName
, a differenza del file manifest che utilizzavoice_name
.
I possibili tipi di eventi che puoi inviare corrispondono ai tipi di eventi ricevuti dal metodo speak()
:
'start'
: il motore ha iniziato a pronunciare l'espressione.'word'
: è stato raggiunto il confine di una parola. Utilizzaevent.charIndex
per determinare la posizione corrente del parlato.'sentence'
: è stato raggiunto il confine di una frase. Utilizzaevent.charIndex
per determinare la posizione corrente del parlato.'marker'
: è stato raggiunto un indicatore SSML. Utilizzaevent.charIndex
per determinare la posizione corrente del parlato.'end'
: il motore ha terminato di pronunciare l'espressione.'error'
: si è verificato un errore specifico del motore e questa frase non può essere pronunciata. Passa altre informazioni inevent.errorMessage
.
Gli eventi 'interrupted'
e 'cancelled'
non vengono inviati dal motore vocale, ma vengono generati automaticamente da Chrome.
I client di sintesi vocale possono ottenere le informazioni vocali dal manifest dell'estensione chiamando
tts.getVoices
, a condizione che tu abbia registrato gli ascoltatori di eventi vocali come descritto di seguito.
Gestire gli eventi vocali
Per generare voce su richiesta dei client, l'estensione deve registrare gli ascoltatori sia per onSpeak
sia per onStop
, come segue:
const speakListener = (utterance, options, sendTtsEvent) => {
sendTtsEvent({type: 'start', charIndex: 0})
// (start speaking)
sendTtsEvent({type: 'end', charIndex: utterance.length})
};
const stopListener = () => {
// (stop all speech)
};
chrome.ttsEngine.onSpeak.addListener(speakListener);
chrome.ttsEngine.onStop.addListener(stopListener);
La decisione di inviare o meno una determinata richiesta vocale a un'estensione si basa esclusivamente sul fatto che l'estensione supporti i parametri vocali specificati nel suo manifest e abbia registrato ascoltatori per onSpeak
e onStop
. In altre parole, non è possibile per un'estensione ricevere una richiesta di comandi vocali e decidere dinamicamente se gestirla.
Tipi
AudioBuffer
Parametri contenenti un buffer audio e dati associati.
Proprietà
-
audioBuffer
ArrayBuffer
Il buffer audio del motore di sintesi vocale. Deve avere una lunghezza esattamente audioStreamOptions.bufferSize e essere codificato come mono, a audioStreamOptions.sampleRate e come pcm lineare, numero in virgola mobile a 32 bit con segno, ovvero il tipo Float32Array in JavaScript.
-
charIndex
number facoltativo
L'indice di carattere associato a questo buffer audio.
-
isLastBuffer
booleano facoltativo
True se questo buffer audio è l'ultimo per il testo che viene pronunciato.
AudioStreamOptions
Contiene il formato dello stream audio che dovrebbe essere prodotto da un motore.
Proprietà
-
bufferSize
numero
Il numero di campioni all'interno di un buffer audio.
-
sampleRate
numero
La frequenza di campionamento prevista in un buffer audio.
LanguageInstallStatus
Lo stato di installazione di una voce.
Enum
"notInstalled"
"installing"
"installed"
"failed"
LanguageStatus
Stato di installazione di una lingua.
Proprietà
-
errore
stringa facoltativa
Dettagli sugli errori di installazione. Da compilare facoltativamente se l'installazione della lingua non è riuscita.
-
installStatus
Stato di installazione.
-
lang
stringa
Stringa della lingua sotto forma di codice lingua-codice regione, dove la regione può essere omessa. Alcuni esempi sono en, en-AU, zh-CH.
LanguageUninstallOptions
Opzioni per la disinstallazione di una determinata lingua.
Proprietà
-
uninstallImmediately
booleano
True se il client TTS vuole che la lingua venga disinstallata immediatamente. Il motore può scegliere se e quando disinstallare la lingua in base a questo parametro e alle informazioni del richiedente. Se false, potrebbero essere utilizzati altri criteri, come l'utilizzo recente, per determinare quando eseguire la disinstallazione.
SpeakOptions
Opzioni specificate per il metodo tts.speak().
Proprietà
-
genere
VoiceGender facoltativo
Ritirato da Chrome 92Il genere è deprecato e verrà ignorato.
Genere della voce per la sintesi vocale.
-
lang
stringa facoltativa
La lingua da utilizzare per la sintesi, nel formato lingua-regione. Esempi: "it", "it-IT", "it-GB", "zh-CN".
-
diamante
number facoltativo
Tonalità vocale compresa tra 0 e 2, inclusi, dove 0 è il valore più basso e 2 il più alto. 1.0 corrisponde all'intonazione predefinita di questa voce.
-
velocità di reazione
number facoltativo
Velocità di lettura rispetto alla velocità predefinita per questa voce. 1,0 è la velocità predefinita, in genere compresa tra 180 e 220 parole al minuto. 2.0 è due volte più veloce e 0.5 è la metà. Questo valore è garantito compreso tra 0,1 e 10,0, inclusi. Quando una voce non supporta questa gamma completa di tassi, non restituire un errore. Taglia invece la frequenza in base all'intervallo supportato dalla voce.
-
voiceName
stringa facoltativa
Il nome della voce da usare per la sintesi.
-
volume
number facoltativo
Volume della voce compreso tra 0 e 1, inclusi, dove 0 è il valore più basso e 1 il più alto, con un valore predefinito di 1,0.
TtsClient
Identificatore dello stato della richiesta del cliente.
Proprietà
-
id
stringa
Il cliente invia una richiesta di gestione della lingua. Per un'estensione, si tratta dell'ID univoco dell'estensione. Per le funzionalità di Chrome, si tratta del nome leggibile della funzionalità.
-
origine
Tipo di richiedente.
TtsClientSource
Tipo di richiedente.
Enum
"chromefeature"
"extension"
VoiceGender
Il genere è deprecato e verrà ignorato.
Enum
"male"
"female"
Metodi
updateLanguage()
chrome.ttsEngine.updateLanguage(
status: LanguageStatus,
)
Viene chiamato da un motore quando viene tentata l'installazione di una lingua e quando una lingua viene disinstallata. Chiamato anche in risposta a una richiesta di stato da parte di un cliente. Quando una voce viene installata o disinstallata, il motore deve chiamare anche ttsEngine.updateVoices per registrarla.
Parametri
-
stato
Lo stato di installazione della lingua.
updateVoices()
chrome.ttsEngine.updateVoices(
voices: TtsVoice[],
)
Chiamato da un motore per aggiornare l'elenco delle voci. Questo elenco sostituisce tutte le voci dichiarate nel file manifest di questa estensione.
Parametri
-
voci
TtsVoice[]
Array di oggetti
tts.TtsVoice
che rappresentano le voci disponibili per la sintesi vocale.
Eventi
onInstallLanguageRequest
chrome.ttsEngine.onInstallLanguageRequest.addListener(
callback: function,
)
Viene attivato quando un client TTS richiede l'installazione di una nuova lingua. Il motore deve tentare di scaricare e installare la lingua e chiamare ttsEngine.updateLanguage con il risultato. In caso di esito positivo, il motore deve chiamare anche ttsEngine.updateVoices per registrare le voci appena disponibili.
Parametri
-
callback
funzione
Il parametro
callback
ha il seguente aspetto:(requestor: TtsClient, lang: string) => void
-
richiedente
-
lang
stringa
-
onLanguageStatusRequest
chrome.ttsEngine.onLanguageStatusRequest.addListener(
callback: function,
)
Viene attivato quando un client TTS richiede lo stato di installazione di una lingua.
Parametri
-
callback
funzione
Il parametro
callback
ha il seguente aspetto:(requestor: TtsClient, lang: string) => void
-
richiedente
-
lang
stringa
-
onPause
chrome.ttsEngine.onPause.addListener(
callback: function,
)
(Facoltativo) Se un motore supporta l'evento di pausa, deve mettere in pausa l'eventuale enunciato corrente in fase di pronuncia finché non riceve un evento di ripresa o di interruzione. Tieni presente che un evento di interruzione dovrebbe anche cancellare lo stato in pausa.
Parametri
-
callback
funzione
Il parametro
callback
ha il seguente aspetto:() => void
onResume
chrome.ttsEngine.onResume.addListener(
callback: function,
)
(Facoltativo) Se un motore supporta l'evento di pausa, deve supportare anche l'evento di ripresa per continuare a pronunciare l'eventuale enunciato corrente. Tieni presente che un evento di interruzione dovrebbe anche cancellare lo stato in pausa.
Parametri
-
callback
funzione
Il parametro
callback
ha il seguente aspetto:() => void
onSpeak
chrome.ttsEngine.onSpeak.addListener(
callback: function,
)
Viene chiamato quando l'utente effettua una chiamata a tts.speak() e una delle voci del manifest di questa estensione è la prima a corrispondere all'oggetto options.
Parametri
-
callback
funzione
Il parametro
callback
ha il seguente aspetto:(utterance: string, options: SpeakOptions, sendTtsEvent: function) => void
-
proposizione
stringa
-
opzioni
-
sendTtsEvent
funzione
Il parametro
sendTtsEvent
ha il seguente aspetto:(event: tts.TtsEvent) => void
-
evento
L'evento del motore di sintesi vocale che indica lo stato di questa espressione.
-
-
onSpeakWithAudioStream
chrome.ttsEngine.onSpeakWithAudioStream.addListener(
callback: function,
)
Viene chiamato quando l'utente effettua una chiamata a tts.speak() e una delle voci del manifest di questa estensione è la prima a corrispondere all'oggetto options. È diverso da ttsEngine.onSpeak in quanto Chrome fornisce servizi di riproduzione audio e gestisce l'invio di eventi TTS.
Parametri
-
callback
funzione
Il parametro
callback
ha il seguente aspetto:(utterance: string, options: SpeakOptions, audioStreamOptions: AudioStreamOptions, sendTtsAudio: function, sendError: function) => void
-
proposizione
stringa
-
opzioni
-
audioStreamOptions
-
sendTtsAudio
funzione
Il parametro
sendTtsAudio
ha il seguente aspetto:(audioBufferParams: AudioBuffer) => void
-
audioBufferParams
Parametri contenenti un buffer audio e dati associati.
-
-
sendError
funzione
Chrome 94 e versioni successiveIl parametro
sendError
ha il seguente aspetto:(errorMessage?: string) => void
-
errorMessage
stringa facoltativa
Una stringa che descrive l'errore.
-
-
onStop
chrome.ttsEngine.onStop.addListener(
callback: function,
)
Viene attivato quando viene effettuata una chiamata a tts.stop e questa estensione potrebbe essere in fase di elaborazione. Se un'estensione riceve una chiamata a onStop e la voce è già stata interrotta, non deve fare nulla (non deve generare un errore). Se la voce è in stato di pausa, questo dovrebbe annullare lo stato di pausa.
Parametri
-
callback
funzione
Il parametro
callback
ha il seguente aspetto:() => void
onUninstallLanguageRequest
chrome.ttsEngine.onUninstallLanguageRequest.addListener(
callback: function,
)
Viene attivato quando un client TTS indica che una lingua non è più necessaria.
Parametri
-
callback
funzione
Il parametro
callback
ha il seguente aspetto:(requestor: TtsClient, lang: string, uninstallOptions: LanguageUninstallOptions) => void
-
richiedente
-
lang
stringa
-
uninstallOptions
-