Avec Alexa ou Google Assistant, nous pouvons utiliser le langage SSML (Speech Synthesis Markup Language) pour améliorer la réponse vocale. La balise SSML "audio" permet de lire un fichier mp3.
Alexa prend en charge 5 balises audio dans une réponse, dans la majorité des cas cela suffit, mais pour certaines applications vocales, cela n'est pas suffisant. La personnalisation du dialogue peut entrainer l'utilisation d'une dizaine de fichiers audio.

La première solution consiste à prégénérer les fichiers audio avant de publier la Skill. Ainsi on réduit l'utilisation de la balise audio, mais la maintenabilité et l'évolution de l'application se retrouvent réduites. Il faudra en permanence penser à générer les nouveaux dialogues.

La deuxième solution consiste à concaténer les fichiers audio en temps réel en fonction des demandes utilisateurs.
Il n'y alors plus besoin maintenir la liste des dialogues possibles, les dialogues seront générés sur demande.
Une autre raison d'utiliser sur une seule balise SSML audio est la suppression de la latence générée par l'utilisation de plusieurs balises SSML audio. En effet chaque tag audio entraine une micro coupure suite au chargement du mp3, la fluidité du dialogue est alors ralentie.