Bzgl. wav hochladen nur eine Nebenbemerkung:
Machen wir in gewissen Situationen auch. Allerdings haben wir, weil die Person die die Ansagen eingesprochen hat alle Nase lang gewechselt hat und das selbst dann erst wieder mit der Person erledigt werden musste, uns selbst eine Anbindung für die Google TTS gebastelt (ist auch bis zu einer gewissen Anzahl von Wörtern im Monat kostenlos) und haben jetzt homogene Ansagen. Wer testen mag: Hier Text-to-Speech: Lebensechte Sprachsynthese | Google Cloud ein wenig runterscrollen, dann Language "Deutsch (Deutschland)" (klar ;)) und z.B. "Voice Type" "WaveNet" und "Voice name" "de-DE-WaveNet-B" einstellen und sich das eingegebene anhören. Das ist die Stimme die wir nutzen. Ist nicht 100% perfekt aber zu 98-99% und das reicht uns :).