Dreamtonics Synthesizer Studio V – Vocals in-the-box

Dreamtonics Synthesizer Studio V – Vocals in-the-box

Manchmal weiß man schon nach wenigen Minuten, dass diesmal beim Technik-Test wirklich etwas Neues auf dem Schreibtisch liegt. Ziemlich schnell war klar, dass dies hier eine Zäsur ist: Das Synthesizer Studio V Pro 2 macht die menschliche Stimme beherrschbar in Form eines Plug-ins. Beherrschbar heißt, es kommen nicht nur gute Ergebnisse heraus, sondern man kann diese auch noch kontrollieren und immer wieder ändern. Das liegt nicht zuletzt an einem ausgeklügelten Interface, das es schafft, sinnvolle Parameter anzuzeigen, mit denen man Stimmen verändern kann. Und dass auch noch alles ohne Latenz in Echtzeit mit dem Rest deines Tracks funktioniert, macht alles intuitiver.

Denn KI-Voices gab es inzwischen schon länger – man konnte die Stimme eines Popstars trainieren und selbst benutzen mit Modellen von Elevenlabs. Oder man konnte in Sekunden Radiowerbung samt Sprecher und Musik generieren mit Adthos. Oder man konnte Stimmen in Echtzeit mit einem KI-Audioeffekt umwandeln lassen mit Vocoflex.

Auch ist es kein Hexenwerk, schlechte Aufnahmen mit KI-Tools zu reparieren und in Sekundenschnelle Recordings in Studioqualität zu bekommen.

Herauskamen kamen immer Ergebnisse, die sich hören lassen konnten. Aber wie das mit dem Fortschritt in der Technik manchmal so ist, hat man seinen kreativen Prozess dann auch schnell nicht mehr unter Kontrolle, sondern kommt als Producer*in in eine eher ohnmächtige Position, in der wir weder eine Selbstwirksamkeit erfahren noch in einen Creative-Error-Prozess gelangen können. Auf Knopfdruck ist dann ein gutes Ergebnis fertig, mit dem man dann erst einmal zufrieden sein muss, weil man es nicht beeinflussen kann.

Das macht für Werbung oder den Klangteppich über der Gemüsetheke im Supermarkt sicherlich Sinn, wenn man Musik als funktionales Gestaltungsmittel einer Verkaufsumgebung sieht. Aber wenn man Musikmachen als kreativen Raum sieht, aus dem sich eine ästhetische Erfahrung entwickelt, würden die meisten unter uns das wahrscheinlich anders angehen, als nur einen Knopf zu drücken.

Hier braucht es Raum, mit Instrumenten und Klängen auf die Suche nach einem neuen Sound zu gehen und die Interaktion zu suchen. Das kann manchmal Jahre dauern, manchmal in zwei Stunden in der Horizontalen auf der Couch passieren.

Mit diesen Gedanken im Hinterkopf ist es umso spannender, dass es dem kleinen Team von Dreamtonics aus Tokio gelungen ist, ein Plug-in zu entwickeln, das wirklich zum Musikmachen taugt. Der Name ist Programm: Der Synthesizer V Studio Pro 2 soll ein Synthesizer für Vocals sein. Die Basis für die Vocal-Synthese ist hier eine Library aus vielen aufgenommenen und trainierten Stimmen, die ständig erweitert wird und zu der weitere Stimmen dazugekauft werden können. Deutsch ist als Sprache – wie bei so vielen KI-Tools – leider nicht dabei, dafür aber Englisch, Spanisch, Koreanisch, Japanisch und Mandarin.

Die Stimmen haben dabei sehr viele Facetten – von rauchiger Soul-Diva bis zur K-Pop-Princess. Da die Entwicklung der KI-Voices sehr stark aus den High-Tech-Gefilden aus dem asiatischen Raum stammt, gibt es auch viele Stimmen in dem Bereich, die teilweise in den koreanischen oder japanischen Charts landen. Diese sehr starke Verknüpfung von Technologie und künstlerischer Performance ist in diesen Ländern sehr üblich – in den meisten anderen Teilen der Welt sind wir das noch nicht sehr gewohnt. Aber da jede Stimme auch Englisch kann und es ein riesiges Spektrum an Stimmfarben gibt, passt sich alles gut an unsere Hörgewohnheiten an, und auch die Tutorials und der Support sind sehr zuvorkommend.

Die Stimmen kann man sich auf der Website sehr ausführlich anhören und danach in den Editor laden, wo die wahre Magie dann anfängt: In einer Piano-Roll kann man entweder eine Melodie einzeichnen, per MIDI einspielen oder ein Audio-File nutzen, aus dem die Noten dann analysiert werden. Der Audio-to-MIDI-Prozess funktioniert übrigens deutlich genauer als in DAWs wie Logic oder Ableton, was allein schon eine Beachtung wert ist.

Für Lyrics braucht es natürlich noch Text. Den schreibt man direkt in die MIDI-Notenblöcke hinein. Man kann also genau eingeben, welche Note welche Silben, Laute oder Wörter singt. In der echten Welt sind Stimmen natürlich viel dynamischer als MIDI-Noten – und Dreamtonics hat genau die richtigen Parameter, um die ohnehin schon guten Voice-Modelle daran anzupassen. Als erste grundsätzliche Einstellung gilt es zu wissen, ob gerappt oder gesungen werden soll. Schritt zwei ist ein Koordinatenfeld, mit dem man zwischen vier Timbre-Eigenschaften einer Stimme – nämlich raw, rigid, refined und vibrant – auswählen kann. Das ist die erste Basis für die Stimm-Synthese. Als Nächstes nutzt Synthesizer Studio V den Effekt, dass jede neue AI-Generierung etwas anders klingt, sehr geschickt aus, indem man entweder das Timing, das Timbre, das Feintuning oder alles zusammen nochmals neu generieren lassen kann – wobei manchmal sehr spannendende Kombinationen aufkommen. Dreamtonics nennt das Ganze AI-Retakes und wendet es auf komplette Phrasen oder auch nur einzelne Silben an, womit man schon sehr kreativ und genau arbeiten kann.

Richtig ans Eingemachte geht es aber dann bei den Automationsmöglichkeiten – das Fenster kann man sich ähnlich wie die Melodyne, die legendäre Tonhöhen-Korrektur-Software, vorstellen. Man kann die Tonhöhe, das Vibrato, die Dynamik, die Breathiness, das Geschlecht, die Formanten, die Öffnung des Mundes und die Intonation der Rap-Stimmen einzeichnen, um genau dahin zukommen, wo man hin möchte. Wie von DAWs gewohnt, kann man die Kurven für die Parameter einerseits frei zeichnen, Punkte miteinander verbinden oder vorgefertigte Formen einsetzen. Und, was noch hinzukommt, ist ein Editor, mit dem man die einzelnen Phoneme, also kleinste Laute in der Sprache, der MIDI-Noten unterschiedlich gewichten kann. Damit kann man einzelnen Lauten einer Phrase einen stärkeren Akzent geben und somit tief in die Betonung von Wörtern einsteigen. So könnte man in einem imaginären FAZEmag-Jingle einerseits das „g“ sehr deutlich singen lassen oder es eher verschwinden lassen.

Für mich haben sich mit der Zeit zwei Workflows eigespielt: Im ersten habe ich über MIDI eine Melodie eigespielt und musste dann nur noch passende Lyrics eingeben. Auf diese Art ist es dann auch möglich, mehrere Stimmen und damit einen Chor zu bilden, bei dem jede Stimme sehr individuell und damit weit weg von allen KI-Klischees klingen kann.

Der andere Workflow hat sich ergeben, wenn man eine zusätzliche Variation zu einem Sample haben wollte. Manchmal gibt es die Situation, dass man einen Track nur mit einem kurzen Soul-Loop anfängt und im Arrangement noch Varianten davon braucht, die gut aufeinander passen. Deswegen kann es immer eine inspirierende Idee sein, das Sample in das Synthesizer Studio V zu laden, per Audio-to-MIDI analysieren zu lassen und dann eine Vocal-Linie auf die Melodie zu schreiben – und wenn sie nur aus „uhh“, „ahhhh“ oder „whooo“ besteht.

Wenn mir der Vibe gefallen hat, habe ich das Ergebnis genommen und wie ein Sample bearbeitet, sodass Hörer*innen des Tracks nicht aufgefallen sein konnte, dass die Vocals gar nicht von einer alten Platte, sondern von einer KI kommen.

Gerade der Umstand, dass man jede Note einzeln bearbeiten kann, also für jede Note eine eigene Intonation, eine eigene Sprache und die oben besprochenen AI-Retakes machen kann, lässt auch ziemlich neue Kombinationen zu, die dann ähnlich klingen könnten wie die Vocals aus DJ Kozes „Highly Recommended“. So gesehen ist es eine ganz neue Herangehensweise an das Thema Sample-Chopping, da man sich jetzt selber die Vocals-Chops designen kann.

Workflows wie diese sind es auch, die das Synthesizer Studio V 2 so spannend für mich machen, da es die Möglichkeit gibt, eine neue Ästhetik zu kreieren. Und gerade im Bereich der elektronischen Musik sind es immer wieder auch Vocals, die Tracks eine besondere Aura verleihen können. Auch für DJ-Intros oder Bootlegs kann man mit der Vocal-KI ein Set sehr besonders vorbereiten und sehr schnell eigene Edits von den Tracks machen, die man später auflegen möchte. Natürlich ersetzt das Tool nicht die Arbeit mit Sänger*innen – da mit diesen ein sozialer Raum entsteht, der für den musikalischen und persönlichen Prozess sehr wertvoll ist. Doch darüber hinaus gibt es so viele Anwendungen, wo es sehr bereichernd ist, eine realistische Stimme wie einen Synthesizer programmieren zu können. Vor allen wenn man den Unterschied nicht mehr hört.

Aus dem FAZEmag 159/05.2025
Web: www.dreamtonics.com