Text: Daniel Fuchsberger
Komponieren und Reimen, zwei Dinge, die seit Jahren Teil meines Lebens sind, und die – zumindest bei mir – meist zeitraubende, manchmal mühsame, aber letztendlich doch immer befriedigende Prozesse darstellen. Wenn es also – brave new world – die Möglichkeit gibt, Teile dieser Prozesse (oder gleich alles) von einer Zaubermaschine erledigen zu lassen, könnte das viel Zeit und Mühe sparen. Aber ist die Freude mit dem Ergebnis dann auch gleich groß?
Also mache ich mich daran, herauszufinden, ob die KI Gstanzln dichten kann, oder Volksmusikalisches komponieren, oder auch gleich fertig musizieren. Ich gehe unschuldig wie Adam und Eva vor dem Sündenfall an das Ganze heran, habe ich mich doch bisher herzlich wenig für die Welt der künstlichen Intelligenz interessiert. Das hat auch zur Folge, dass Teile meiner im Folgenden beschriebenen Erfahrungen mit der Materie (v. a. die Misserfolge) möglicherweise auf unsachgemäße Bedienung zurückzuführen sind.
Reimt sichs oder dichtets?
Was möchte ich also bei dieser Flaschengeist-gleichen Wunderinstitution namens ChatGPT bestellen? Vielleicht zum Anfangen: Ein Gstanzl. Nehmen wir ein Thema, das gerade aktuell ist – zum Verfassungszeitpunkt dieser Zeilen stehen tragischerweise gerade große Gebiete Süddeutschlands unter Wasser, vielleicht also etwas Menschheits-Verhaltens-Kritisches zum Thema. Meine NI (=natürliche Intelligenz) liefert dazu:
So wia ban Gift und da Dosis
is’ a mitn Regn, weil wånns z’ nåss is
schwimman d’ Häuser weg und
d’ Leit gengan zgrund.
Auch diese vier Zeilen haben – obwohl nicht einmal lustig – ein paar Konstruktionsminuten in Anspruch genommen. Also versuche ich einmal, ChatGPT damit zu beauftragen: Anweisung (Prompt): »Schreibe ein Gstanzl mit 4 Zeilen, das Überschwemmungen aufgrund von Starkregen zum Thema hat, in österreichischem Dialekt.«
Ergebnis (wenige Sekunden später geliefert):
Da Regen kimmt so schnell daher, dass’s Wasser steigt, ma glaubt es schwer. Die Straßen steh’n voll bis zum Rand, bei uns im schönen Alpenland.
Ich bin baff ob dieses Ergebnisses. Ohne weitere Präzisierungen, also zum Beispiel, ob und wie oft sich das Ganze reimen soll, hat die KI (wohl, weils meistens so ist) automatisch einen Paarreim angenommen. Was das Versmaß angeht, ist es ein geradtaktiges Gstanzl geworden (zu singen etwa auf die Melodie von Jetzt kimb scho båld da Liachtmesståg. Da ich aber – so wie bei meinem Gstanzl – eine Dreiviertelmelodie im Kopf habe, versuche ich das der Maschine zu erklären. Dies gelingt (auf den zweiten Versuch) mit folgender Anweisung (weil sich inzwischen die Wetterlage stark verändert hat): »Schreibe mir ein Gstanzl im österreichischen Dialekt im Versmaß Daktylus, zum Thema Hitzewelle!«
Ergebnis:
G’wohnheitsrecht vom Sommer, der hitzige Plage, de Hitzen, sie lachten, a Kält’ is net dage, de Sonnen san glühend, de Scheiter san fett, a Schattn is Mangel, do sizz i jetz’ nett.
S’ Wasser wird knapp und de Brunnen san leer, mir schwitz’n und wir gähn’n, uns plagt schon der Heer. Die Hunde, die hecheln, de Katz’ will net raus, die Hitz’, die is b’sonders a Schmerz in meim Haus. Doch Kinder, die freu’n sich und springa ins Bassin, mit Jaus’n und Eis drum, so mog’sd des lass’n. S’ Hitz’g’fühl vergessen, wenn’s Freibad ruft laut, des Gstanzl am End’ ’is, der Sommer is braut.
Tatsächlich – das Versmaß ist ungefähr so, wie ich es haben wollte. Die Gstanzln funktionieren über meine Gstanzlmelodie [nachzulesen/-singen in: Steirisches Volksliedwerk: Singen im Wirtshaus. Die erste Runde, Graz 2001, S. 80.], haben aber die doppelte Länge der meinigen (sind also über jeweils zwei Melodie-Durchgänge zu singen). Spannend ist jedenfalls die Erschaffung von Wörtern (»dage«, »braut«) damit sich’s reimt – oder kennt ChatGPT einen österreichischen Regionaldialekt, von dem ich nichts weiß?
Melodien und Blabla
Dass KI also mit Texten oft erstaunlich gut umgehen kann, habe ich erfahren. Wie aber sieht es mit Musik aus? Auf Nachfrage bei ChatGPT (»Welche KI kann traditionelle österreichische Musik komponieren?«) werden mir fünf Programme empfohlen, wenig überraschend an erster Stelle ein Produkt der selben Firma (OpenAI). Dieses Programm erzeugt mittels Buchstaben wiedergegebene (in diesem Fall kurze) Melodien, ohne Rhythmisierung der Noten. Auf die Anweisung: »Mache einen traditionellen zweistimmigen steirischen Jodler!« liefert MuseNet folgende Melodie: (siehe oben).
Dazu liefert die KI eine blumige Melodieanalyse: »Eine klare Melodie, oft mit Sprüngen zwischen Brust- und Kopfstimme, und harmonischen Intervallen, die den alpinen Klang betonen. […] Die Harmonie unterstützt die Melodie, indem sie im Terzabstand (drei Töne Abstand) zur Melodie bleibt. Die D-Töne schaffen eine stabile Grundlage für die G-Töne der Melodie. […] Die Notation des Jodlers ist in G-Dur, was häufig in der steirischen Musik verwendet wird.«
Irgendwie verleiht dieser Hang zum Geschwurbel dem Programm auch etwas Menschliches. Ich habe bis jetzt immer geglaubt, die menschliche Tendenz zum Reden-und-nichts-Sagen entsteht aus einem grundsätzlichen Bedürfnis nach sozialem Kontakt heraus, aber auch der (von Menschen geschaffenen) Maschine wurde diese Neigung offensichtlich mitgegeben. Die Behauptung, dass G-Dur in der steirischen Musik häufig verwendet wird, ist zwar sicher korrekt, dasselbe wäre aber mit anderen Tonarten genauso richtig. Schlicht falsch ist dagegen die Behauptung, dass die Melodie im Terzabstand geführt wird – es ist ein Quartabstand. Dieser Bug (= Programmfehler) hat sich bei einer präzisierten Anfrage (»Schreibe eine kurze zweistimmige Melodie im Terzabstand«) nicht wiederholt, dort ist der behauptete Terzabstand auch ein tatsächlicher. Auch das ist zutiefst menschlich: Jeder kann sich einmal vertun. Dass wir das heute auch (vermeintlich präzisen) Maschinen zugestehen müssen, irritiert mich irgendwie.
Wanderlust in the Alps
Auch mit den anderen ChatGPT-Empfehlungen bin ich nicht wahnsinnig erfolgreich, also besinne ich mich doch wieder der guten alten Mundpropaganda und sehe mir das von meinem (realen) Kollegen Florian Wimmer empfohlene Programm Suno an. Souverän packe ich zur Wunschäußerung mein Schulenglisch aus: »create a typical piece of Austrian folk music« – und here it is (vollständiger Text siehe Audio-Links):
- Hörbeispiel: Wanderlust in the Alps Version 1, ein »typisch österreichisches Volksmusikstück«, KI-generiert mit Suno.
- Hörbeispiel: Wanderlust in the Alps Version 2, ein »typisch österreichisches Volksmusikstück«, KI-generiert mit Suno.
[Verse]
High up in the alpine meadows
’neath the Edelweiss
Tales of wanderers linger
Wind whispers thrice
Children laugh and yodel
By the crystal streams
Hearty songs and echoes
Where the sunlight gleams
[…]
[Chorus]
Wanderlust in the Alps
Where the eagles soar high
Echoes of long-gone yesterdays
Brush the cerulean sky
With a heart full of mountains
And a song of the free
In the land of the cuckoo
Come wander with me […]
Eines wird mir an dieser Stelle bewusst: Die Datenvermüllung des Internets wird die KI wohl eher nicht reduzieren. Außerdem muss ich an mit Musikerkollegen geführte Diskussionen darüber denken, welche Schlüsselwörter denn in jedem Schlager vorkommen müssen. Und genau das habe ich wohl bestellt: »typical« nämlich. Geliefert werden standardmäßig immer zwei anhörbare Versionen – quasi eingespielt, eingesungen, produziert, geschnitten und fertig gemischt. Im ersten Fall bekomme ich die Auswahl zwischen eher Akustik-Pop und mehr Elektro-Techno, beides austauschbare Mainstream-Radiosender-geeignete Standardkost, mit unterschiedlichen Gesangsmelodien. So weit, so beeindruckend. In Geld gerechnet, würde eine entsprechende Audioaufnahme mit echten Musikern und Tontechnikern wohl einen vierstelligen Euro-Betrag kosten – hier zum Nulltarif.
Hier noch ein weiterer Versuch, diesmal mit deutschem Text und etwas mehr in klassischer Schlager-Manier:
- Hörbeispiel: Jodelwelt Version 1, KI-generiert mit Suno.
Extend the Arzberger!
Anstatt der Maschine lang zu erklären, wie das Ganze volksmusikalischer klingen könnte, spiele ich ihr einfach etwas vor, an dem sie sich orientieren soll. Ich verwende dafür eine Jodler-Audionotiz, wie ich sie meist nach Jodelkursen ausschicke: Den Arzberger Jodler, einen zweistimmigen Gegeneinand, eingesungen von mir mit mir. (siehe rechts oben)
- Hörbeispiel: Arzberger Jodler Audionotiz, mehrspurig eingesungen von Daniel Fuchsberger.
Die KI bietet mir nun die Möglichkeit einer musikalischen Durchführung meines Jodlers (die Funktion nennt sich »Extend«). Das kann dann so klingen:
- Hörbeispiel: KI-Durchführung des Arzberger Jodlers, KI-generiert mit Suno.
- Hörbeispiel: Neue Gegenstimme aus der Suno-Durchführung.
Irgendwie ist das tatsächlich ein Remix der Materie, und ab Minute 02:00 höre ich plötzlich eine scheinbar neue Gegenstimme. Beim Versuch, diese zu transkribieren, stelle ich fest, dass sie nicht an allen Stellen wirklich gut zu hören ist, oder (kurzzeitig) ganz verschwindet. Die Rhythmisierung ist eigentlich komplexer, als ich es hier notieren kann und will. Hier hat elektronische Musikerzeugung einen Startvorteil, denn die damit einfach erzielbare Präzision ist auf echten Instrumenten nur mit viel Übung realisierbar (Techno-Fans wissen das seit Jahrzehnten zu schätzen). Außerdem konnte mir die Maschine durch Hinzufügen einiger klischeehafter Floskeln (z. B. Takt 2) und Änderung der Harmonie (Takt 4: I. statt V. Stufe) verschleiern, dass große Teile der Gegenstimme (z. B.: Takt 3) eh der Original-Gegenstimme entsprechen. (siehe oben).

Siehe auch: »Arzberger Jodler«, aus: Steirisches Volksliedwerk: 123 Jodler und Juchzer, Graz 2011, S. 62.
… und wieder zurück in die analoge Welt
Der nächstlogische Schritt für mich war es, aus dieser KI-generierten Gegenstimme eine Stimme zu kreieren, die mit den beiden Originalstimmen des Jodlers kompatibel ist. Das folgende renaturierte Resultat bildet sich aus von der KI neu eingebrachten Bausteinen, von mir ergänzt und verändert, so wie es – meinem Empfinden nach – Sinn macht. (siehe links)
Das Konglomerat aus den beiden Originalstimmen, dem leicht veränderten Begleitungsvorschlag der KI und der neuen Gegenstimme (lightly inspired by suno) habe ich dann im Mehrspurverfahren wiederum echt eingesungen und gespielt.
- Hörbeispiel: Arzberger renaturiert. Anmerkung: unsaubere Audionotiz von Daniel Fuchsberger; Motto: am Lagerfeuer.
So wie ich KI in diesem Fall eingesetzt habe, bringt es zwar keine wahnsinnige Zeitersparnis, aber doch möglicherweise neue Impulse (Als Komponist/Kunstschaffender befindet man sich ja immer in der Grauzone zwischen eigenem Stil und immer wieder das gleiche Stück schreiben …). Es ist ein bisschen so, wie wenn man im Kollektiv ein Stück entstehen lässt oder fertig arrangiert, mit dem Vorteil, dass man sich kein Blatt vor den Mund nehmen muss, wenn man den Mitmusikern (bzw. -komponisten) mitteilen will, dass man einen Großteil ihrer Ideen für nicht so gut hält. Man kann ohne zwischenmenschliche Verwerfungen das meiste wegschmeißen und nur ein paar kleine Details als Inspiration für den Weiterspinnungsprozess verwenden.
Der Weg zu mein Diandl is digital
Nach dieser – anti-zeitsparenden – KI-Verwendung versuche ich mein Glück noch im instrumentalen volksmusikalischen Universum. Dazu füttere ich Suno mit dem von Michi Reiter und mir gespielten Vorspiel zu Der Weg zu mein Dirndl is stoani. Diesmal ist das Ergebnis tatsächlich in etwa das, was ich haben wollte: Zwei Walzer, gespielt auf einer (mehr oder weniger steirischen) Harmonika, begleitet von so etwas wie einer Gitarre.
- Hörbeispiel: Vorspiel zu Der Weg zu mein Diandl … von Daniel Fuchsberger und Michael Reiter.
- Hörbeispiel: Der Weg zu mein Diandl is digital, KI-generiert mit Suno.
Freilich, auch hier bekommt man irgendwann (nach dem ersten Überraschungseffekt) das Gefühl, dass etwas nicht ganz stimmt: Je nach Abschnitt der Neukomposition klingt es (für meine Ohren) manchmal mehr nach Musette- oder Örgeli-Walzer, das liegt vermutlich an der (in diesen Teilen) überwiegenden Einstimmigkeit der Melodie, den durchgehenden Achtelketten und den vielen (mehr als auf einer Steirischen üblicherweise verwendeten) chromatischen Nebennoten. Auch die innere Logik der Stücke ist durchwachsen: Manchmal trifft das Programm bestechend logische Fortschreitungen, manchmal scheint sich das Ganze eher im Kreis zu drehen. Aber auch das ist bei so manchem Musikstück aus humaner Feder nicht anders …
Fazit
KI ist (noch) faszinierend, jedenfalls ein lustiges Spielzeug, und bietet musikalisch durchaus, auch für mich als bekennenden Analogmusiker, sinnvolle Anwendungsmöglichkeiten. Ob mir die hier geschaffenen Test-Musikstücke gefallen … ich weiß es noch nicht. Automatisch erzeugbare Musik wird, so vermute ich, schon allein aus ökonomischen Gründen (instant und gratis) in naher Zukunft ganz viele Bereiche unseres (v. a. digitalen) Lebens begleiten. Dass KI für mich persönlich zu einem relevanten Kompositionswerkzeug werden wird, glaube ich dennoch nicht. Vielleicht deshalb, weil für mich der Vorgang, eine Anweisung zu geben (prompten), sich nicht nach einem komplett eigenständig von mir durchgeführten kreativen Prozess anfühlt. Andererseits: Auch DJs, selbst wenn sie tatsächlich nur Musikstücke auswählen und von einem Apparat wiedergeben lassen (die meisten als DJs bezeichnete Menschen machen ja viel mehr als das), wird ein kreativer Prozess zugestanden. Also werden in den Clubs wohl sehr bald auch die ersten (hochbezahlten) Star-Prompter zu sehen bzw. hören sein. Bei den Sänger- und Musikantenstammtischen des Steirischen Volksliedwerks sehe ich das nicht ganz so bald kommen …
Ein Beitrag in Kooperation mit dem Steirischen Volksliedwerk.
0 Kommentare