MusicLM von Google schien mit seiner Fähigkeit, Musik aus Textaufforderungen zu generieren, vielversprechend. Aber nachdem ich es auf die Probe gestellt habe, hat es nicht ganz funktioniert.
Im Januar 2023 kündigte Google MusicLM an, ein experimentelles KI-Tool, das Musik basierend auf Textbeschreibungen generieren kann. Parallel zu den Nachrichten veröffentlichte Google ein beeindruckendes Forschungspapier für MusicLM, das viele Menschen von der Fähigkeit, Musik aus dem Nichts zu zaubern, verblüffte.
Nach einer Textaufforderung versprach das Modell, High-Fidelity-Musik zu produzieren, die alle möglichen Beschreibungen lieferte, von Genre über Instrument bis hin zu abstrakten Bildunterschriften, die berühmte Kunstwerke beschreiben. Da MusicLM nun für die Öffentlichkeit zugänglich ist, haben wir beschlossen, es auf die Probe zu stellen.
Googles Versuch, einen KI-Musikgenerator zu erstellen
Eine Textaufforderung wie „Relaxing Jazz“ in einen spielfertigen Titel umzuwandeln, ist wohl der heilige Gral der Experimente in der KI-Musik. Ähnlich wie bei berühmten KI-Bildgeneratoren wie Dall-E oder Midjourney benötigen Sie kein bisschen Musik-Know-how, um einen Titel mit Melodie und Takt zu produzieren.
Im Mai 2023 konnten diejenigen, die sich bei Googles AI Test Kitchen angemeldet hatten, die Demo erstmals ausprobieren. Dank einer benutzerfreundlichen Webseite und einigen Leitregeln – elektronische und klassische Instrumente funktionieren am besten, und vergessen Sie nicht, einen „Vibe“ anzugeben – ist die Produktion eines Musikausschnitts unvorstellbar einfach.
Geschwindigkeit ist neben Samples mit relativ hoher Wiedergabetreue eines der wenigen Dinge, die MusicLM wirklich bietet. Der eigentliche Test bestand jedoch nicht darin, die Messung allein mit einer Stoppuhr durchzuführen. Kann MusicLM aus wenigen Worten echte, hörbare Musik produzieren? Nicht ganz (dazu kommen wir gleich).
So verwenden Sie MusicLM in der AI Test Kitchen von Google
Die Verwendung von MusicLM ist einfach. Wenn Sie es ausprobieren möchten, können Sie sich auf die Warteliste für Googles AI Test Kitchen eintragen .
In der Web-App sehen Sie ein Textfeld, in dem Sie eine Eingabeaufforderung aus ein paar Wörtern bis hin zu ein paar Sätzen verfassen können, die die Art der Musik beschreibt, die Sie hören möchten. Um die besten Ergebnisse zu erzielen, empfiehlt Google, „sehr beschreibend“ zu sein und fügt hinzu, dass Sie versuchen sollten, die Stimmung und Emotionen der Musik einzubeziehen.
Wenn Sie fertig sind, drücken Sie die Eingabetaste, um mit der Verarbeitung zu beginnen. Innerhalb von etwa 30 Sekunden stehen Ihnen zwei Audioausschnitte zum Anhören zur Verfügung. Von beiden haben Sie die Möglichkeit, eine Trophäe an das beste Beispiel zu vergeben, das Ihrer Eingabeaufforderung entspricht, was wiederum Google dabei hilft, das Modell zu trainieren und seine Ausgabe zu verbessern.
Wie MusicLM klingt
Menschen machen seit mindestens 40.000 Jahren Musik, ohne dass man genau weiß, ob Musik vor, nach oder gleichzeitig mit der Entwicklung der Sprache entstand. In gewisser Weise ist es daher nicht verwunderlich, dass MusicLM den Code dieser alten, universellen Kunst noch nicht ganz geknackt hat.
Das MusicLM-Forschungspapier von Google legt nahe, dass MusicLM Musik aus Bildunterschriften berühmter Kunstwerke generieren und Anweisungen wie den Wechsel des Genres oder der Stimmung nach einer Abfolge verschiedener Eingabeaufforderungen reibungslos befolgen kann.
Bevor wir jedoch zu solch großen Aufgaben kamen, stellten wir fest, dass MusicLM zunächst einige grundlegende Probleme überwinden musste.
Schwierigkeiten, das Tempo einzuhalten
Die grundlegendste Aufgabe eines jeden Musikers besteht einfach darin, im Takt zu spielen. Mit anderen Worten: Halten Sie sich an das Tempo. Überraschenderweise kann MusicLM das nicht zu 100 % tun.
Tatsächlich waren bei zehnmaliger Verwendung derselben Eingabeaufforderung, die 20 Musiktitel erzeugt, nur drei im richtigen Moment. Die restlichen 17 Samples waren schneller oder langsamer als das angegebene Tempo, das in „Beats pro Minute“ angegeben wurde, einem weit verbreiteten Begriff zur Beschreibung von Musik.
In diesem Beispiel haben wir die Aufforderung „Solo klassisches Klavier gespielt mit 80 Schlägen pro Minute, friedlich und meditativ“ verwendet. Bei genauerem Hinhören wurde die Musik innerhalb der kurzen Sample-Länge oft schneller oder langsamer.
Der Musik fehlte auch ein starker Beat und sie klang, als hätte jemand mitten im Stück die Play-Taste gedrückt. Ob dies beabsichtigt war oder nicht, es macht es schwierig zu beurteilen, ob MusicLM tatsächlich einen richtigen Anfang oder ein richtiges Ende eines Musikstücks komponieren kann, ohne dabei den Takt einzuhalten.
Zufällige Instrumentenauswahl
Vielleicht hatte MusicLM noch nicht gelernt, in striktem Timing zu spielen, also gingen wir zu einem anderen gemeinsamen Musikparameter über. Wir wollten sehen, ob es unserem Wunsch nach bestimmten Instrumenten stattgeben würde.
Wir haben verschiedene Aufforderungen geschrieben, die Beschreibungen wie „Solo-Synthesizer“ und „Solo-Bassgitarre“ enthielten. Andere waren größere Ensembles wie „Streichquartett“ oder „Jazzband“. Im Großen und Ganzen schien es eine 50:50-Chance zu sein, dass Sie das bekommen würden, was Sie verlangten.
Eine Theorie besagt, dass das Modell einige Instrumente mit populären Musikgenres in Verbindung bringt. Nehmen Sie zum Beispiel die Aufforderung „Solo-Synthesizer, Akkordfolge. Lebhaft und beschwingt“. Statt einen reinen Synthesizer-Sound zu erzeugen, produzierte MusicLM einen elektronischen Track komplett mit Schlagzeug und Bass.
Es ist möglich, dass das Modell einfach nicht über genügend Daten und Training verfügt, um die spezifische Anforderung für ein Instrument zu verstehen.
Gesang spielt keine Rolle
Den damaligen Beschränkungen zufolge würde das Modell keine Musik mit Gesang produzieren. Die heiklen Urheberrechtsprobleme und der fehlerhafte Gesang von MusicLM sind wahrscheinlich ein Grund dafür, dass Google sich entschieden hat, mit dieser Einschränkung auf Nummer sicher zu gehen.
Doch nachdem wir eine Zeit lang mit MusicLM experimentiert hatten, stellten wir fest, dass die Kontrolle von Google über die Ausgabe des Modells nicht unbedingt gesichert war. Seltsamerweise würde eine Eingabeaufforderung wie „Akustische Gitarre“ einen Titel erzeugen, der im Hintergrund geisterhafte Vocals enthielt, die gedämpft und distanziert klangen.
Auch wenn dies nicht häufig vorkommt, fragt man sich dennoch, ob MusicLM überhaupt in der Lage ist, überzeugende Vocals zu erzeugen.
Da Software wie VOCALOID und Synthesizer V führend in der KI-gestützten Gesangssynthesetechnologie sind, fragen wir uns, ob der Gesang im aktuellen Modell nicht schon gut genug ist, um mit der bestehenden Technologie zu konkurrieren. MusicLM hat möglicherweise noch einen langen Weg vor sich, bis Musiker Loblieder auf MusicLM singen.
Die Zukunft der KI-Musikgeneratoren
Während MusicLM die generative KI-Musiktechnologie vorangebracht hat, muss es noch einmal in die Schule gehen und noch ein paar Dinge lernen, bevor es praktische Arbeit in der Musikindustrie aufnehmen kann.
Bisher war der beste Versuch generativer KI-Musik ein Modell namens JukeboxAI von OpenAI. Es war noch nicht gerade einsatzbereit und es dauerte satte neun Stunden, nur eine Minute Musik zu rendern.
Für Ihre Bemühungen erhalten Sie wahrscheinlich einen wirklich fremdartig klingenden Track zurück, der voller Audioverzerrungen und Artefakte ist. Ein Vorteil ist, dass es Ihnen nicht langweilig wird, den bizarren Kreationen zu lauschen, die Jukebox heraufbeschwört .
Vor diesem Hintergrund hat MusicLM einige bedeutende Fortschritte in Richtung eines benutzerfreundlichen KI-Musikgenerators gemacht. Wir könnten dem Modell seine zufälligen Ausgaben fast verzeihen, wenn man darüber nachdenkt, wie enorm kompliziert es ist, Musik in roher Audioform zu erzeugen.
Nach der Umsetzung des Modells fühlt sich MusicLM jedoch im Vergleich zu dem, was Google in seiner ersten Forschungsarbeit veröffentlicht hat, unausgegoren. Es kommt selten vor, dass ein KI-Bildgenerator das Bild eines Apple falsch hinbekommt, ebenso sollte ein KI-Musikgenerator ein paar Grundlagen wie Tempo und Instrumente richtig hinbekommen batocera.
Googles MusicLM bleibt hinter den Erwartungen zurück
Angesichts der Tatsache, dass Technologieunternehmen auf dem Gebiet der künstlichen Intelligenz darum kämpfen, sich gegenseitig zu übertreffen, hat MusicLM das Gefühl, als wäre es bereits in die öffentliche Testphase eingetreten, bevor es soweit war. Anstatt die Grundlagen richtig zu machen, scheint das Modell einen weitaus vageren und subjektiveren Ansatz bei der Musikproduktion zu verfolgen.
Google fordert Sie möglicherweise dazu auf, Ihre Eingabeaufforderung genau zu formulieren, aber das Tempo kommt damit nicht gut zurecht, und es ist nicht garantiert, dass Sie jedes Mal die Instrumente erhalten, nach denen Sie gefragt haben. MusicLM mag interessant sein und eine gute Demonstration leistungsstarker KI-Fortschritte sein, aber wenn Musik das Endziel ist, ist es noch ein langer Weg.