Eine dieser neuen Eigenschaften ist die Fähigkeit des Modells, lesbaren Text innerhalb von Bildern zu produzieren. Midjourney ist seit seiner Markteinführung im Jahr 2022 dazu nicht in der Lage, obwohl die KI-Bildgeneratoren anderer Wettbewerber in der Lage sind, deutlich bessere und realistischere Bilder zu produzieren.
Einführung
Ein großes Sprachmodell und ein Mensch können über Eingabeaufforderungen der künstlichen Intelligenz (KI) interagieren , die es dem Modell ermöglichen, die gewünschte Ausgabe zu erzeugen. Dieser Dialog kann die Form einer Abfrage, einer schriftlichen Nachricht, kurzer Codeabschnitte oder Beispiele annehmen. Je nachdem, wie die Anfrage formuliert ist – die so einfach wie ein Wort oder so kompliziert wie ein Absatz sein kann – kann ein KI-Modell eine Reihe von Ausgaben erzeugen. Der Zweck der Eingabeaufforderung besteht darin, dem KI-Modell genügend Daten zu liefern, damit es relevante Ausgaben für die Eingabeaufforderung generieren kann.
Warum sind KI-Eingabeaufforderungen wichtig?
Eingabeaufforderungen der künstlichen Intelligenz können für eine Vielzahl von Aufgaben verwendet werden, darunter das Übersetzen von Sprachen, das Generieren von Texten, das Erstellen anderer Arten kreativer Inhalte und das Beantworten von Fragen auf pädagogische Weise. Damit KI-Modelle sowohl genaue als auch relevante Ergebnisse liefern, ist es entscheidend, dass die Eingabeaufforderungen der künstlichen Intelligenz unabhängig vom Anwendungsfall sorgfältig entwickelt werden.
Künstliche Intelligenz (KI)-Prompts geben Machine-Learning-Modellen oder KIs klare Anweisungen, damit sie die entsprechenden Ergebnisse erzielen können. Das bedeutet, dass das Modell die Eingabe oder Abfrage des Benutzers analysiert und interpretiert, indem es Deep-Learning-Methoden und die Verarbeitung natürlicher Sprache (NLP) nutzt .
Vorteile von KI-Eingabeaufforderungen
- Verbesserte Leistung: Wenn Benutzer klare und präzise Antworten auf Anfragen über explizite KI-Eingabeaufforderungen erhalten, wird der Prozess der Informationsbeschaffung im Vergleich zu Antworten, die von Grund auf neu geschrieben werden, beschleunigt. Darüber hinaus ermöglichen effiziente Eingabeaufforderungen einen effizienten Datenabruf aus großen Datenbanken.
- Verbesserter Kundensupport: Kundendienstmitarbeiter können dank KI-Eingabeaufforderungen schneller und präziser auf Kundenanliegen reagieren. KI-Chatbots können beispielsweise so programmiert werden, dass sie häufig gestellte Fragen beantworten, grundlegende Hilfe anbieten und die Kaufabwicklung beschleunigen. Dadurch steigt die Kundenzufriedenheit, die Produktivität wird gesteigert und die Kundeninteraktionen werden optimiert.
- Personalisierung: KI-Eingabeaufforderungen sind programmierbar und anpassbar. Beispielsweise kann ein Autor die Eingabeaufforderungen entsprechend seinem bevorzugten Ton, Stil und Thema ändern, um Originalmaterial zu erstellen, das seinen besonderen Anforderungen entspricht.
- Lehrmittel: Indem Lehrkräfte Unterrichtsinhalte mithilfe von Eingabeaufforderungen an die Bedürfnisse und Anwendungsfälle jedes einzelnen Schülers anpassen, können sie die Lernerfahrung für jeden Schüler individueller gestalten. Darüber hinaus können Eingabeaufforderungen eine automatische, sofortige Bewertung und eine schnelle Eingabe der Schüler ermöglichen.
- Zeitersparnis: Indem sie die Notwendigkeit wiederholter Erklärungen eliminieren und einen schnellen Informationsabruf aus riesigen Datensätzen ermöglichen, vereinfachen und beschleunigen KI-Eingabeaufforderungen die Kommunikation zwischen menschlicher Sprache und KI-Modellen. Dies kann die Produktivität steigern und mehrere Stunden mühsamen Data-Minings einsparen.
Was ist Midjourney?
Midjourney ist ein autonomes Forschungszentrum, das sich der Erforschung neuer Formen der Wahrnehmung und der Förderung menschlicher Kreativität widmet. Unser kleines, unabhängig finanziertes Team konzentriert sich auf KI, menschliche Infrastruktur und Design. Wir haben eine großartige Gruppe von Beratern sowie 11 Vollzeitmitarbeiter.
Das unabhängige Forschungslabor Midjourney, Inc. mit Sitz in San Francisco hat das generative künstliche Intelligenzprogramm und den Dienst namens Midjourney entwickelt und betreibt dieses. Wie DALL-E von OpenAI und Stable Diffusion von Stability AI erstellt Midjourney visuelle Darstellungen mithilfe natürlicher Sprachbeschreibungen oder Eingabeaufforderungen. Es gehört zu den Technologien von AI Spring.
An einem Wochenende im Dezember 2022 wurde Midjourney verwendet, um die Bilder für ein KI-generiertes Kinderbuch zu produzieren. Der Roman „Alice and Sparkle“ erzählt die Geschichte eines kleinen Mädchens, das einen selbstbewussten Roboter konstruiert. Ammaar Reeshi, der Schöpfer, verbrachte Stunden damit, die Midjourney-Eingabeaufforderungen zu verfeinern und Hunderte generierter Bilder zu eliminieren, bevor er 13 Illustrationen für das Buch auswählte.
Im Jahr 2023 kam es zu einer bemerkenswerten Welle viraler KI-generierter Fotos, die auf den Realismus KI-basierter Text-zu-Bild-Generatoren wie Midjourney, DALL-E oder Stable Diffusion zurückzuführen war und ein beispielloses Entwicklungsniveau erreichte. Eine vorgetäuschte Verhaftung von Donald Trump, ein Scherzangriff auf das Pentagon, eine von Midjourney erstellte Aufnahme von Papst Franziskus in einem weißen Puffermantel und ihre Verwendung in der professionellen kreativen Kunst erregten allesamt große Aufmerksamkeit.
Midjourney verwendete bis Mai 2023 ein Moderationssystem, das auf einem Schema verbotener Wörter basierte. Dieser Ansatz verbot die Verwendung von Vokabeln im Zusammenhang mit grafischem Material, einschließlich Themen wie Sexualität oder Pornografie und übermäßiger Gewalt. Aufgrund angeblicher Fälle von Zensur auf der Midjourney-Plattform hat dieser Ansatz regelmäßig Kontroversen ausgelöst.
Wie jede existierende Materie auf der Erde hängt auch Midjourney davon ab, wie es verwendet wird. In Anbetracht der oben genannten Szenarien wurden rechtliche Schritte eingeleitet, um die KI daran zu hindern, unter einige dieser umstrittenen Details zu fallen. Mit Updates nach Version 5, beginnend im Mai 2023, wurde Midjourney auf ein KI-gesteuertes System zur Inhaltskontrolle umgestellt. Dieser ausgeklügelte Prozess analysierte Benutzereingaben in ihrer Gesamtheit und ermöglichte eine differenziertere Interpretation. Dadurch wurde es einfacher, Ausdrücke zu verwenden, die zuvor in bestimmten Kontexten verboten waren. Benutzer können die KI nun beispielsweise anweisen, ein Porträt der großen Führer der Welt zu erstellen. Gleichzeitig wird das System die Erstellung umstrittener visueller Elemente stoppen, etwa Bilder von Weltführern – unter „Festnahme“-Umständen oder ähnlichen Aspekten.
Frühere Versionen von Midjourney
Midjourney veröffentlicht häufig neue Modellversionen, um die Effektivität, Konsistenz und Qualität zu verbessern. Das neueste Modell ist das Standardmodell, Sie können jedoch alternative Modelle verwenden, indem Sie den Befehl /settings verwenden und eine andere Modellversion auswählen oder das Argument –version oder –v hinzufügen. Jedes Modell ist in der Lage, eine Vielzahl von Bildern zu erstellen.
Version 1 (V1)
Die ersten 500 Benutzer von Midjourney werden an Bord genommen und dürfen weitere 500 Mitglieder einladen, sodass die Gesamtzahl auf 1000 Benutzer anwächst. Der Erfinder von Midjourney, David Holz, fordert die Leute auf, ihre Fotos in sozialen Medien zu veröffentlichen.
Version 2 (V2)
Mit dem neuen Modell sind Upscaling- und Variation-Buttons verfügbar. Nachdem das Midjourney-Team Feedback von der Community eingeholt hat, verfeinert es seine Preisstrategie (bis zu diesem Zeitpunkt konnten Benutzer kostenlos Inhalte beisteuern) und wechselt zu einer kostenpflichtigen Betaversion. Die Warteliste wird dann immer länger.
Version 3 (V3)
Zusammen mit den Parametern –stylize und –quality wird Midjourney V3 verfügbar gemacht. Midjourney Discord überholt die Discord-Server für Fortnite und Minecraft und erreicht eine Million Benutzer.
Version 4 (V4)
Die Qualität von Midjourney V4 ist beispiellos und übertrifft die Fähigkeiten aller aktuellen Stable Diffusion-Modelle. Midjourneys Wachstum explodiert weiterhin dank Bildern, die in den sozialen Medien beliebt werden.
Version 5 (V5)
Die Qualitäts- und Anpassungsverbesserungen von Midjourney V4 wurden in diese Version übernommen. Im Vergleich zum Modell V5.1 generiert das Modell Midjourney V5.0 mehr fotografische Generationen. Obwohl möglicherweise längere Eingabeaufforderungen erforderlich sind, um genau das gewünschte Erscheinungsbild zu erzielen, erstellt dieser Algorithmus Bilder, die der Eingabeaufforderung nahezu entsprechen.
Version 5.1 (V5.1)
Im Vergleich zu früheren Versionen ist die Standardästhetik dieses Modells stärker, was die Verwendung mit unkomplizierten Textaufforderungen vereinfacht. Darüber hinaus erzeugt es weniger unerwünschte Artefakte und Ränder, hat eine bessere Bildschärfe, ist sehr kohärent, zeichnet sich durch das effektive Lesen natürlicher Sprachhinweise aus und unterstützt erweiterte Funktionen wie sich wiederholende Muster mit –tile.
Version 5.2 (V5.2)
Sie können die Standardästhetik von Midjourney anpassen, indem Sie in den Versionen 5.1 und 5.2 des Modells das Argument –style raw verwenden.
Version 6 (V6)
Midjourney V6 ist jetzt erhältlich, neun Monate nach seiner Entwicklung. Es fördert einfachere Hinweise und bietet eine deutliche Verbesserung der Bildqualität. Das schnelle Verständnis wird deutlich verbessert.
Niji Journey ist ein weiteres Anime-Modell, das Midjourney anbietet. Niji und Niji 5, die einzigen beiden derzeit verfügbaren Versionen, wurden jeweils nach der entsprechenden Midjourney-Version veröffentlicht. Das Niji V5-Modell enthält mehrere Stile, von denen jeder ein anderes Modell ist, das darauf trainiert wurde, ein bestimmtes Aussehen zu erzeugen.
Was ist neu an V6?
Mit einer maximalen Auflösung von 2048 × 2048 Pixeln bietet Midjourney v6 fast doppelt so viel Auflösung wie sein Vorgänger. Es kann mehr als 350 Wörter in Eingabeaufforderungen verwenden und diese präziser einhalten. Sie können beispielsweise Farben und andere Details festlegen. Midjourney ist jetzt auch prompt-sensitiv, was bedeutet, dass die Genauigkeit bei der Bildgenerierung deutlich verbessert wurde.
Midjourney V6 ist ein großer Schritt nach vorne, insbesondere wenn man es als Beta betrachtet. Die Versionshinweise zeigen eine wesentliche Änderung gegenüber V5 in der Art und Weise, wie Eingabeaufforderungen gehandhabt werden. Diese Änderung bedeutet, dass Benutzer ihr Gedächtnis für die Erstellung von Eingabeaufforderungen möglicherweise neu trainieren müssen.
Die neueste Version von Midjourney konzentriert sich auf drei Hauptverbesserungen:
- Verbesserung des Fotorealismus
- Verbesserung des semantischen Verständnisses
- Stärkung der Texterstellungsfähigkeiten
Die Tendenz von V5.2, Porträts mit ungewöhnlich glatter Haut zu erstellen, ohne den texturierten Realismus, der häufig in den Ausgaben von Stable Diffusion zu beobachten ist, war ein häufiger Kritikpunkt. Meine Experimente mit V6 deuten auf eine deutliche Verbesserung des Realismus hin. Wir werden V5.2 und V6 dieselben Eingabeaufforderungen geben, sehen Sie sich die Ergebnisse selbst an:
Wie kann Midjourney V6 implementiert werden?
Benutzer sind nicht automatisch von dem Upgrade betroffen; zumindest nicht in meinem Fall. Sie müssen den Schrägstrichbefehl „/settings“ in den Midjourney-Discord-Server eingeben oder dem Midjourney-Bot eine Direktnachricht (DM) senden und anschließend Midjourney V6 über das Dropdown-Menü oben auswählen. Alternativ können Sie Ihren Anweisungen folgen, indem Sie auf altmodische Weise manuell „–v 6“ eingeben.
Der Erfinder und Leiter des Midjourney-Projekts stellte außerdem klar, dass eine völlig neue Eingabeaufforderungstechnik entwickelt wurde. Benutzer haben in den sozialen Medien schon lange die Tricks geteilt, mit denen sie aus dem KI-Modell qualitativ hochwertige, fotorealistische oder filmreife Ergebnisse erzielt haben. Beispiele für diese Tricks sind die Eingabe von Kameranamen (z. B. Leica M11), Filmmaterial (35 mm) und Auflösung (8k), um Bilder zu generieren, indem bestimmte Textbeschreibungen und Schlüsselwörter in den Discord-Server oder die Alpha-Version der Website eingegeben werden.
In seinem Discord-Beitrag machte er jedoch ziemlich deutlich, dass Benutzer mit diesen Arten von Eingabeaufforderungstechniken nicht mehr die gewünschten Ergebnisse erzielen können. Eine Reihe anderer begeisterter Benutzer, wie der Digitalkünstler und Horrorfilmer Chris Perna, haben begonnen, MJ V6 zu testen und die bemerkenswert detaillierten und farbenfrohen Ergebnisse auf Social-Media-Plattformen wie Instagram zu teilen. Auch die vorläufigen Beispiele zur Textgenerierung sehen wirklich vielversprechend aus.
Raum für Upgrades, was kann man mehr erwarten?
Darüber hinaus erklärte Holz, dass Midjourney V6 Verbesserungen erhalten wird, darunter die Möglichkeit zum Herauszoomen und Schwenken nach links und rechts, zwei Funktionen, die derzeit in V5.2 fehlen.
Die Aktualisierungen zeigen, dass Midjourney seine Führungsposition auch dann beibehält, wenn die Konkurrenz ihre eigenen proprietären Modelle oder das weit verbreitete Open-Source-Modell „Stable Diffusion“ verwendet, das auf einer bekannten zugrunde liegenden KI-Technologie namens „Diffusion“ basiert, bei der Algorithmen darauf trainiert werden, Bilder aus visuellem „Rauschen“ wiederherzustellen. Midjourney entwickelt sein Modell weiter, das allgemein als der beste und kreativste KI-Kunstgenerator gilt, der derzeit verfügbar ist.
Obwohl erste Anzeichen darauf hindeuten, dass sich die Generatoren für KI-Kunst stark auf das „Fair Use“-Prinzip berufen können, sehen sich Midjourney und andere auf Diffusion basierende Generatoren für KI-Kunst mit Sammelklagen wegen Urheberrechtsverletzungen durch Künstler konfrontiert, die behaupten, sie hätten ohne Erlaubnis oder Bezahlung an der Erstellung ihrer öffentlich geposteten Werke gearbeitet.
Ähnlich wie alle anderen wurde der Bildgenerator mit bereits vorhandenen Bildern trainiert. Verzerrungen, die im Trainingsset vorhanden sind, werden sich auf den endgültigen Generator übertragen. Nehmen wir weiter an, dass diese Verzerrungen in verschiedenen Phasen des Prozesses unkontrolliert bleiben und die endgültige öffentliche Veröffentlichung der Plattform erreichen. In einem solchen Fall werden sie in den zahlreichen Bildern erscheinen, die Einzelpersonen hochgeladen haben. Und was wird aus einigen dieser Bilder? Natürlich zurück im Trainingsset superposition.
Bisher scheint Midjourney v6 eine bemerkenswerte Weiterentwicklung gegenüber Midjourney v5.2 darzustellen, das zuvor in zahlreichen Fällen bemerkenswert war. Selbst mit der hinzugefügten Textfunktionalität gibt es noch viel Raum für Entwicklung, aber der beliebte KI-Bildgenerator wird immer besser.
Fazit
Benutzer der beliebten KI-Bilderstellungsplattform entdecken neue Verbesserungen an Midjourney v6, während sie mit dem Testen beginnen. Benutzer erstellen eine Liste der Änderungen, die sie bisher im Subreddit r/singularity von Reddit entdeckt haben, einer Community, die sich stark auf KI-Technologie konzentriert. Zu diesen Änderungen gehören längere Eingabeaufforderungen, die Möglichkeit, Farben und andere Details in einem Bild anzugeben, eine durch natürliche Sprache gesteuerte Komposition, das Hinzufügen von Text, ein verbessertes Verständnis grammatikalischer Nuancen, die Möglichkeit, Bildern durch beschreibenden Text Rahmen und Ränder hinzuzufügen und vieles mehr.
Was die Ergebnisse angeht, ist Midjourney v6, selbst in der Alpha-Version, der neuesten Version v5.2 deutlich überlegen. Tom’s Guide wies darauf hin, dass Midjourney bei der Erstellung realistischerer Fotos von Menschen besser geworden sei. Im Moment ist es nicht wirklich wichtig, ob das gut ist oder nicht; PetaPixels spärliche Tests scheinen diese Behauptung zu stützen.
Die Ergebnisse von Midjourney v6 sind verblüffend. Jedes Bild ist unglaublich detailliert und auch die Beleuchtung ist hervorragend. Obwohl keines der Ergebnisse von v5.2 eine besonders realistisch wirkende Curie- oder wissenschaftliche Laborumgebung zeigt, sind sie alle stark stilisiert. Es ist einfach verblüffend, wie komplex das Szenario im Vergleich zu Version 6 ist. Ein großes Problem ist, dass Midjourney sowohl in v5.2 als auch in Midjourney v6 nicht zu wissen scheint, wie Menschen Lesebrillen verwenden.