Mistral AI, ein aufstrebender Marktführer in der KI-Branche, hat gerade die Veröffentlichung von Mixtral 8x7B angekündigt , einer hochmodernen spärlichen Mischung aus Expertenmodellen (SMoE) mit offenen Gewichten. Dieses neue Modell stellt einen bedeutenden Fortschritt dar, übertrifft Llama 2 70B in den meisten Benchmarks und bietet gleichzeitig eine 6x schnellere Inferenzrate. Mixtral 8x7B ist unter dem offenen und freizügigen Apache 2.0 lizenziert und gilt als das robusteste Modell mit offenen Gewichten auf dem Markt. Es setzt neue Maßstäbe in puncto Kosten-Leistungs-Effizienz und konkurriert mit GPT-3.5 und übertrifft es in Mainstream-Benchmarks manchmal sogar.
Mixtral 8x7B erreichte einen wichtigen Meilenstein, als sie in ihrer Finanzierungsrunde der Serie A 400 Millionen Euro einspielten. Diese Investition steigert die Bewertung des Unternehmens auf beeindruckende 2 Milliarden Dollar und signalisiert einen soliden Einstieg in die wettbewerbsintensive KI-Landschaft. An der Finanzierungsrunde, die vom renommierten Andreessen Horowitz geleitet wurde, beteiligten sich auch Lightspeed Venture Partners und viele andere namhafte Investoren, darunter Salesforce und BNP Paribas.
Das von Absolventen von Googles DeepMind und Meta mitgegründete Unternehmen konzentriert sich auf grundlegende KI-Modelle mit einem klaren Ansatz und legt Wert auf offene Technologie. Mit dieser Strategie positioniert sich Mistral AI als potenzielles europäisches Gegenstück zu etablierten Akteuren wie OpenAI.
Die drei Mistrals
Mistral-tiny und mistral-small verwenden derzeit ihre beiden veröffentlichten offenen Modelle; das dritte, mistral-medium, verwendet ein Prototypmodell mit höherer Leistung, das wir in einer bereitgestellten Umgebung testen.
Mistral-Modelle
Mistral-Tiny und Mistral-Small verwenden derzeit ihre beiden veröffentlichten offenen Modelle; das dritte, Mistral-Medium, verwendet ein Prototypmodell mit höherer Leistung, das in einer Einsatzumgebung getestet wird. Mistral Large ist ihr bestes Modell und das zweitbeste Modell der Welt.
Mistral-tiny: Mistrals kostengünstigster Endpunkt. Derzeit wird Mistral 7B Instruct v0.2 bereitgestellt, eine neue Nebenversion von Mistral 7B Instruct. Mistral-tiny funktioniert nur auf Englisch. Es erreicht 7.6 auf dem MT-Bench. Das instruierte Modell kann hier heruntergeladen werden .
Mistral-small: Unterstützt Mixtral 8x7B, beherrscht Englisch/Französisch/Italienisch/Deutsch/Spanisch und Code und erreicht 8.3 auf dem MT-Bench. Es ist die ideale Wahl für einfache Aufgaben, die man in großen Mengen erledigen kann – wie Klassifizierung, Kundensupport oder Textgenerierung. Ende Februar wurde die API von Mistral small auf ein Modell aktualisiert, das deutlich besser (und schneller) ist als Mixtral 8x7B.
Mistral-medium: Eine noch bessere Version von Mixtral 8x7B, die Alpha-Benutzern ihrer API zur Verfügung gestellt wird. Mit einem Ergebnis von 8,6 auf MT-Bench liegt es sehr nah an GPT-4 und schlägt alle anderen getesteten Modelle. Es beherrscht Englisch/Französisch/Italienisch/Deutsch/Spanisch, ist gut im Codieren und erreichte 8,6 auf der MT-Sparte. Es ist ideal für mittelschwere Aufgaben, die mäßiges Denkvermögen erfordern – wie Datenextraktion, das Zusammenfassen eines Dokuments, das Schreiben einer Stellen- oder Produktbeschreibung.
Mistral Large: Ihre neueste Version ist Mistral Medium weit überlegen und ist das zweitbeste Modell der Welt mit einer API. Es verarbeitet 32.000 Kontexttoken und spricht fließend Englisch, Französisch, Spanisch, Deutsch und Italienisch. Mistral Large erreichte 81,2 % bei MMLU (Messung des massiven Multitasking-Sprachverständnisses) und schlug damit Claude 2, Gemini Pro und Llama-2-70B. Large ist besonders gut in Bezug auf gesunden Menschenverstand und Argumentation und erreicht eine Genauigkeit von 94,2 % bei der Arc Challenge (5 Schüsse).
Derzeit hat Mistral nur Erkenntnisse zu seinen Modellen 7B und 8x7B veröffentlicht.
die Katze
Le Chat ist der benutzerfreundliche Chatbot von Mistral AI. Er ist derzeit kostenlos, kann Kontext bis zu 32.000 Token speichern und verfügt über ein Ereignisgedächtnis bis 2021.
Wir werden uns in Kürze eingehender mit dem Modell Mixtral 8x7B befassen, aber zunächst wollen wir uns Mistral 7B ansehen.
Mistral 7B
Das erste Modell von Mistral AI, Mistral 7B , konkurrierte nicht direkt mit größeren Modellen wie GPT-4. Stattdessen wird es anhand eines kleineren Datensatzes (7 Milliarden Parameter) trainiert und bietet damit eine einzigartige Alternative in der KI-Modelllandschaft. Um die Zugänglichkeit zu betonen, hat Mistral AI dieses Modell zum kostenlosen Download bereitgestellt, damit Entwickler es auf ihren eigenen Systemen verwenden können. Mistral 7B ist ein kleines Sprachmodell, das erheblich weniger kostet als Modelle wie GPT-4. Obwohl GPT-4 viel mehr kann als solche kleinen Modelle, ist es teurer und komplexer in der Ausführung.
Mixtral 8x7B
Hier sind die wichtigsten Dinge, die Sie über Mixtral wissen sollten:
- Es verarbeitet 32.000-Token-Kontexte.
- Es ist auf Englisch, Französisch, Italienisch, Deutsch und Spanisch verfügbar.
- Es ist gut zum Codieren.
- Bei entsprechender Feinabstimmung kann es zu einem befehlsbefolgenden Modell werden und erreicht im MT-Bench eine Punktzahl von 8,3.
Das Modell ist mit vorhandenen Optimierungstools wie Flash Attention 2, Bitsandbytes und PEFT-Bibliotheken kompatibel . Die Checkpoints werden unter der Organisation Mistralai auf dem Hugging Face Hub veröffentlicht.
So funktioniert Mixtral 8x7B
Mixtral verwendet eine spärliche Mischung aus Expertenarchitektur ( MoEs ).
Das folgende Bild zeigt ein Setup, bei dem jedes Token von einem bestimmten Experten verarbeitet wird, wobei insgesamt vier Experten beteiligt sind. Im Fall von Mixtral-8x-7B ist das Modell komplexer, umfasst 8 Experten und verwendet 2 dieser Experten für jedes Token. Für jede Schicht und jedes Token wählt ein spezialisiertes Router-Netzwerk 2 der 8 Experten aus, um das Token zu verarbeiten. Ihre Ausgaben werden dann additiv zusammengeführt.
Warum also MoEs verwenden? Im Mixtral-Modell führt die Kombination aller 8 Experten, die jeweils für ein 7B-Modell ausgelegt sind, theoretisch zu einer Gesamtparameteranzahl von fast 56B. In der Praxis ist diese Zahl jedoch etwas geringer. Dies liegt daran, dass die MoE-Methode selektiv auf die MoE-Schichten angewendet wird, nicht auf Gewichtsmatrizen für die Selbstaufmerksamkeit. Daher liegen die tatsächlichen Gesamtparameter wahrscheinlich im Bereich von 40-50B.
Der entscheidende Vorteil liegt hier in der Funktionsweise des Routers. Er leitet die Token so, dass zu jedem Zeitpunkt während des Vorwärtsdurchlaufs nur 7B Parameter verwendet werden, nicht alle 56B. Jeder Token wird auf jeder Ebene nur von zwei von 8 Experten verarbeitet. Die
Experten auf verschiedenen Ebenen können jedoch unterschiedliche sein, was komplexere Verarbeitungspfade ermöglicht. Diese selektive Verwendung von Parametern macht sowohl das Training als auch, was noch wichtiger ist, die Inferenzprozesse deutlich schneller als bei herkömmlichen Nicht-MoE-Modellen. Diese Effizienz ist ein Hauptgrund für die Entscheidung für einen MoE-basierten Ansatz in Modellen wie Mixtral.
Mixtral 8x7B / Mistral 7B gegen LLaMa
Tabelle 1 vergleicht Mistral 7B und Mixtral 8x7B mit Llama 2 7B/13B/70B und Llama 1 34B in verschiedenen Kategorien. Mixtral lässt Llama 2 bei den meisten Metriken hinter sich, insbesondere bei Code und Mathematik. In Bezug auf die Größe verwendet Mixtral nur 13B aktive Parameter für jedes Token, was fünfmal weniger ist als Llama 2 70B und ist damit viel effizienter.
Es ist wichtig zu erwähnen, dass sich dieser Vergleich auf die Anzahl der aktiven Parameter konzentriert, die mit Rechenkosten und nicht mit Speicher- und Hardwarekosten zu tun hat. Die Speicherkosten von Mixtral sind proportional zur Anzahl der spärlichen Parameter, 48 B, was immer noch kleiner ist als die 70 B von Llama 2. In Bezug auf die Geräteauslastung führen SMoEs mehr als einen Experten pro Gerät aus, was zu einer erhöhten Speicherlast führt und besser für Batch-Workloads geeignet ist.
Tabelle 1 : Mixtral 8x7B vs. Llama-Modelle
Hier ist eine ausführlichere Vergleichstabelle verschiedener Benchmarks, die die Leistung der Mistral-Modelle im Vergleich zu den LLaMa-Modellen zeigt.
Mixtral 8x7B vs. LLaMa 2 70B vs. GPT 3.5
Mixtral erreicht bei den meisten Benchmarks die gleiche Leistung wie Llama 2 70B und GPT-3.5 oder übertrifft diese sogar.
Tabelle 2 : Mixtral 8x7B vs. LLaMa 2 70B vs. GPT 3.5
Derzeit verwenden sie Mixtral 8x7B hinter mistral-small , das in der Betaversion verfügbar ist . In einem strategischen Schritt zur Monetarisierung seiner technologischen Fortschritte hat Mistral AI seine Entwicklerplattform geöffnet. Diese Plattform ermöglicht es anderen Unternehmen, die Modelle von Mistral AI über APIs in ihre Betriebsabläufe zu integrieren, was einen bedeutenden Schritt zur Kommerzialisierung ihrer KI-Innovationen darstellt.
Mehrsprachige Benchmarks
Die Ergebnisse in Tabelle 3 zeigen die Leistung der Modelle Mixtral und LlaMa bei mehrsprachigen Benchmarks. Das Modell Mixtral wurde im Vergleich zu Mistral 7B mit einem nicht abgetasteten Anteil mehrsprachiger Daten trainiert, was Mixtral zusätzliche Kapazitäten gab, um bei diesen Benchmarks gute Leistungen zu erbringen und gleichzeitig eine hohe Genauigkeit in Englisch aufrechtzuerhalten. Mixtral übertrifft LlaMa 2 70B in Französisch, Deutsch, Spanisch und Italienisch
Tabelle 3 : Mixtral 8x7b vs. LLaMa 1 33B vs. LLaMa 2 70B bei mehrsprachigen Benchmarks
Experten-Routing-Analyse
Die Forscher von Mistral AI analysierten das Verhalten von Experten bei der Auswahl von Token, um Verbindungen zwischen Experten und den Domänen ihrer ausgewählten Token zu erkennen. Wie im Bild unten zu sehen ist, deutet die Analyse auf keine signifikante Beziehung zwischen ihnen hin. Das Bild stellt die Experten dar, die vom Router entweder als erste oder zweite Wahl ausgewählt werden.
Anteil der Token, die jedem Experten in verschiedenen Domänen aus dem Pile-Datensatz für die Ebenen 0, 15 und 31 zugewiesen wurden: Quelle
Wenn wir die Expertenzuordnungen von ArXiv-, Biologie- (PubMed Abstracts) und Philosophie-Artikeln (PhilPapers) betrachten, stellen wir fest, dass sie zwar völlig unterschiedliche Themen behandeln, aber sehr ähnliche Expertenzuordnungen aufweisen. DM-Mathematik ist das einzige Thema, das sich erheblich von den anderen unterscheidet, möglicherweise aufgrund seiner synthetischen Natur und der begrenzten Darstellung natürlicher Sprache. Dies deutet darauf hin, dass der Router dennoch ein gewisses strukturiertes syntaktisches Verhalten aufweist Retrieval augmented.
Einpacken
Zusammenfassend lässt sich sagen, dass die Einführung des innovativen Modells Mixtral 8x7B durch Mistral AI und der erfolgreiche Abschluss einer Finanzierungsrunde in Höhe von 400 Millionen Euro einen bedeutenden Wendepunkt in der KI-Branche markieren. Dieser europäische KI-Pionier definiert mit seiner fortschrittlichen Technologie nicht nur Effizienz- und Leistungsstandards neu, sondern festigt auch seine Position als wichtiger Akteur in der globalen KI-Landschaft. Mit erheblicher finanzieller Unterstützung und einem Fokus auf offene und zugängliche KI-Lösungen ist Mistral AI gut aufgestellt, um zukünftige Entwicklungen und Anwendungen in diesem sich schnell entwickelnden Bereich anzuführen.