CM3leon: Fortschrittliches KI-Modell für Text und Bilder
CM3leon ist ein innovatives generatives KI-Modell, das sowohl Text-zu-Bild- als auch Bild-zu-Text-Generierung ermöglicht. Es kombiniert die Funktionen autoregressiver Modelle mit niedrigen Trainingskosten und hoher Effizienz bei der Inferenz. Mit einem bemerkenswerten Fréchet Inception Distance (FID) von 4,88 übertrifft CM3leon frühere text-zu-Bild-Modelle und bietet herausragende Leistungen in komplexen Objektgenerierungen und textgesteuerten Bildbearbeitungsaufgaben.
Das Modell wurde mit einer angepassten Methode trainiert, die Retrieval-unterstütztes Pre-Training und Multitask-supervised Fine-Tuning umfasst. CM3leon zeigt signifikante Verbesserungen in Aufgaben wie der Generierung von Bildunterschriften und der visuellen Beantwortung von Fragen. Trotz eines relativ kleinen Datensatzes bietet es eine beeindruckende Null-Schuss-Leistung und demonstriert die Vorteile von Retrieval-Augmentation und Skalierungsstrategien in autoregressiven Modellen.