Apertus ist da: Was kann das Schweizer LLM wirklich?
Fortsetzung (5. September 2025):
Dieser Artikel knüpft an unseren Bericht vom Juli an – diesmal mit belastbaren Benchmarks und Praxiserfahrungen.
Im Juli fragten wir: «Kann das Schweizer LLM mithalten?» – nun liegt mit Apertus die erste Generation vor. Zeit für einen nüchternen Realitätscheck: Wo steht die Schweizer KI – und für wen ist sie heute schon sinnvoll?
Das Wichtigste in Kürze
- Vollständige Offenheit: Apertus ist nicht nur «open weights», sondern durchgehend transparent – Gewichte, Trainingsdaten und Code sind öffentlich. Auf diesem Niveau ist das selten.
- Sprachenvielfalt: 15 Billionen Tokens aus über 1'800 Sprachen, davon 40 % nicht englisch – inklusive Schweizerdeutsch und Rätoromanisch. Praxistauglich ist das aber (noch) nicht – siehe Tests unten.
- Regulatorisch sauber: Datenschutz und EU-Vorgaben wurden von Anfang an mitgedacht statt nachgerüstet.
Was ist neu bei Apertus?
Apertus erscheint in zwei Grössen: 8 Milliarden und 70 Milliarden Parameter. Trainiert wurde auf dem Schweizer Supercomputer «Alps» (CSCS, Lugano) – 10'752 NVIDIA GH200 Grace-Hopper-Chips auf einer HPE-Cray-Plattform.
Die Trainingsphilosophie ist ungewöhnlich: Bereits im Pretraining kamen 15 Billionen Tokens aus mehr als 1'800 Sprachen zum Einsatz, das Post-Training deckt 149 Sprachen ab. Ein spezielles «Goldfish-Objective» soll verhindern, dass das Modell Inhalte wörtlich memoriert – Messungen zeigen praktisch Basisniveau.
Für Unternehmen entscheidend: Die Datenpipelines achten strikt auf Lizenzen und respektieren nachträgliche Opt-outs (robots.txt). Das schafft eine EU-AI-Act-konforme Grundlage.
Die Zahlen: Wo steht Apertus im Vergleich?
Modell | MMLU (Wissen) | Global-MMLU (Multilingual) | GSM8K (Mathe) | HumanEval (Code) | RULER @32k (Langkontext) |
---|---|---|---|---|---|
Claude 3.5 Sonnet | 88.7% | — | 96.4% | 92.0% | — |
Llama 3.1 70B | 83.6% | — | 95.1% | 80.5% | — |
Apertus-70B | 69.6% | 62.7% | 77.6% | 73.0% | 80.6% |
Apertus-8B | 60.9% | 55.7% | 62.9% | 67.0% | 69.5% |
Hinweise zur Vergleichbarkeit: Die Prompt-Setups unterscheiden sich zwischen den Modellen (Shot-Zahlen und Chain-of-Thought-Konfigurationen). Global-MMLU- und RULER-Werte sind für die Vergleichsmodelle in den offiziellen Unterlagen nicht verfügbar.
Die 70B-Variante überzeugt bei Allgemeinwissen und mehrsprachigen Aufgaben, bleibt bei Mathematik und Programmierung jedoch hinter den Spitzenmodellen zurück.
Für wen ist Apertus heute schon sinnvoll?
Geeignet für:
- Compliance-kritische Umgebungen (öffentliche Hand, Gesundheit, Recht, Finanzen in EU/CH)
- Hohe Transparenzanforderungen – vollständige Nachvollziehbarkeit der Funktionsweise
- Zusammenfassungs-, Klassifizierungs- und Kategorisierungsaufgaben
Noch nicht optimal für:
- Texte in Schweizerdeutsch oder Rumantsch
- Mathematik-intensive Automatisierung (Code-Refactoring, formale Beweise) – es fehlen RL-Feinschliff und spezialisierte Tool-Ketten
- Agentische Workflows und Multimodalität – nicht der Fokus dieser ersten Generation
Fazit: Solider Start – noch kein Schweizer Sackmesser der LLMs
Apertus ist ein wichtiges Signal für offene KI-Entwicklung in Europa – aber (noch) kein Durchbruch. Die vielbeschworenen Mehrsprachen-Fähigkeiten überzeugen in der Praxis derzeit nicht.
Auf dem Papier wirkt es respektabel: Apertus-70B übersetzt Deutsch→Rätoromanisch mit einem BLEU-Score von 27.8 – klar vor Llama-3.3-70B mit 21.6. In der Anwendung entsteht daraus jedoch häufig unlesbarer Text. Hier liefert ChatGPT aktuell deutlich bessere Resultate.
Schweizerdeutsch zeigte sich in ersten Tests ebenfalls schwach: Die Ausgaben klingen weder nach dem geforderten Dialekt (Berndeutsch) noch allgemein nach Schweizerdeutsch – praktisch unbrauchbar.
Trotzdem: Die Entwicklung ist spannend. Für spezifische, klar umgrenzte Einsätze kann Apertus bereits heute passen – dafür braucht es jedoch weitere, gezielte Tests. Die nächsten Versionen werden entscheidend sein: für die Schweizer KI-Ambitionen ebenso wie für die Frage, ob kleine Sprachen in der KI-Welt eine Chance haben.
Grundsätzlich bleibt offen, welchen Stellenwert radikale Offenheit im Business-Alltag haben wird. Ernüchternd könnte sein: Wenn ein ethisch kuratiertes Datenset am Ende ein schwächeres LLM bedeutet, wird es für das Schweizer LLM schwierig.
Verfügbarkeit und Zugang
Apertus ist ab sofort verfügbar über:
- Swisscom (Sovereign AI)
- Hugging Face (Open Source)
- Public AI (API-Zugang)
ETH und EPFL stellen komplette Dokumentation und Code bereit.