Schweizer KI im Realitätscheck

Apertus ist da: Was kann das Schweizer LLM wirklich?

Im Juli haben wir gefragt: «Kann das Schweizer LLM mithalten?» – jetzt liegt mit Apertus die erste Generation vor. Zeit für einen sachlichen Realitätscheck: Wo steht die Schweizer KI wirklich, und für wen ist sie heute schon interessant?
Veröffentlicht am 5. September 2025 · von Michael J. Baumann

Fortsetzung (5. September 2025):

Dieser Artikel knüpft an unseren Bericht vom Juli an – diesmal mit belastbaren Benchmarks und Praxiserfahrungen.

Im Juli fragten wir: «Kann das Schweizer LLM mithalten?» – nun liegt mit Apertus die erste Generation vor. Zeit für einen nüchternen Realitätscheck: Wo steht die Schweizer KI – und für wen ist sie heute schon sinnvoll?

Das Wichtigste in Kürze

  • Vollständige Offenheit: Apertus ist nicht nur «open weights», sondern durchgehend transparent – Gewichte, Trainingsdaten und Code sind öffentlich. Auf diesem Niveau ist das selten.
  • Sprachenvielfalt: 15 Billionen Tokens aus über 1'800 Sprachen, davon 40 % nicht englisch – inklusive Schweizerdeutsch und Rätoromanisch. Praxistauglich ist das aber (noch) nicht – siehe Tests unten.
  • Regulatorisch sauber: Datenschutz und EU-Vorgaben wurden von Anfang an mitgedacht statt nachgerüstet.

Was ist neu bei Apertus?

Apertus erscheint in zwei Grössen: 8 Milliarden und 70 Milliarden Parameter. Trainiert wurde auf dem Schweizer Supercomputer «Alps» (CSCS, Lugano) – 10'752 NVIDIA GH200 Grace-Hopper-Chips auf einer HPE-Cray-Plattform.

Die Trainingsphilosophie ist ungewöhnlich: Bereits im Pretraining kamen 15 Billionen Tokens aus mehr als 1'800 Sprachen zum Einsatz, das Post-Training deckt 149 Sprachen ab. Ein spezielles «Goldfish-Objective» soll verhindern, dass das Modell Inhalte wörtlich memoriert – Messungen zeigen praktisch Basisniveau.

Für Unternehmen entscheidend: Die Datenpipelines achten strikt auf Lizenzen und respektieren nachträgliche Opt-outs (robots.txt). Das schafft eine EU-AI-Act-konforme Grundlage.

Die Zahlen: Wo steht Apertus im Vergleich?

ModellMMLU (Wissen)Global-MMLU (Multilingual)GSM8K (Mathe)HumanEval (Code)RULER @32k (Langkontext)
Claude 3.5 Sonnet88.7%96.4%92.0%
Llama 3.1 70B83.6%95.1%80.5%
Apertus-70B69.6%62.7%77.6%73.0%80.6%
Apertus-8B60.9%55.7%62.9%67.0%69.5%

Hinweise zur Vergleichbarkeit: Die Prompt-Setups unterscheiden sich zwischen den Modellen (Shot-Zahlen und Chain-of-Thought-Konfigurationen). Global-MMLU- und RULER-Werte sind für die Vergleichsmodelle in den offiziellen Unterlagen nicht verfügbar.

Die 70B-Variante überzeugt bei Allgemeinwissen und mehrsprachigen Aufgaben, bleibt bei Mathematik und Programmierung jedoch hinter den Spitzenmodellen zurück.

Für wen ist Apertus heute schon sinnvoll?

Geeignet für:

  • Compliance-kritische Umgebungen (öffentliche Hand, Gesundheit, Recht, Finanzen in EU/CH)
  • Hohe Transparenzanforderungen – vollständige Nachvollziehbarkeit der Funktionsweise
  • Zusammenfassungs-, Klassifizierungs- und Kategorisierungsaufgaben

Noch nicht optimal für:

  • Texte in Schweizerdeutsch oder Rumantsch
  • Mathematik-intensive Automatisierung (Code-Refactoring, formale Beweise) – es fehlen RL-Feinschliff und spezialisierte Tool-Ketten
  • Agentische Workflows und Multimodalität – nicht der Fokus dieser ersten Generation

Fazit: Solider Start – noch kein Schweizer Sackmesser der LLMs

Apertus ist ein wichtiges Signal für offene KI-Entwicklung in Europa – aber (noch) kein Durchbruch. Die vielbeschworenen Mehrsprachen-Fähigkeiten überzeugen in der Praxis derzeit nicht.

Auf dem Papier wirkt es respektabel: Apertus-70B übersetzt Deutsch→Rätoromanisch mit einem BLEU-Score von 27.8 – klar vor Llama-3.3-70B mit 21.6. In der Anwendung entsteht daraus jedoch häufig unlesbarer Text. Hier liefert ChatGPT aktuell deutlich bessere Resultate.

Schweizerdeutsch zeigte sich in ersten Tests ebenfalls schwach: Die Ausgaben klingen weder nach dem geforderten Dialekt (Berndeutsch) noch allgemein nach Schweizerdeutsch – praktisch unbrauchbar.

Trotzdem: Die Entwicklung ist spannend. Für spezifische, klar umgrenzte Einsätze kann Apertus bereits heute passen – dafür braucht es jedoch weitere, gezielte Tests. Die nächsten Versionen werden entscheidend sein: für die Schweizer KI-Ambitionen ebenso wie für die Frage, ob kleine Sprachen in der KI-Welt eine Chance haben.

Grundsätzlich bleibt offen, welchen Stellenwert radikale Offenheit im Business-Alltag haben wird. Ernüchternd könnte sein: Wenn ein ethisch kuratiertes Datenset am Ende ein schwächeres LLM bedeutet, wird es für das Schweizer LLM schwierig.

Verfügbarkeit und Zugang

Apertus ist ab sofort verfügbar über:

  • Swisscom (Sovereign AI)
  • Hugging Face (Open Source)
  • Public AI (API-Zugang)

ETH und EPFL stellen komplette Dokumentation und Code bereit.

effektiv Dot