Skip to content

Gentian — Verteilte KI-Inferenz

Gentian-Tile: SRAM-dominierte Oberfläche mit Logik-Streifen an einer Kante, symmetrische goldene Bond-Pads an allen vier Seiten, Mesh-Verbindungsspuren an den Rändern.

Gentian ist eine mesh-fähige kundenspezifische Silizium-Architektur für Transformer-Inferenz.

Der Memory-Wall-Kontext

Transformer-Inferenz ist im Decode speichergebunden. Ein Modell mit 70 Milliarden Parametern und langem Kontext bewegt Hunderte von Gigabytes über externen Speicher für jeden erzeugten Token. Auf GPU-Klasse-Hardware wird der Grossteil der Energie für das Bewegen von Zuständen aufgewendet, nicht für deren Berechnung. High-Bandwidth Memory (HBM) und fortgeschrittenes Packaging (2.5D-Interposer, CoWoS) mildern die Bandbreitenkosten; sie heben die zugrunde liegende Tatsache nicht auf, dass Compute und Speicher getrennte Siliziumkomponenten sind, verbunden durch einen Link, der pro Byte eine Grössenordnung mehr kostet als ein On-Die-Zugriff.

Eine verteilte Inferenz-Architektur, die Parameter und Aktivierungen dort hält, wo die Berechnung stattfindet — anstatt sie über eine Speichergrenze zu schicken — tauscht ein externes Bandbreitenproblem gegen ein internes Koordinationsproblem.

Die Architektur

Gentian ist ein Tile-Mesh, in dem jeder Tile seinen Anteil des Modellzustands im On-Die-SRAM hält und Tiles über ein reguläres Mesh über Die-Grenzen hinweg auf einer Standard-Leiterplatte komponieren. Das Design verpflichtet sich auf vier Engineering-Invarianten:

  • Reguläre Mesh-Topologie. Nur Nachbar-Links; keine Crossbar, kein globaler Bus.
  • Master-freie Peer-to-Peer-Koordination. Kein zentraler Scheduler oder Arbitrator.
  • Stationäre Daten. Gewichte und Aktivierungen bleiben auf ihrem Tile; nur kleine Traversal-Objekte bewegen sich.
  • Clock-Velocity-Interconnect. Inter-Die-Hops auf CPU-Takt, nicht über paketierte SerDes-Protokolle.

Zusammen bringen die vier Commitments die Wall-Clock-Laufzeit auf die kausale untere Schranke paralleler Berechnung und machen die Architektur node-agnostisch und portierbar über gängige advanced-node Prozesse.

Projektstand

Meilenstein Status
Ende-zu-Ende-Ausführung Ein echter trainierter Transformer läuft auf dem Mesh
RTL gegen C++-Referenz validiert
Physical Design Place-and-Route-Signoff erreicht
Architektur-Paper Preprint in Vorbereitung
Simulationsarchiv Partnern unter NDA zugänglich
Tape-out auf kommerziellem Node Foundry-Partner-Auswahl läuft

Zusammenarbeit

Technisches Briefing, Architektur-Manuskript, PnR-Reports und Simulationsarchiv werden unter gegenseitigem NDA bereitgestellt. Ein Partnergespräch geht direkt in die Engineering-Review-Phase über. Breiterer Forschungskontext unter cybiont-Forschung.

Technisches Briefing anfragen →