Gentian
SRAM-First-Inferenzsubstrat
Long-Context-Transformer-Serving auf Standard-Logik-Tiles. Interne kalibrierte Projektionen zielen auf ein bis zwei Grössenordnungen weniger Energie pro Token in Bereichen, in denen HBM-Kapazität die Serving-Kosten dominiert. Engineering-Review unter NDA.