Von Bare Metal zu Bare Glass: das Endziel der KI-Hardware

4. Juni 2026 • Techthos Team

photonik optisches-rechnen ki hardware infrastruktur

Von Bare Metal zu Bare Glass: das Endziel der KI-Hardware

Stellen Sie sich einen Glaswürfel vor, klein genug für eine Hand. In sein Inneres, dreidimensional auf Nanometerskala, sind Abermilliarden optischer Knoten geformt — einer für jede Verbindung eines großen Sprachmodells. Licht mit Ihrer Frage tritt auf einer Seite ein und beginnt zu wandern. An jedem Knoten wird es gebeugt, geteilt, gedämpft oder verstärkt, von Knotenpunkt zu Knotenpunkt durch die Tiefe des Glases — genau so, wie ein Signal ein neuronales Netz durchläuft. Der Strahl, der die andere Seite verlässt, ist von jedem berührten Knoten geformt worden: Er trägt die Antwort. Keine GPU, kein Rack, keine Kühlung, kein Strom außer dem Lichtstrahl. Das Modell läuft nicht auf Hardware. Das Modell ist die Hardware — und die Inferenz ist der Weg des Lichts hindurch.

Das ist ein Gedankenexperiment, keine Produktankündigung. Nichts dergleichen existiert, und Teile davon werden vielleicht nie existieren. Aber es ist aus Bausteinen zusammengesetzt, die überraschend real sind — und es bis zum Endpunkt weiterzudenken sagt etwas Unbequemes über die Hunderte von Milliarden, die derzeit in KI-Rechenzentren fließen.

Die Bausteine, die es bereits gibt

Der Würfel ist nicht aus Science-Fiction gebaut. Er besteht aus drei Forschungslinien, die heute — jede für sich — funktionieren.

Passive optische Inferenz. 2018 demonstrierten Forscher an der UCLA ein diffraktives tiefes neuronales Netz: einen Stapel gedruckter, vollständig passiver Schichten, der Bilder klassifiziert, während Licht physisch hindurchläuft. Kein Prozessor, keine Energie außer der Beleuchtung selbst. Die Berechnung geschieht mit Lichtgeschwindigkeit durch Materie, weil die Berechnung die Materie ist. Spätere Arbeiten haben die Idee auf natürliches, inkohärentes Licht erweitert. Für kleine, fixe, vorwärtsgerichtete Netze existiert der Würfel bereits.

Schreiben in Glas mit Femtosekundenlasern. Microsofts Project Silica schreibt Daten mit Femtosekunden-Laserpulsen als nanoskalige Voxel in gewöhnliches Glas — Berichten zufolge mehrere Terabyte pro Platte, mit einer geschätzten Lebensdauer von rund zehntausend Jahren. Die Parameter eines Spitzenmodells hätten Platz. Heute ist das Speicher, nicht Rechnen, und das Schreiben ist langsam: Eine Platte zu füllen dauert Tage. Aber das Werkzeug, das der Würfel braucht — optische Struktur tief in einem massiven Glasblock zu formen, Voxel für Voxel — ist genau dieses Werkzeug.

Optische Matrixmultiplikation als Industrie. Unternehmen wie Lightmatter liefern Silizium-Photonik-Hardware aus, die die lineare Algebra im Kern neuronaler Netze mit Licht ausführt, und haben photonische Prozessoren demonstriert, die reale Netze wie ResNet und BERT rechnen. Das ist keine Laborkuriosität mehr, sondern ein finanzierter kommerzieller Sektor, der die Energiekosten von KI-Berechnung direkt angreift.

Passive optische Inferenz existiert. Dichtes, dauerhaftes, lasergeschriebenes Glas existiert. Optische Matrixmultiplikation ist ein Geschäft. Der Würfel ist die Verlängerung dieser drei Linien bis zu ihrem Schnittpunkt.

Woran der Würfel zerbricht

Ehrlichkeit verlangt, die Stellen zu benennen, an denen die Verlängerung reißt — denn sie sind nicht klein.

Sprachmodelle sind nicht vorwärtsgerichtet. Generierung ist eine Schleife: Ein Token kommt heraus, fließt zurück hinein, tausende Male, mit wachsendem Gesprächsgedächtnis. Ein passiver Glasblock liefert genau einen Vorwärtsdurchlauf. Licht rezirkulieren, optischen Zustand halten, das nächste Token auswählen — all das ist ungelöst, und jede Rückwandlung in Elektronik gibt die Arbeit wieder an einen Chip ab.
Attention wird aus der Eingabe berechnet. Passive Optik glänzt bei fixen Transformationen — eingefrorene Gewichte sind genau das, was sich in Glas schreiben lässt. Der Attention-Mechanismus multipliziert jedoch Aktivierungen mit Aktivierungen; die Matrix ändert sich mit jedem Prompt. Das verlangt aktive, steuerbare Optik — und das ist kein passiver Würfel mehr.
Licht wechselwirkt ungern mit Licht. Jede nichtlineare Aktivierung zwischen den Schichten braucht entweder exotische Materialien oder einen optisch-elektronisch-optischen Umweg. Das ist seit Jahrzehnten der Engpass optischer neuronaler Netze.
Präzision. Analoge Optik liefert realistisch nur wenige effektive Bits. Die Quantisierungsforschung legt nahe, dass Sprachmodelle das erstaunlich gut vertragen — aber optische Phasengenauigkeit über Milliarden Voxel in einem zentimetergroßen Volumen zu halten, liegt weit jenseits heutiger Fertigung.

Eine Korrektur am Traum noch: Die Lichtgeschwindigkeit ist das falsche Verkaufsargument. Die Latenz einer GPU wird vom Datenverkehr in den Speicher dominiert, nicht von der Signalgeschwindigkeit. Was Optik wirklich bietet, ist anders und besser — Energie pro Operation nahe null bei passiven Strukturen, und massive Parallelität, weil viele Berechnungen sich dasselbe Glas auf verschiedenen Wellenlängen gleichzeitig teilen können.

Der plausible Weg

Der Würfel entsteht nicht, indem man einen Transformer in Glas portiert. Er entsteht — falls überhaupt — in Stufen.

Die erste Stufe wird bereits ausgeliefert: hybride Systeme, in denen die Photonik die lineare Algebra übernimmt und die Elektronik Steuerung, Speicher und Nichtlinearität behält. Die zweite Stufe ist passive optische Inferenz für kleine, fixe Modelle — Vorverarbeitung, Klassifikation, Routing —, bei der eine einmal geschriebene optische Struktur einen dauerlaufenden Beschleuniger ersetzt. Die dritte Stufe ist die interessante: Modellarchitekturen, die für das Medium entworfen sind. Attention-freie, vorwärtslastige Netze, gemeinsam mit der Optik entwickelt, die sie verkörpern wird — so wie heutige Modelle gemeinsam mit der GPU entstanden sind. Jede Stufe ist spekulativer als die vorige, und für die letzte würden wir in Jahrzehnten rechnen, nicht in Jahren — falls sie je kommt.

Das Modell wird zum Artefakt

Nehmen wir nun an, irgendeine Version davon funktioniert, auch nur teilweise. Dann geschieht etwas Tieferes als ein Leistungssprung: Das Modell verwandelt sich von einem Dienst zurück in einen Gegenstand.

Ein in Glas geschriebenes Modell ist ein gedrucktes Buch, während das heutige gehostete Modell eine Druckerpresse ist, die man nur mieten darf. Ein Artefakt kann man einmal kaufen, vollständig besitzen, wie eine Schallplatte verschicken, in eine Schublade legen. Es verbraucht im Ruhezustand keinen Strom, sendet keine Telemetrie, braucht keinen API-Schlüssel und kann von niemandem neu bepreist, abgekündigt oder abgeschaltet werden. Für ein Unternehmen hört Intelligenz auf, ein per Zähler abgerechnetes Versorgungsgut mit fremden Nutzungsbedingungen zu sein, und wird zu Anlagevermögen — näher an einer Maschine in der Werkhalle als an einem Abonnement.

Genau dieser eine Wechsel — von gemessen zu besessen — macht den Würfel zu mehr als einer physikalischen Kuriosität. Er schreibt um, wer in der KI-Ökonomie die Macht hält.

Wie die Blase platzt

Womit wir beim unbequemen Teil wären. Analystenprognosen beziffern die gemeinsamen Investitionen der Hyperscaler für 2026 auf über 600 Milliarden Dollar, davon rund drei Viertel für KI-Infrastruktur, zunehmend über Schulden finanziert, ausgegeben für Beschleuniger, die in wenigen Jahren abgeschrieben sind. Jeder Dollar dieses Ausbaus ist auf eine Annahme gepreist: dass Inferenz knapp, zentralisiert und gemessen bleibt — dass Intelligenz weiter durch fremde Rechenzentren fließt, abgerechnet pro Token.

Die Geschichte der Informatik ist zu dieser Annahme nicht freundlich. Das Timesharing der Großrechner war eine großartige Mietmaschine, bis der Mikrocomputer Rechenleistung in einen Gegenstand auf dem Schreibtisch verwandelte. Netzstrom wirkte unangreifbar, bis Paneele auf Dächern erschienen. In beiden Fällen platzte die etablierte Ökonomie nicht, weil die Technologie scheiterte — sie platzte, weil die Technologie so gut wurde, dass sie den Etablierten nicht mehr brauchte.

Der Glaswürfel ist der Extrempunkt dieses Musters, aber das Muster beißt lange, bevor irgendein Würfel existiert. Photonische Beschleuniger, die die Inferenzenergie um eine Größenordnung senken, tragen den Burggraben bereits ab. Kleine Modelle auf eigener Hardware tragen ihn weiter ab. Jeder Schritt, der Inferenz von gemieteter Knappheit zu besessener Fülle bewegt, entwertet dasselbe Asset: die Annahme, die in 600 Milliarden Dollar Jahresausgaben eingebacken ist. Wenn die KI-Blase platzt, ist der Auslöser vielleicht keine Enttäuschung über KI. Es könnte ein Chip sein — oder ein Stück Glas —, das KI zu billig liefert, als dass das Mietmodell überlebt.

Das Endziel ist das Verschwinden der Hardware

Die eine Erkenntnis: Das Endziel der KI-Hardware ist, dass die Hardware aufhört, ein Dienst zu sein, und sich in Materie auflöst — und die heutige KI-Ökonomie ist auf die Wette gepreist, dass das nie passiert. Der Würfel, wie beschrieben, wird wahrscheinlich nie einen Spitzentransformer rechnen; der reinen Version steht echte Physik im Weg. Aber die Richtung, in die er zeigt — Inferenz, die aus gemessenen Rechenzentren in eigene Artefakte mit Grenzkosten nahe null wandert —, wird von jeder Forschungslinie gestützt, die sich heute überprüfen lässt.

Für ein Unternehmen ist die praktische Folgerung leiser als die Vision: Verankern Sie keine langfristige Strategie in der Annahme, dass Intelligenz teuer und gemietet bleibt. Bauen Sie Ihre Prozesse so, dass das Modell dahinter austauschbar ist — denn es wird ausgetauscht werden, möglicherweise durch etwas, das Ihnen gehört. Wenn Sie durchdenken möchten, was das für Ihre eigenen Systeme bedeutet, sprechen Sie mit uns.