heise Developer

KubeCon EU 2026: Kubernetes wird weiter als Infrastruktur für KI optimiert

Nvidia steuert DRA-Treiber und Tooling für reproduzierbare GPU-Cluster bei. Die CNCF begrüßt llm-d als neues Projekt, das verteilte Inferenz optimiert.

software-architektur.tv: Wie unabhängig ist dein Service wirklich?

Wie die Independent Service Heuristics dabei helfen, Domänengrenzen greifbarer zu machen, um bessere Services zu schneiden, ist Thema dieser neuen Folge.

Google komprimiert LLM-Cache auf 3 Bit ohne Genauigkeitsverlust

Googles TurboQuant drückt den KV-Cache großer Sprachmodelle auf 3 Bit. Die Genauigkeit soll bleiben, die Geschwindigkeit sich vervielfachen.

KubeCon EU 2026: Solo.io bringt Observability für KI-Agenten-Workflows

Agentevals macht KI-Agenten messbar: Das neue Tool von Solo.io nutzt Telemetriedaten und eigene Metriken, um Qualität und Effizienz zu bewerten.

Halbierte Latenz: Webframework IHP 1.5.0 mit neuer Datenbankschicht

Das Webframework IHP 1.5.0 bringt eine neue Datenbankschicht, deutliche Performance-Gewinne und eine verbesserte modulare Architektur.
Link: heise developer News