KubeCon EU 2026: Kubernetes wird weiter als Infrastruktur für KI optimiert
Nvidia steuert DRA-Treiber und Tooling für reproduzierbare GPU-Cluster bei. Die CNCF begrüßt llm-d als neues Projekt, das verteilte Inferenz optimiert.
software-architektur.tv: Wie unabhängig ist dein Service wirklich?
Wie die Independent Service Heuristics dabei helfen, Domänengrenzen greifbarer zu machen, um bessere Services zu schneiden, ist Thema dieser neuen Folge.
Google komprimiert LLM-Cache auf 3 Bit ohne Genauigkeitsverlust
Googles TurboQuant drückt den KV-Cache großer Sprachmodelle auf 3 Bit. Die Genauigkeit soll bleiben, die Geschwindigkeit sich vervielfachen.
KubeCon EU 2026: Solo.io bringt Observability für KI-Agenten-Workflows
Agentevals macht KI-Agenten messbar: Das neue Tool von Solo.io nutzt Telemetriedaten und eigene Metriken, um Qualität und Effizienz zu bewerten.
Halbierte Latenz: Webframework IHP 1.5.0 mit neuer Datenbankschicht
Das Webframework IHP 1.5.0 bringt eine neue Datenbankschicht, deutliche Performance-Gewinne und eine verbesserte modulare Architektur.