NVIDIA optimiert Googles Gemma LLM für KI-Beschleuniger und RTX-KI-PCs

NVIDIA hat kürzlich die Entwicklungen bei der Optimierung branchenüblicher LLMs mit seinen KI-gestützten RTX-GPUs beschleunigt , da das Unternehmen nun das hochmoderne Gemma-Modell von Google verbessert.

NVIDIA verbessert TensorRT-LLM und mehrere Softwareressourcen, um mit seinen AI- und RTX-GPUs kosteneffiziente Leistung bereitzustellen

[ Pressemitteilung ]: NVIDIA hat heute in Zusammenarbeit mit Google Optimierungen für alle NVIDIA-KI-Plattformen für Gemma eingeführt – Googles hochmoderne neue, leichtgewichtige offene Sprachmodelle mit 2 Milliarden und 7 Milliarden Parametern, die überall ausgeführt werden können. Reduzierung der Kosten und Beschleunigung innovativer Arbeit für domänenspezifische Anwendungsfälle.

Teams aus den Unternehmen arbeiteten eng zusammen, um die Leistung von Gemma – das auf der gleichen Forschung und Technologie basiert, die auch für die Erstellung der Gemini-Modelle verwendet wurde – mit NVIDIA TensorRT-LLM, einer Open-Source-Bibliothek zur Optimierung der Inferenz großer Sprachmodelle, bei der Ausführung auf NVIDIA zu beschleunigen GPUs im Rechenzentrum, in der Cloud und auf PCs mit NVIDIA RTX GPUs.

Dadurch können Entwickler auf die installierte Basis von über 100 Millionen NVIDIA RTX-GPUs abzielen, die weltweit in Hochleistungs-KI-PCs verfügbar sind.

Entwickler können Gemma auch auf NVIDIA-GPUs in der Cloud ausführen, darunter auf den A3-Instanzen von Google Cloud, die auf der H100-Tensor-Core-GPU basieren, und bald auch auf den H200-Tensor-Core-GPUs von NVIDIA – mit 141 GB HBM3e-Speicher bei 4,8 Terabyte pro Sekunde – die Google bereitstellen wird Jahr.

Unternehmensentwickler können außerdem das umfangreiche Tool-Ökosystem von NVIDIA nutzen – darunter NVIDIA AI Enterprise mit dem NeMo-Framework und TensorRT-LLM –, um Gemma zu optimieren und das optimierte Modell in ihrer Produktionsanwendung bereitzustellen.

Gemma kommt zum Chatten mit RTX

Demnächst wird Gemma durch Chat with RTX unterstützt , eine Tech-Demo von NVIDIA, die Retrieval-Augmented Generation und TensorRT-LLM-Software nutzt, um Benutzern generative KI-Funktionen auf ihren lokalen, RTX-basierten Windows-PCs zu bieten. Mit Chat with RTX können Benutzer einen Chatbot mit ihren Daten personalisieren, indem sie einfach lokale Dateien auf einem PC mit einem großen Sprachmodell verbinden.

Nachrichtenquelle: NVIDIA Blog