NVIDIA optymalizuje Google Gemma LLM pod kątem akceleratorów AI i komputerów RTX AI

NVIDIA przyspieszyła ostatnio prace nad optymalizacją zgodnych ze standardami branżowymi układów LLM za pomocą procesorów graficznych RTX wyposażonych w sztuczną inteligencję, w ramach udoskonalania najnowocześniejszego modelu Gemma firmy Google.

NVIDIA ulepsza TensorRT-LLM i liczne zasoby oprogramowania, aby zapewnić opłacalną wydajność dzięki procesorom graficznym AI i RTX

[ Informacja prasowa ]: NVIDIA, we współpracy z Google, uruchomiła dzisiaj optymalizacje na wszystkich platformach NVIDIA AI dla Gemma — najnowocześniejszych, nowych, lekkich modeli języka otwartego Google o 2 miliardach i 7 miliardach parametrów, które można uruchomić w dowolnym miejscu, redukcja kosztów i przyspieszenie innowacyjnych prac w przypadku zastosowań specyficznych dla domeny.

Zespoły z obu firm ściśle współpracowały, aby przyspieszyć wydajność oprogramowania Gemma — zbudowanego na podstawie tych samych badań i technologii, które wykorzystano do tworzenia modeli Gemini — za pomocą NVIDIA TensorRT-LLM, biblioteki typu open source służącej do optymalizacji wnioskowania modeli wielkojęzykowych podczas pracy na platformie NVIDIA Procesory graficzne w centrum danych, w chmurze i na komputerach PC z procesorami graficznymi NVIDIA RTX.

Dzięki temu programiści mogą skupić się na zainstalowanej bazie ponad 100 milionów procesorów graficznych NVIDIA RTX dostępnych na całym świecie w wysokowydajnych komputerach AI.

Programiści mogą także uruchamiać Gemmę na procesorach graficznych NVIDIA w chmurze, w tym na instancjach A3 Google Cloud opartych na procesorze graficznym H100 Tensor Core, a wkrótce na procesorach graficznych NVIDIA H200 Tensor Core — wyposażonych w 141 GB pamięci HBM3e przy 4,8 terabajta na sekundę — które Google wdroży rok.

Programiści korporacyjni mogą dodatkowo skorzystać z bogatego ekosystemu narzędzi NVIDIA — w tym NVIDIA AI Enterprise z platformą NeMo i TensorRT-LLM — aby dostroić Gemmę i wdrożyć zoptymalizowany model w swojej aplikacji produkcyjnej.

Gemma przychodzi na czat z RTX

Wkrótce dodana zostanie obsługa Gemmy w postaci Chat with RTX , demonstracji technologii NVIDIA, która wykorzystuje generację rozszerzoną odzyskiwaniu i oprogramowanie TensorRT-LLM, aby zapewnić użytkownikom generatywne możliwości sztucznej inteligencji na lokalnych komputerach z systemem Windows z procesorem RTX. Czat z RTX pozwala użytkownikom personalizować chatbota za pomocą swoich danych, łatwo łącząc lokalne pliki na komputerze z dużym modelem językowym.

Źródło wiadomości: Blog NVIDIA