BittWare Accélérateur GroqCard™
BittWare GroqCard™ Accelerator is a double-width PCIe form factor ML accelerator developed to integrate easily. The GroqWare™ suite implements a software-defined hardware approach, allowing easy deployment paths for PyTorch, TensorFlow, and ONNX-trained deep learning models. The BittWare GroqCard Accelerator features scalability with nine RealScale™ chip-to-chip connections that guarantee the deployment of multiple cards as efficiently as one. Furthermore, an internal software-defined network delivers predictable, repeatable performance with no run-to-run variations. The GroqCard has been qualified for use with the SMC AS-4124GS-TNR and Dell R750xa. The HPE DL385 Gen 10 Plus has been tested, but the full server interop exercise was not completed. In addition, liquid has also qualified the GroqCard in the chassis with up to 16 GroqCards. Using the GroqCard in other server models is at the user's risk.Processeur GroqGear™
Le processeur GroqChip entièrement déterministe est le cœur de performances évolutives. Construit de bout en bout pour accélérer les charges de travail IA, ML et HPC, GroqChip réduit les mouvements de données pour des performances prévisibles à faible latence, sans goulot d’étranglement. Cette puce autonome fournit une intégration flexible dans des applications à forte intensité de calcul. L’architecture est beaucoup plus simple qu’une unité de traitement graphique (GPU) et est conçue avec une priorité logicielle, ce qui facilite la programmation et fournit des performances prévisibles avec une latence plus faible.
Suite Groqware™
La suite GroqWare est une pile logicielle complète et polyvalente conçue pour accélérer une grande variété de charges de travail HPC et ML. Composée du compilateur GroQ™, d’API Groq et d’utilitaires, cette suite facilite les solutions de déploiement avec un pilote/une exécution open source et prend en charge les structures IA/ML aux normes de l’industrie. La chaîne d’outils GroqFlow™ (incluse dans la Suite GroqWare) permet à une seule ligne de code Pytorch ou TensorFlow d’importer et de transformer les modèles existants via une chaîne d’outils entièrement automatisée pour fonctionner sur le matériel Groq.
Caractéristiques
- Processeur entièrement déterministe : performances prévisibles et reproductibles sans variation d'une exécution à l'autre
- Protection sur puce de bout en bout : améliore la disponibilité et la fiabilité avec une protection contre le code de correction d’erreur (ECC) sur l’ensemble du chemin de données GroqChip™
- 230 Mo de mémoire sur puce : grande SRAM mondialement partagée pour un accès large bande passante, à faible latence, aux paramètres du modèle sans avoir besoin de mémoire externe
- Connecteurs puce-à-puce 9x échelle réelle : évolutivité quasi-linéaire multi-serveurs et multi-racks sans avoir besoin de commutateurs externes
- Bande passante mémoire sur puce jusqu’à 80 To : convergence massive et parallélisme de données pour les applications sensibles à la bande passante
- Interface PCIe Gen4 x16 : jusqu’à 31,5 Go/s de bande passante bidirectionnelle dans une interface aux normes de l’industrie pour des connexions rapides au dispositif et au réseau
Applications
- Finances
- Sciences et gouvernement
- IA générative
- Industrie
- Pétrole et gaz
Caractéristiques techniques
- Facteur de forme d’adaptateur PCI Express Gen4 x16 double largeur, pleine hauteur, longueur 3/4
- Performances jusqu’à 750 TOPs, 188 TFLOPs (INT8, FP16 à 900 MHz)
- Mémoire
- SRAM 230 MB par puce
- Bande passante mémoire sur puce jusqu’à 80TB/s
- Mise à l’échelle de la Puce jusqu’à 9 connecteurs puce-à-puce à échelle réelle
- Numerics
- Technologie INT8, INT16, INT32 et TruePoint™
- MXM : FP32
- VXM, FP16, FP32
- Énergie
- Max. : 375 W
- TDP : 275 W
- Standard : 240 W
Vidéos
Présentation de GroqChip
