BittWare GroqGuard™加速器

BittWare GroqCard™ 加速器是一款双宽度PCIe外形尺寸ML加速器,设计用于轻松集成。GroqWare™ 套件采用软件定义的硬件方法,可为PyTorch、TensorFlow和ONNX训练的深度学习模型提供简单的部署路径。BittWare GroqCard加速器通过9个RealScale™ 芯片对芯片连接实现可扩展性,可确保尽可能高效地部署多个卡。此外,内部软件定义的网络提供可预测、可重复的性能,无运行到运行的变化。GroqCard符合与SMC AS-4124GS-TNR和戴尔R750xa配合使用的标准。HPE DL385 Gen 10 Plus已经过测试,但完整的服务器互操作练习尚未完成。此外,liquid还为机箱中的GroqCard提供最多16张GroqCard资格。在其他服务器模型中使用GroqCard是用户面临的风险。

GroqBee™处理器

完全确定的GroqChip处理器是可扩展性能的核心。GroqChip的创建就是为了可加速AI、ML和HPC工作负载,减少数据移动,实现可预测的低延迟性能,无瓶颈。该独立芯片可灵活地集成到计算密集型应用中。该架构比GPU简单得多,设计时以软件第一为中心,因此更容易编程和提供可预测性能,延迟更低。

GroqWare™套件

GroqWare套件是一款全面、多功能的软件堆栈,设计用于加速各种HPC和ML工作负载。该套件由Groq™编译器、Groq API和实用程序组成,通过开源驱动程序/运行时间并支持行业标准AI/ML框架,简化了部署。GroqFlow™工具链(包含在GroqWare套件中)支持单行Pytorch或TensorFlow代码,通过全自动工具链导入和转换现有模型在Groq硬件上运行。

特性

  • 完全确定性处理器 - 可预测和可重复的性能, 无运行间的变化
  • 端到端片上保护 - 通过整个GroqChip™数据路径上的纠错码 (ECC) 保护提高了正常运行时间和可靠性
  • 230MB片上存储器 - 大型全局共享SRAM,可实现对模型参数的高带宽、低延迟访问,无需外部存储器
  • 9个RealScale芯片对芯片连接器 - 接近线性的多服务器和多机架可扩展性,无需外部开关
  • 高达80TBs片上存储器带宽 - 大规模并发和数据并联,用于带宽敏感型应用
  • PCIe Gen4 x16接口 - 高达31.5GB/s的双向带宽,工业标准接口,用于快速设备和网络连接

应用

  • 财务
  • 科学和政府
  • 生成式AI
  • 工业
  • 石油天然气

规范

  • 适配器外形尺寸:双宽度、全高度、3/4长度PCI Express Gen4 x16
  • 性能高达750 TOPs,188 TFLOPs(INT8;900MHz时为FP16)
  • 存储器
    • 每个芯片230MB SRAM
    • 片上存储器带宽:高达80TB/s
  • 芯片可扩展到多达9个RealScale芯片到芯片连接器
  •  数值
    • INT8、INT16、INT32和TruePoint™技术
    • MXM:FP32
    • VXM:FP16、FP32
    • 最大值:375W
    • TDP:275 W
    • 典型值:240W

视频

GroqChip概述

框图 - BittWare GroqGuard™加速器
发布日期: 2023-11-09 | 更新日期: 2024-11-25