MosaicML 的最新模型仅用 30B 参数就超越了 GPT-3

开源 LLM 提供商MosaicML宣布发布迄今为止最先进的模型：MPT-30B Base、Instruct 和 Chat。

这些最先进的模型已使用 NVIDIA 最新一代 H100 加速器在 MosaicML 平台上进行训练，并声称与原始 GPT-3 模型相比可提供卓越的质量。

借助 MPT-30B，企业可以利用生成式人工智能的力量，同时维护数据隐私和安全。

自 2023 年 5 月推出以来，MPT-7B 型号广受欢迎，下载量超过 330 万次。新发布的 MPT-30B 型号提供更高的质量，并为各种应用开辟了新的可能性。

MosaicML 的 MPT 模型针对高效训练和推理进行了优化，使开发人员能够轻松构建和部署企业级模型。

MPT-30B 的一项显着成就是它能够超越 GPT-3 的质量，同时仅使用 300 亿个参数，而 GPT-3 需要 1750 亿个参数。这使得 MPT-30B 更容易在本地硬件上运行，并且部署推理的成本显着降低。

基于 MPT-30B 训练定制模型的成本也大大低于训练原始 GPT-3 的估计，这使其成为对企业有吸引力的选择。

此外，MPT-30B 接受了长达 8,000 个令牌的更长序列的训练，使其能够处理数据量大的企业应用程序。其性能得到了 NVIDIA H100 GPU 的支持，可提供更高的吞吐量和更快的训练时间。

多家公司已经在其人工智能应用程序中采用了 MosaicML 的 MPT 模型。

Replit是一款基于 Web 的 IDE，它使用其专有数据和 MosaicML 的培训平台成功构建了代码生成模型，从而提高了代码质量、速度和成本效益。

Scatter Lab是一家专门从事聊天机器人开发的 AI 初创公司，训练了自己的 MPT 模型，创建了能够理解英语和韩语的多语言生成 AI 模型，从而增强了用户群的聊天体验。

Navan是一家全球旅行和费用管理软件公司，正在利用 MPT 基金会为虚拟旅行代理和对话式商业智能代理等应用程序开发定制法学硕士。

Navan 联合创始人兼首席技术官 Ilan Twig 表示：

“在 Navan，我们在我们的产品和服务中使用生成式人工智能，为我们的虚拟旅行代理和对话式商业智能代理等体验提供支持。

MosaicML 的基础模型提供最先进的语言功能，同时极其高效地进行大规模微调和服务推理。”

开发人员可以通过HuggingFace Hub访问 MPT-30B作为开源模型。他们可以灵活地根据数据微调模型，并将其部署到基础设施上进行推理。

或者，开发人员可以利用 MosaicML 的托管端点 MPT-30B-Instruct，它提供无麻烦的模型推理，而成本仅为类似端点的一小部分。MPT-30B-Instruct 的价格为每 1,000 个代币 0.005 美元，为开发人员提供了经济高效的解决方案。

MosaicML MPT-30B 模型的发布标志着大型语言模型领域的重大进步，使企业能够利用生成式 AI 的功能，同时优化成本并保持对数据的控制。

来源 :

发布 : 2023-06-27