认识一下 StableVicuna,Stability AI 的第一个大规模开源 RLHF 聊天机器人

近几个月来,聊天机器人的开发和发布意义重大。开源替代方案进一步激发了人们对调整大型语言模型以进行聊天的兴趣。然而,缺乏通过人类反馈(RLHF)训练应用指令微调和强化学习的开源模型。

Stability AI在一篇博客文章中介绍了 StableVicuna,这是第一个通过人类反馈或 RLHF 强化学习进行训练的大型开源聊天机器人。它是 Vicuna v0 13b 的进一步指令微调和 RLHF 训练版本,Vicuna v0 13b 是指令微调的LLaMA 13b 模型。该聊天机器人已与其他类似规模的开源聊天机器人进行了基准测试,并显示出强大的性能。

为了实现 StableVicuna 的性能,采用了三级 RLHF 管道。该管道涉及使用三个数据集的混合来训练基本 Vicuna 模型并进行监督微调。然后训练奖励模型,然后通过近端策略优化强化学习来执行 SFT 模型的 RLHF 训练。

HuggingFace Hub 上提供了 StableVicuna,作为原始 LLaMA 模型的重量增量。用户必须能够访问原始的LLaMA模型,这需要他们单独申请LLaMA权重。GitHub 存储库中提供的脚本可用于组合它们并获取 StableVicuna-13B。

StableVicuna 将作为 Discord 机器人部署到 Stable Foundation 服务器。用户可以通过访问此链接在 HuggingFace 空间上尝试该模型。由于 StableVicuna 的性质,鼓励反馈以改善用户体验并扩展机器人性能。

除了聊天机器人之外,即将推出的聊天界面也处于开发的最后阶段。根据 Stability AI 的说法,StableVicuna 的开发是由开源贡献者 Duy Phung 以及 OpenAssistant、Anthropic 和斯坦福大学提供的数据集实现的。他们还感谢 OpenAssistant 团队为他们提供了对 RLHF 数据集的早期访问。

来源 :

发布 : 2023-06-27

  • 微信扫码
    关注公众号

  • 扫码查看
    当前资讯