
https://news.zol.com.cn/995/9952921.html
news.zol.com.cn
true
中关村在线
https://news.zol.com.cn/995/9952921.html
report
1299
Meta 近日推出了一款名为 LlamaRL 的强化学习框架,该框架采用全异步分布式架构设计,在处理 4050 亿参数模型时,成功将强化学习步骤的耗时从原来的 635.8 秒减少到 59.5 秒,整体效率提升超过 10 倍。强化学习是一种通过反馈机制不断调整输出的技术,使模型能够更好地满...