产品介绍
PaLM-rlhf-pytorch
在PaLM体系结构之上实现RLHF(人工反馈强化学习)
特性
该项目是在 PaLM
架构之上实施 RLHF
(人类反馈强化学习)。
基本上等同于 ChatGPT
,区别是使用了 PaLM
。PaLM
是在谷歌的通用 AI
架构「Pathways
」上训练而成的具有 5400
亿参数的大型语言模型。
而 RLHF
,是 ChatGPT
在 GPT 3.5
系列模型的基础上,引入「人工标注数据 + 强化学习」(RLHF
)来不断微调预训练语言模型,旨在让大型语言模型(LLM
)学会理解人类的命令,并学会根据给定的 prompt
给出最优的答案。