Ai行业新闻 -

腾讯与悉尼大学合作推出GPT4Video：显著增强大型语言模型的视频生成能力AI新闻资讯

By Ai智能导航网
Dec 07, 2023 - 2 min read

腾讯与悉尼大学联合推出GPT4Video，补齐多模态内容生成领域空白

在多模态大型语言模型（MLLMs）领域取得显著进展的同时，尽管在输入端多模态理解方面取得了显著进展，但在多模态内容生成领域仍存在明显的空白。为填补这一空白，腾讯人工智能实验室与悉尼大学联手推出了GPT4Video，这是一个统一的多模态框架，赋予大型语言模型(LLMs)独特的视频理解和生成能力。腾讯与悉尼大学合作推出GPT4Video：显著增强大型语言模型的视频生成能力

在多模态大型语言模型（MLLMs）领域取得显著进展的同时，尽管在输入端多模态理解方面取得了显著进展，但在多模态内容生成领域仍存在明显的空白。为填补这一空白，腾讯人工智能实验室与悉尼大学联手推出了GPT4Video，这是一个统一的多模态框架，赋予大型语言模型(LLMs)独特的视频理解和生成能力。

GPT4Video是对现有多模态大型语言模型（MLLMs）局限性的回应，尽管这些模型在处理多模态输入方面表现出色，但在生成多模态输出方面存在不足。GPT4Video的架构包括三个重要组件:

视频理解模块: 利用视频特征提取器和视频摘要生成器，将视频信息编码并对齐到LLM的词嵌入空间。
AI工具导航pozzm,AI新闻资讯,AI企业报道,AI发展动态,中国AI人工智能网,ai技术应用新闻,ai金融行情,ai名人名企 LLM主体: 借鉴LLaMA结构，采用参数高效微调（PEFT）方法，特别是LoRA，同时保留原始预训练参数。
视频生成组件: 通过精心构建的指令跟踪数据集，使LLM生成模型库中模型的提示。

团队首先利用冻结的ViT-L/14模型捕捉原始视频特征，然后使用视频抽象模块在时间和空间轴上压缩视频信息。GPT4Video的核心由冻结的LLaMA模型驱动，通过LoRA和自定义的视频中心化、安全对齐数据进行高效微调。这使其能够理解视频并生成适当的视频提示，随后用于从Textto-Video模型库中生成视频。

在各种多模态基准测试中的实验结果，包括开放式问答、视频字幕和文本到视频生成，验证了GPT4Video的有效性和普适性。此外，GPT4Video展示了利用LLMs强大的上下文摘要和文本表达能力为视频生成详细提示的能力。腾讯与悉尼大学合作推出GPT4Video：显著增强大型语言模型的视频生成能力

GPT4Video通过整合先进的视频理解和生成功能，显著提升了大型语言模型的性能。其在多模态基准测试中表现出色进一步强调了其卓越性能。

该项目网址: https://github.com/gpt4video/GPT4Video
论文网址: https://arxiv.org/abs/2311.16511