书生·浦语灵笔2.5-OL调研

type

status

date

slug

summary

引入

书生·浦语灵笔2.5-OL是一个拥有长时记忆，能够实时与用户进行视频聊天通话的多模态大模型。

技术报告为：InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions

对于过去的多模态大模型，其主要面临两个问题：

1、LLM在多模态大模型中作为一个“开关”，使得模型不能够同步感知与推理过程。

2、LLM以上下文窗口作为记忆范围，这使得让模型获得长期记忆能力变得十分困难——上下文窗口会变得很大（尤其是对于视频流，会很快就积累数百万个token）

所以该论文从人脑的结构获得启示，将该模型分为三个模块：

1）感知模块：视频和音频是分开的两个模块

2）记忆模块：持续地将短期记忆压缩为长期记忆

3）响应模块（推理模块）：被感知模块唤起，处理用户的query

先通过whisper将音频采样编码，并映射到 SLM ( Small Language Model) Qwen的语料空间，随后SLM输出该语音的类别（笑声、雨声等等）以及该语音的文字表达

将采样到的视频片段分为K份，每份T帧，分别经过Vision encoder（Vision encoder将一个T帧的采样变为一个的特征矩阵，N为特征维度，C是通道数）

记忆模块是对video的采样结果进行操作的

首先对N进行池化，变为，得到一个初始的短期记忆summarization，同时对该特征矩阵进行一个全部的平均池化，变成的一个全局记忆summrization。

随后更新：

compressor是一个LLM，（输出和输入维度相同）于是取输出的最后几个维度得到更新后的短期记忆和全局记忆。

再通过全局记忆更新长期记忆：

具体应用过程：

当用户的提问被token化之后，会传入记忆模块，和所有长期记忆concat后经过一个压缩（LLM），取最后一个维度作为query，随后和每个video的全局记忆做内积（或是其他检测匹配度的方式），选取最相关的几个clip的短期记忆传入推理模块

推理模块就可以理解为是一个多模态大模型，输入格式如下图：

生成文字后再经过TTS转化为语音