书生·浦语灵笔2.5-OL调研
type
status
date
slug
summary
tags
category
icon
password
引入
书生·浦语灵笔2.5-OL是一个拥有长时记忆,能够实时与用户进行视频聊天通话的多模态大模型。
技术报告为:InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions
一、Overview
对于过去的多模态大模型,其主要面临两个问题:
1、LLM在多模态大模型中作为一个“开关”,使得模型不能够同步感知与推理过程。
2、LLM以上下文窗口作为记忆范围,这使得让模型获得长期记忆能力变得十分困难——上下文窗口会变得很大(尤其是对于视频流,会很快就积累数百万个token)
所以该论文从人脑的结构获得启示,将该模型分为三个模块:
1)感知模块:视频和音频是分开的两个模块
2)记忆模块:持续地将短期记忆压缩为长期记忆
3)响应模块(推理模块):被感知模块唤起,处理用户的query
二、细节
1、感知模块
Audio:Whisper + Qwen
先通过whisper将音频采样编码,并映射到 SLM ( Small Language Model) Qwen的语料空间,随后SLM输出该语音的类别(笑声、雨声等等)以及该语音的文字表达
Video:
将采样到的视频片段分为K份,每份T帧,分别经过Vision encoder(Vision encoder将一个T帧的采样变为一个 的特征矩阵,N为特征维度,C是通道数)
二、记忆模块
记忆模块是对video的采样结果进行操作的
首先对N进行池化,变为,得到一个初始的短期记忆summarization,同时对该特征矩阵进行一个全部的平均池化,变成的一个全局记忆summrization。
随后更新:

compressor是一个LLM,(输出和输入维度相同)于是取输出的最后几个维度得到更新后的短期记忆和全局记忆。
再通过全局记忆更新长期记忆:

具体应用过程:
当用户的提问被token化之后,会传入记忆模块,和所有长期记忆concat后经过一个压缩(LLM),取最后一个维度作为query,随后和每个video的全局记忆做内积(或是其他检测匹配度的方式),选取最相关的几个clip的短期记忆传入推理模块
三、推理模块
推理模块就可以理解为是一个多模态大模型,输入格式如下图:

生成文字后再经过TTS转化为语音