书生·浦语灵笔2.5-OL调研
书生·浦语灵笔2.5-OL调研
|2025-3-13|Last edited: 2025-3-23
type
status
date
slug
summary
tags
category
icon
password

引入

书生·浦语灵笔2.5-OL是一个拥有长时记忆,能够实时与用户进行视频聊天通话的多模态大模型。
技术报告为:InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions
 

一、Overview

对于过去的多模态大模型,其主要面临两个问题:
1、LLM在多模态大模型中作为一个“开关”,使得模型不能够同步感知与推理过程。
2、LLM以上下文窗口作为记忆范围,这使得让模型获得长期记忆能力变得十分困难——上下文窗口会变得很大(尤其是对于视频流,会很快就积累数百万个token)
 
所以该论文从人脑的结构获得启示,将该模型分为三个模块:
1)感知模块:视频和音频是分开的两个模块
2)记忆模块:持续地将短期记忆压缩为长期记忆
3)响应模块(推理模块):被感知模块唤起,处理用户的query
 

二、细节

1、感知模块

Audio:Whisper + Qwen

先通过whisper将音频采样编码,并映射到 SLM ( Small Language Model) Qwen的语料空间,随后SLM输出该语音的类别(笑声、雨声等等)以及该语音的文字表达

Video:

将采样到的视频片段分为K份,每份T帧,分别经过Vision encoder(Vision encoder将一个T帧的采样变为一个 的特征矩阵,N为特征维度,C是通道数)
 

二、记忆模块

记忆模块是对video的采样结果进行操作的
首先对N进行池化,变为,得到一个初始的短期记忆summarization,同时对该特征矩阵进行一个全部的平均池化,变成的一个全局记忆summrization。
随后更新:
notion image
compressor是一个LLM,(输出和输入维度相同)于是取输出的最后几个维度得到更新后的短期记忆和全局记忆。
 
再通过全局记忆更新长期记忆:
notion image
 
具体应用过程:
当用户的提问被token化之后,会传入记忆模块,和所有长期记忆concat后经过一个压缩(LLM),取最后一个维度作为query,随后和每个video的全局记忆做内积(或是其他检测匹配度的方式),选取最相关的几个clip的短期记忆传入推理模块
 

三、推理模块

推理模块就可以理解为是一个多模态大模型,输入格式如下图:
notion image
生成文字后再经过TTS转化为语音
智谱语音模型调研操作系统
Loading...