2025-07-26

电子学院程翔教授团队首次提出基座模型(Foundation Model)赋能机器联觉的全新设计范式

第6代移动通信网络(6G)作为新一代关键信息基础设施,将助力实现“万物智联、数字孪生”,并赋能网联具身智能等典型应用场景。为突破多模态感知模块与通信模块互相分立、各自为政的局限,受到人类联觉(Synesthesia of Human)的启发,北京大学电子学院程翔教授团队首次提出“机器联觉(Synesthesia of Machines, SoM)”概念和架构,即面向通用任务的AI原生通信与多模态感知智能融合,有力支撑下一代网联具身智能系统设计,实现具身智能体(如无人车、无人机和人形机器人)从模仿人类(基于语音识别和非射频感知的单体智能,模仿人类执行视距内任务)到超越人类(充分利用通信单元实现“顺风耳”,融合射频感知实现“千里眼”,超越人类执行复杂超视距任务)。机器联觉的主要研究内容包括通信与多模态感知智能融合数据集构建通信与多模态感知联觉机理挖掘机器联觉辅助的收发机设计基于联觉特征高效传输的协同感知方案设计、和支撑机器联觉的弹性网络设计

图1 机器联觉的框架与主要研究内容

然而,现有AI赋能的机器联觉系统设计以任务专用模型/AI小模型为主,面临着大规模高质量数据集稀缺建模能力不足数据泛化性受限任务通用性缺乏等问题。近年来,基座模型的兴起推动了深度学习范式的变革,即通过在大规模数据集上进行自监督预训练,基座模型可以在多种下游任务中展现出卓越的泛化能力,并大幅超越任务专用模型。基座模型在自然语言处理等领域取得了ChatGPT等标志性成果,但其在机器联觉相关领域的应用仍处于起步阶段且缺乏系统框架

为填补领域空白,团队系统调研并首次提出赋能机器联觉相关领域的两类基座模型,包括通用基座模型(即大语言模型,LLM)和领域专用基座模型(无线基座模型)。团队首次提出了赋能机器联觉的通用基座模型的概念,包含多模态大语言模型(MLLM),实现以语言或非语言的方式跨领域迁移到机器联觉相关任务。此外,团队还首次提出了面向机器联觉领域的专用基座模型(无线基座模型)的概念,即模型在大规模无线和多模态感知数据上进行预训练(以自监督学习为主)后,可以通过微调或零样本应用于大量下游机器联觉系统设计相关任务,并大幅超越任务专用模型的性能。团队全面总结了两类基座模型在解决机器联觉现有挑战的优势,包括强大的跨模态生成能力少样本建模能力零样本泛化能力一模多用能力,为机器联觉系统设计提供了全新研究思路与范式。

表1 两类基座模型应用于机器联觉系统设计的优势

基于此,团队首次提出了基座模型赋能机器联觉系统的两种设计范式,包括基于大语言模型基于无线基座模型的设计范式。对于每种设计范式,构建了包含关键设计步骤的系统框架,并给出了多个基座模型赋能机器联觉任务的应用案例。

(一)范式1:大语言模型赋能的机器联觉系统设计

团队提出了基于大语言模型的机器联觉系统设计的研究框架,包括:

1)语言模型选择:包括合适的大语言模型种类和尺寸

2)迁移技术选择:包括微调和提示词工程等

基于此,给出了两个基于大语言模型的机器联觉系统设计案例:

²基于大语言模型的路径损耗生成(LLM4PG)和散射体生成(LLM4SG)方案:为高精度挖掘多模态感知与信道全(大、小)尺度衰落特性间复杂、非线性联觉机理(映射关系),LLM4PG和LLM4SG方案首次引入预训练大语言模型,实现了高效、高保真信道数据的跨模态生成。实验结果表明,受益于预训练大语言模型强大的推理和泛化能力,LLM4PG和LLM4SG方案相比于传统小模型在联觉机理挖掘精度上提升11%以上,并通过泛化性测试表明仅需7%的训练数据样本即可达到传统小模型全样本训练的性能。

²基于大语言模型的无线多任务联觉收发机设计(LLM4WM)方案:针对无线通信系统中的物理层多任务,该方案首次引入预训练大语言模型,实现了视觉辅助的物理层多任务的统一处理架构。实验结果表明,受益于预训练大语言模型强大的表征能力,LLM4WM方案相比于传统小模型多任务方案在各项收发机设计任务中平均性能提升超过2dB,展现出显著优势。此外,加入了视觉辅助的LLM4WM方案相比于纯射频的LLM4WM方案仅增加约4%的额外推理时间开销,却在各个任务上带来了超过0.5dB的性能增益,进一步验证了联觉辅助在物理层收发机设计的有效性和实用潜力。

图2 范式一的设计框架与应用案例

(二)范式2:无线基座模型赋能的机器联觉系统设计

团队提出了基于无线基座模型的机器联觉系统设计的研究框架,包括

1)预训练数据集构建:包括实测数据集、仿真数据集和生成式数据集

2)网络架构优化:包括前馈网络和注意力机制等优化设计

3)预训练策略选择:包括监督学习、无监督学习和自监督学习

4)下游任务迁移:包括直接迁移和微调

基于此,给出了三个基于无线基座模型的机器联觉系统设计案例:

²无线信道基座模型(WiCo)赋能的联觉机理挖掘:针对多模态通感联觉机理(映射关系)挖掘任务,结合Parti(Pathways Autoregressive Text-to-image)和VQGAN架构,首次构建了无线信道基座模型WiCo。实验结果表明,借助基座模型强大的通用跨模态数据生成能力,基于WiCo的方案在信道数据生成精度上相比LLM4PG和LLM4SG方案提升5%以上,相比传统小模型提升13%以上

²无线基座模型(WiFo)赋能的联觉收发机设计:针对视觉信息辅助的频域信道预测任务,首次将无线基座模型WiFo应用于多模态感知辅助的联觉收发机设计。实验结果表明,由于强大的通用信道状态信息(CSI)表征能力,基于WiFo的方案的预测精度大幅超越LLM4WM,并且零样本性能超越任务专用模型的全样本预测性能1dB以上。此外,相比于LLM4WM和任务专用模型,基于WiFo的方案能够充分捕获多模态感知的额外增益。

²无线协同感知基座模型(WiPo)赋能的联觉协同感知:面向多模态数据压缩传输重建任务,提出异构多模态预训练范式并构建首个无线协同感知基座模型WiPo,解决现有多模态数据传输网络的异构性挑战,实现良好的模态通用性与数据泛化性,并大大降低网络参数量与计算量开销。实验结果表明,得益于预训练阶段获得的通用压缩重建知识,WiPo能够实现一模多用,在图像重建与信道反馈任务上仅微调少量参数,性能仍明显优于任务专用模型。

图3 范式二的设计框架与应用案例

最后,团队对三种AI赋能的机器联觉设计范式进行了全面比较,并给出了未来基座模型赋能机器联觉系统设计的重点研究方向。

表2 三种AI赋能的机器联觉设计范式比较

该工作的主要亮点如下:

(1)首次提出并系统论述了基座模型赋能机器联觉系统的两种全新设计范式,包括基于通用基座模型(大语言模型)和面向机器联觉领域的专用基座模型(无线基座模型)的设计范式。针对每种范式,给出了包含关键设计步骤的系统框架与多个机器联觉相关任务的应用案例。全部应用案例的代码和实验数据已开源

(2)针对基于大语言模型的机器联觉系统设计范式,首次提出了基于大语言模型的路径损耗生成(LLM4PG)和散射体生成(LLM4SG)方案,和基于大语言模型的无线多任务联觉收发机设计(LLM4WM)方案,实验验证了大语言模型在联觉系统设计中强大的推理与泛化能力。

(3)针对基于无线基座模型的机器联觉系统设计范式,首次提出了面向联觉机理挖掘的无线信道基座模型(WiCo)首个无线基座模型(WiFo)赋能的联觉收发机方案,和首个基于联觉特征高效传输的无线协同感知基座模型(WiPo),实验验证了无线基座模型在联觉系统设计中强大的数据生成能力、通用表征提取能力和一模多用能力

该研究成果以“Foundation Model Empowered Synesthesia of Machines (SoM): AI-native Intelligent Multi-Modal Sensing-Communication Integration”为题发表于期刊《IEEE Transactions on Network Science and Engineering》(IF=7.9,JCR Q1),相关代码和数据已全部开源。北京大学为该研究工作的唯一完成单位。北京大学电子学院程翔教授为该论文的第一作者以及通讯作者,其他作者包括北京大学电子学院博士生刘伯珣、刘轩宇、刘恩嵩和博雅博士后黄子蔚。这项工作得到了国家自然基金委杰出青年科学基金、新基石科学基金会科学探索奖、中国博士后科学基金会博士后创新人才支持计划等的支持。

论文链接:https://ieeexplore.ieee.org/document/11074348

代码和数据开源地址:https://github.com/liuboxun/FM4SoM


返回