MambaMixer:突破Transformers限制的高效深度学习架构

深度学习模型尤其是Transformers架构,已经在诸如自然语言处理、计算机视觉和时间序列预测等多个领域取得了显著成就。然而,随着模型输入序列长度的增加,传统的Transformers模型面临着显著的扩展性问题。其核心问题在于,Transformers中的注意力机制在处理长序列数据时,计算复杂度和内存需求随着输入大小呈二次方增长,这不仅限制了模型处理大规模数据的能力,也增加了训练和推理的时间成本。

本文介绍的“MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection”正是针对这一挑战提出的解决方案。MambaMixer是一种新型的深度学习架构,它通过引入高效的选择性状态空间模型(SSMs),在保持数据依赖性的同时,显著降低了长序列建模的时间和空间复杂度。这一创新不仅推动了深度学习模型在处理大规模数据时的效率,也为长序列建模提供了新的可能性,特别是在需要捕捉长期依赖关系的复杂任务中。

方法

MambaMixer是一种结合了选择性令牌混合器(Selective Token Mixer)和选择性通道混合器(Selective Channel Mixer)的架构。这种设计旨在通过数据依赖的权重,沿着序列和模型维度有效地混合信息。选择性令牌混合器负责在序列维度上融合信息,而选择性通道混合器则关注于在模型维度上的信息融合。

选择性令牌混合器的设计灵感来源于Mamba模型,它在输入的投影之后和S6块之前使用一维卷积。这种设计不仅提供了更通用的形式和更具表现力的表示,还允许模型在不同分辨率级别上更专注或过滤信息,这在视觉和时间序列预测任务中尤为重要。

选择性通道混合器使用SSM作为通道混合块,可以为每个令牌选择性地过滤不相关的通道,并沿着模型维度轴融合信息。这种方法避免了在大型网络中训练时的不稳定性,并且由于其数据依赖性,可以更有效地选择信息丰富的通道。

为了克服数据依赖通道混合的挑战,作者提出了一种新的启发式方法,使用准分离矩阵来近似传统的前向和后向SSMs。这种方法不仅节省了大约一半的参数,还利用了硬件友好型和可并行化的实现,从而加快了训练速度。

QSMixer是MambaMixer的一个变体,它进一步简化了架构,使用准分离矩阵进行信息混合。这种方法不仅提高了效率,还保持了模型的表现力。QSMixer是首个大规模模型,展示了准分离矩阵在序列建模中的强大能力。

QSMixer(Quasi-Separable Mixer)的概览,展示了如何使用准可分离矩阵在序列和嵌入维度上进行信息混合

QSMixer是MambaMixer架构中的一个关键组件,它负责在序列和嵌入维度上进行信息混合。这种混合对于捕捉序列数据中的长距离依赖关系至关重要,尤其是在处理图像、视频和时间序列等多维数据时。

准分离矩阵

QSMixer 使用的准分离矩阵是一种具有特定结构的矩阵,它允许更高效的计算。这种结构化的特性使得矩阵的存储和操作更加经济,同时保持了模型的表达能力。

启发式改进

与传统的 SSMs 相比,QSMixer 的准分离矩阵提供了更多的表示能力。这种启发式改进使得模型能够以更少的参数捕捉更复杂的数据动态。

高效的计算

QSMixer 的核心优势之一是其高效的矩阵-向量乘法运算。由于准分离矩阵的结构特性,相关的乘法运算可以在线性时间内完成,这大大加快了模型的训练速度,降低了计算成本。

训练效率

得益于高效的矩阵运算,QSMixer 在训练过程中表现出了高效率。这使得模型即使在大规模数据集上也能快速收敛,同时保持了较低的内存和计算资源消耗。

视觉 MambaMixer 和视觉 QSMixer

为了适应视觉任务,作者对MambaMixer和QSMixer的门控机制进行了修改,使用一组卷积来提取输入图像的多分辨率特征。这种设计通过深度可分离卷积在不同分辨率上操作,增强了模型对图像特征的捕捉能力。

视觉任务,如图像分类、目标检测和语义分割,要求模型能够捕捉图像中的空间依赖性,包括垂直和水平方向。传统的序列编码器在处理这类任务时受限于其有限的感受野,即它们难以同时捕捉到图像在多个方向上的空间关系。为了解决这一挑战,研究者提出了多种图像扫描方法,但这些方法会增加参数数量并降低训练效率。

为了提高使用不同图像扫描方法的有效性和效率,研究者引入了Switch of Scans(SoS)模块。SoS模块使用一种路由器机制,动态选择每张图像最有效的扫描集合。这种设计灵感来源于混合专家技术,能够根据图像的高级特征来决定哪些扫描方法更为有用。

ViM2和ViQS模型进一步改进了MambaMixer和QSMixer的门控机制,采用多分辨率卷积来提取输入图像的多尺度特征。这些特征通过深度可分离卷积处理,以增强模型对不同尺度图像特征的捕捉能力,这对于密集图像和密集预测任务尤为重要。

ViM2模型采用了MambaMixer块,而ViQS模型则采用了QSMixer块。这两种模型都利用了选择性令牌混合器和选择性通道混合器,但ViQS在两者上都使用了基于准分离矩阵的简化和快速版本。这些混合器的设计允许模型在处理视觉数据时,能够选择性地过滤掉不相关的信息,同时保留有用的特征。

 ViM2 架构的设计和概览

ViM2和ViQS的设计不仅关注于单一任务的性能,还强调了模型的泛化能力。通过使用数据依赖的权重和准分离矩阵,这些模型能够适应不同的视觉任务,捕捉长距离依赖关系,并有效地处理多维数据。

实验

研究者设定了实验的主要目标,包括评估MambaMixer和QSMixer作为序列编码器背骨在捕捉长序列依赖性方面的有效性,并将它们与现有的最先进序列编码器进行比较。他们还比较了ViM2和ViQS与基于卷积的视觉模型、基于混合器的方法、基于Transformer的方法以及双注意力模型等在ImageNet-1K数据集上的性能。

在 ImageNet-1K 数据集上不同模型的准确率比较,包括 top-1 和 top-5 准确率以及参数数量和计算复杂度(FLOPs)

在图像分类任务中,研究者在sCIFAR和ImageNet-1K数据集上测试了MambaMixer和QSMixer的性能。实验结果显示,这些模型在像素级分类任务中能够有效捕捉长距离依赖性,并且在sCIFAR数据集上的表现优于Transformers和其他基线模型。

为了证明选择性通道混合的重要性,研究者在ImageNet-1K数据集上测试了S4、Mamba以及他们提出的选择性令牌混合器的性能。实验结果表明,使用选择性通道混合可以显著提高模型性能,因为它能够为每个令牌过滤不相关的通道。

有无选择性通道混合的不同模型在 ImageNet-1K 上的性能,突出了选择性通道混合对性能提升的贡献

消融研究中,研究者逐一移除了架构中的某些组件,以评估每个组件对整体性能的贡献。消融研究结果表明,准分离矩阵的实现和通道混合器对性能提升有显著贡献,缺乏通道混合会导致平均性能下降。

对 ViQS 和 ViM 模型进行消融研究,展示了不同组件对模型性能的影响,如参数数量、吞吐量和准确率

研究者评估了ViM2在不同分辨率图像上的性能,以测试模型对长距离依赖性的捕捉能力。实验结果表明,ViM2在处理高分辨率图像以及不同分辨率输入时表现出更好的鲁棒性。

不同分辨率输入图像对模型性能和效率的影响,显示了 ViM2 在捕获长距离依赖性方面相比于现有基线模型的鲁棒性

除了图像分类任务外,研究者还在ADE20K数据集上进行了语义分割任务的评估,并在COCO数据集上进行了目标检测任务的测试。ViM2和ViQS在这些下游任务上的表现进一步证明了它们的适用性和多样性。

在 ADE20K 数据集上使用 UperNet 进行语义分割任务时,不同模型的性能比较,包括平均交并比(mIoU)和参数数量

通过一系列实验,我们得出结论,MambaMixer和QSMixer在视觉任务中展现出了与现有模型相媲美甚至更优的性能,同时具有更少的计算资源消耗。这些结果强调了选择性地跨令牌和通道混合信息的重要性,并证明了所提出模型在多维数据建模中的潜力。

MambaMixer 和 QSMixer 展示了数据依赖 SSM 在序列建模中的潜力,它们通过递归和选择性地混合序列和模型维度上的信息,实现了硬件友好和高效的训练。ViM2 和 ViQS 模型的成功表明,MambaMixer 和 QSMixer 在多维数据建模中具有广泛的应用前景。

论文链接:https://arxiv.org/abs/2403.19888

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/755718.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

GPT-5:编织未来智能的经纬

GPT-5技术突破预测 随着GPT-5的预告,人工智能的叙事正步入一个崭新的篇章。想象中的GPT-5不仅是自然语言处理(NLP)领域的革命,更是对“理解”本身的一次重新定义。它可能集成深度学习的最新进展,如自注意力机制的进一步…

Java访问修饰符的区别

public:公开的,任何地方都可以访问。 protected:受保护的,同一个包中的类和所有子类(可跨包)可以访问。 private:私有的,只有在同一个类中可以访问。 默认(无修饰符):包级…

SmartEDA革新来袭:融合Multisim与Proteus精髓,引领电子设计新纪元!

在电子设计领域,每一次技术的革新都如同春风化雨,滋润着设计师们的心田。今天,我们迎来了一个划时代的电子设计自动化(EDA)工具——SmartEDA,它不仅融合了业界知名的Multisim和Proteus的精华,更…

【计算机毕业设计】077停车场微信小程序

🙊作者简介:拥有多年开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件,帮助大学选题。赠送开题报告模板&#xff…

FreeRTOS移植到STM32

一、找一个STM32的裸机工程模板 我们以STM32F103裸机程序为例 随便找的一个裸机程序 二、去官网上下载FreeRTOS V9.0.0 源码 在移植之前,我们首先要获取到 FreeRTOS 的官方的源码包。这里我们提供两个下载 链 接 , 一 个 是 官 网 : http:…

若依 ruoyi 分离版 vue 简单的行内编辑实现

需要实现的效果&#xff1a;双击文本 - 修改文本 - 保存修改。 原码&#xff1a;仅文本显示文字内容 <el-table-column label"商品" align"center" prop"goodsName" width"200" v-if"columns[1].visible" /> 实现…

基于Vue,mysql,JavaEE的简单投票与投票管理系统

项目介绍 ​ 本项目&#xff0c;基于Vue2.6,mysql,JavaEE 实现简单的投票与投票管理系统 项目地址 VotingSystem: 投票系统1.0 管理员和普通用户 (gitee.com) 有问题请评论私聊哦 项目分类 数据库 创建投票人&#xff0c;被投票人&#xff0c;投票关系&#xff08;追踪谁…

基于Java的蛋糕预定系统【附源码+LW】

摘 要 当今社会进入了科技进步、经济社会快速发展的新时代。国际信息和学术交流也不断加强&#xff0c;计算机技术对经济社会发展和人民生活改善的影响也日益突出&#xff0c;人类的生存和思考方式也产生了变化。传统购物方式采取了人工的管理方法&#xff0c;但这种管理方法存…

使用 nvm 管理 Node 版本及 pnpm 安装

文章目录 GithubWindows 环境Mac/Linux 使用脚本进行安装或更新Mac/Linux 环境变量nvm 常用命令npm 常用命令npm 安装 pnpmNode 历史版本 Github https://github.com/nvm-sh/nvm Windows 环境 https://nvm.uihtm.com/nvm.html Mac/Linux 使用脚本进行安装或更新 curl -o- …

阿里云服务器数据库迁云: 数据从传统到云端的安全之旅(WordPress个人博客实战教学)

&#x1f3ac; 鸽芷咕&#xff1a;个人主页 &#x1f525; 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想&#xff0c;就是为了理想的生活! 文章目录 一、 开始实战1.2创建实验资源1.3重置云服务器ECS的登录密码&#xff08;请记住密码&#xff09;1.4 设置安全组端口1…

武汉星起航:跨境热销新趋势,亚马逊美国站与欧洲站选品大赏

亚马逊作为全球领先的电商平台&#xff0c;其美国站和欧洲站一直是全球卖家争相入驻的热门站点。这两个站点不仅拥有庞大的消费群体和完善的物流体系&#xff0c;更以其独特的选品策略吸引了众多消费者的目光。武汉星起航将深入剖析亚马逊美国站和欧洲站当前热销的选品&#xf…

【Qt】之【Bug】大量出现“未定义的标识符”问题

背景 构建时出现大量错误 原因 中文注释问题 解决 方法1. 报错代码附近的中文注释全部删掉。。。 方法2. 报错的文件添加 // Chinese word comment solution #pragma execution_character_set("utf-8")

爱奇艺 Opal 机器学习平台:特征中心建设实践

01 综述 Opal 是爱奇艺大数据团队研发的一站式机器学习平台&#xff0c;旨在提升特征迭代、模型训练效率&#xff0c;帮助业务提高收益。整个平台覆盖了机器学习生命周期中特征生产、样本构建、模型探索、模型训练、模型部署等在内的多个关键环节。其中特征作为模型训练的基石…

ZYNQ MPSOC浅说

1 MPSOC PL端 Zynq UltraScale MPSoC PL 部分等价于 FPGA。简化的 FPGA 基本结构由 6 部分组成&#xff0c;分别为可编程输入/输出单元、基本可编程逻辑单元、嵌入式块RAM、丰富的布线资源、底层嵌入功能单元和内嵌专用硬核等。 2 MPSOC PS端 MPSoC 实际上是一个以处理器为…

Quartz定时任务组件

官网&#xff1a;http://www.quartz-scheduler.org/ 1&#xff09;job - 任务 - 你要做什么事&#xff1f; 2&#xff09;Trigger - 触发器 - 做什么事&#xff0c;什么时候触发&#xff0c;可以传入任务 3&#xff09;Scheduler - 任务调度 - 可以传入多个触发器进行任务调…

软件测试之接口测试(Postman/Jmeter)

&#x1f345; 视频学习&#xff1a;文末有免费的配套视频可观看 &#x1f345; 点击文末小卡片&#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 一、什么是接口测试 通常做的接口测试指的是系统对外的接口&#xff0c;比如你需要从别的系统来…

动手学深度学习(Pytorch版)代码实践 -卷积神经网络-29残差网络ResNet

29残差网络ResNet import torch from torch import nn from torch.nn import functional as F import liliPytorch as lp import matplotlib.pyplot as plt# 定义一个继承自nn.Module的残差块类 class Residual(nn.Module):def __init__(self, input_channels, num_chan…

AI副业赚钱攻略:掌握数字时代的机会

前言 最近国产大模型纷纷上线&#xff0c;飞入寻常百姓家。AI副业正成为许多人寻找额外收入的途径。无论您是想提高家庭收入还是寻求职业发展&#xff0c;这里有一个变现&#xff0c;帮助您掌握AI兼职副业的机会。 1. 了解AI的基础知识 在开始之前&#xff0c;了解AI的基础…

【笔记】Spring Cloud Gateway 实现 gRPC 代理

Spring Cloud Gateway 在 3.1.x 版本中增加了针对 gRPC 的网关代理功能支持,本片文章描述一下如何实现相关支持.本文主要基于 Spring Cloud Gateway 的 官方文档 进行一个实践练习。有兴趣的可以翻看官方文档。 由于 Grpc 是基于 HTTP2 协议进行传输的&#xff0c;因此 Srping …

zabbix监控进阶:如何分时段设置不同告警阈值(多阈值告警)

作者 乐维社区&#xff08;forum.lwops.cn&#xff09;乐乐 在生产环境中&#xff0c;企业的业务系统状态并不是一成不变的。在业务高峰时段&#xff0c;如节假日、促销活动或特定时间段&#xff0c;系统负载和用户访问量会大幅增加&#xff0c;此时可能需要设置更高的告警阈值…
最新文章