Hyper-YOLO: When Visual Object Detection Meets Hypergraph Computation

news/2025/5/16 8:51:30/

简介:

时间:2025

期刊:TPAMI

作者:Yifan Feng, Jiangang Huang, Shaoyi Du, Shihui Ying, Jun-Hai Yong

摘要:

①Hyper-YOLO引入一种新的目标检测方法,结合超图计算捕捉视觉特征中的复杂高阶相关性

②为解决传统的YOLO模型在 Neck 结构上的局限,提出了HGC-SCS框架

创新点:

①提出HGC-SCS框架:结合超图计算和高阶信息建模,实现更强的特征表达能力

②设计HyperC2Net(改进 YOLO Neck 结构):突破传统YOLO仅限于相邻层特征融合的局限,实现更高效的信息传播

③引入MANet改进 Backbone:结合不同类型的卷积(标准卷积、深度可分卷积、C2f 模块)提升特征提取能力

方法:

HGC-SCS 框架:

HGC-SCS(Hypergraph Computation Empowered Semantic Collecting and Scattering)是 Hyper-YOLO 的核心框架,主要功能包括语义特征收集、超图计算、语义散射。

过程:

①采用超图构造函数来估计语义空间中特征点之间潜在的高阶相关性

②利用光谱或空间超图卷积方法,通过超图结构在特征点之间传播高阶信息,生成

③将高阶关系信息集成到中,生成的混合特征映射,由融合产生

语义特征收集:

跨多个层(B1, B2, B3, B4, B5)收集 Backbone 提取的特征

通过矩阵拼接(Concatenation)形成混合特征表示

超图计算:

①通过基于距离的超图构建生成超图结构

通过执行五个基本特征的通道级连接来启动该过程,从而合成跨层视觉特征。

超边构造:

表示所有特征点的集合,每个顶点都会有一个对应的超边

某个特征点的邻居集合可表示为

所有与 之间的距离小于ϵ的点(相似性高的),都会被包含在超边中

②使用超图卷积进行高阶信息传播,生成增强特征

 两阶段超图信息传递的矩阵表达式:

语义散射:

将网格特征分解为语义空间中的一组特征点,并基于距离构建超边缘,从而允许高阶消息在点集中不同位置的顶点之间传递。结合超图特征和不同层的 Backbone 特征 进行融合,得到最终检测特征

MANet:

MANet作为Hyper-YOLO的Backbone改进模块,目标是增强特征提取能力

特点:

结合 1×1 通道重校准卷积、深度可分离卷积(DSConv)、C2f 模块

通过混合不同类型的卷积操作,实现更强的信息流动

采用跳跃连接,确保梯度流动稳定

流程:

最终特征拼接后的

HyperC2Net:

HyperC2Net 负责跨层、跨位置信息传播。

主要特点:

采用超图构建(Hypergraph Construction)生成高阶特征关系

通过超图卷积(Hypergraph Convolution)在语义空间中传播信息

采用底部向上(Bottom-Up)信息融合,使特征信息更全面

结论:

Hyper-YOLO 通过引入超图计算和高阶特征建模,有效增强了 YOLO 模型的目标检测能力:突破传统 YOLO 仅限于相邻层特征融合的局限;提升跨层 & 跨位置信息传播能力;在 COCO 数据集上取得 SOTA 级别性能。

HyperYOLO的主干,C2f模块被MANet模块取代,MANet采用深度可分离卷积,增加通道数

Hyper2net通过对每个模型尺度采用不同的距离阈值来相应地调整其方法,根据模型规模和特征点分布动态调整阈值


http://www.ppmy.cn/news/1578803.html

相关文章

AI浪潮下嵌入式软件开发如何拥抱AI:VSCODE + MarscodeAI插件+Embedded IDE

一、引言 AI浪潮席卷各个领域,各领域都在探索与AI技术深度融合以创新并提升效率。嵌入式软件开发领域同样面临此机遇与挑战。VSCODE作为流行的开源代码编辑器,与MarscodeAI插件、eide相结合,为嵌入式软件开发的AI融合提供了新思路与方法。 二…

Diffusion-Probabilistic-Models环境配置

1、相关地址 代码地址:https://github.com/Sohl-Dickstein/Diffusion-Probabilistic-Models 论文地址:https://arxiv.org/abs/2006.11239 2、python2.7 环境安装 conda create -n theano python2.7 -y conda activate theano3、包安装 下载合适的版本,也就是201…

简要分析NETLINK_USER参数

NETLINK_USER是Linux Netlink协议族的一个预留类型,允许开发者自定义用户空间与内核空间(或用户空间进程间)的通信协议。它提供了一种高度灵活的IPC机制,适合于需要高效、结构化、双向通信的场景,尤其是当现有Netlink …

Docker基础入门(一)

初识Docker 什么是Docker Docker是一个快速交付应用、运行应用的技术: 可以将程序及其依赖、运行环境一起打包为一个镜像,可以迁移到任意Linux操作系统运行时利用沙箱机制形成隔离容器,各个应用互不干扰启动、移除都可以通过一行命令完成&…

VSCode 配置优化

Visual Studio Code(VSCode)是一款功能强大且高度可定制的代码编辑器。通过合理的配置和优化,可以显著提升开发效率。以下是一份详细的 VSCode 配置优化指南,涵盖常用设置、扩展推荐、快捷键优化等内容。 1. 基本设置优化 通过修…

基于django+vue的购物商城系统

开发语言:Python框架:djangoPython版本:python3.8数据库:mysql 5.7数据库工具:Navicat11开发软件:PyCharm 系统展示 系统首页 热卖商品 优惠资讯 个人中心 后台登录 管理员功能界面 用户管理 商品分类管理…

Python从入门到精通1:FastAPI

引言 在现代 Web 开发中,API 是前后端分离架构的核心。FastAPI 凭借其高性能、简洁的语法和自动文档生成功能,成为 Python 开发者的首选框架。本文将从零开始,详细讲解 FastAPI 的核心概念、安装配置、路由设计、请求处理以及实际应用案例&a…

反射、 Class类、JVM的类加载机制、Class的常用方法

DAY11.1 Java核心基础 反射 重点和难点,应用面很广 大部分库和框架都需要用到反射机制,它是动态语言的关键,但是概念抽象不好理解 反射:通过实例化类映射到类,从而获取类的信息 概括说就是:常规情况是…