深度学习

2024/10/9 11:48:18

Transformer | Lung-DETR 提升图像识别率 !

前言 在典型的阳性案例中,结节仅在CT切片中的3%中出现,使得检测变得更加复杂。本文提出了一种名为 Lung-DETR 的肺肿瘤检测方法,将肺癌检测任务视为异常检测,目标为在主要为正常数据集中的结节出现。作者的新颖方法 Lung-DETR 将检测 Transformer 、Focal Loss和最大强度投…

【LLM大模型】大语言模型架构:LLM MoE :Switch Transformers

3.LLM MoE :Switch Transformers 0.前言 GPT-4远不止1万亿,甚至,还是8个2200亿参数组成的混合专家模型(MoE)。 2023年6月,美国知名骇客George Hotz在接受采访时透露,GPT-4由8个220B模型组成。…

各类AI工具编程能力测试对比

各类AI工具编程能力对比 现在各类AI工具火爆,擅长各类问题解决,闲来无事,验证下各类AI工具的编程能力如何。问题:c 实现杨辉三角,并main函数测试 kimi 对话窗口输入问题,得到了c的完整程序: …

论文《Improving your graph neural networks:A High-Frequency Booster》笔记

【CLAR 2022 ICDMW】作者指出,现有的GNN模型主要关注于消息传递机制,但这些模型往往受限于低通滤波器的局限,导致在多层堆叠时性能下降。为了解决这个问题,论文提出了一种新的正则化方法,称为补全拉普拉斯正则化&#…

免费的深度学习模型有哪些,实现原理和代码

在深度学习领域,许多免费的开源模型已经为研究人员和开发者提供了强大的工具。这些模型涵盖了从图像识别、自然语言处理、到强化学习等各类任务。本文将介绍几个常见的免费深度学习模型,包括它们的实现原理及简单的实现代码。 1. 卷积神经网络&#xff…

一文详解视觉Transformer模型压缩和加速策略(量化/低秩近似/蒸馏/剪枝)

视觉Transformer(ViT)在计算机视觉领域标志性地实现了一次革命,超越了各种任务的最先进模型。然而,它们的实际应用受到高计算和内存需求的限制。本研究通过评估四种主要的模型压缩技术:量化、低秩近似、知识蒸馏和剪枝…

在树莓派5上使用pytroch进行模型训练—全流程笔记

在树莓派上运行pytroch模型🚀 在完成了树莓派的一系列基础配置学习之后,按照规划,下一步要做的就是在树莓派上安装一个pytorch,尝试运行一下深度学习的模型,如果可以实现且准速度有一定保证的话,就可以作为…

增强现实中的物体识别与跟踪

增强现实(AR)中的物体识别与跟踪是实现虚拟内容与现实世界无缝融合的关键技术。以下是该领域的主要技术和方法概述: 1. 物体识别 1.1 特征提取 SIFT、SURF、ORB:传统的特征提取算法用于识别图像中的关键点并生成描述符&#xf…

YOLOv8改进 | 注意力篇 | YOLOv8引入CBAM注意力机制

1.CBAM介绍 摘要:我们提出了卷积块注意力模块(CBAM),这是一种用于前馈卷积神经网络的简单而有效的注意力模块。 给定中间特征图,我们的模块沿着两个独立的维度(通道和空间)顺序推断注意力图&…

通过非欧几何体改变 AI 嵌入

目录 一、说明 二、LLM嵌入的形势 三、了解一些背景信息 3.1 什么是嵌入? 3.2 为什么嵌入在 NLP 中很重要? 3.3 复数Complex 几何的角色 3.4 C主动学习 3.5 角度嵌入 (AE):解锁稳健排序 3.6 RotatE:将关系…

CPVT(ICLR 2023)论文解读

paper:Conditional Positional Encodings for Vision Transformers official implementation:GitHub - Meituan-AutoML/CPVT 存在的问题 位置编码的局限性:传统Transformer中的绝对位置编码(无论是可学习的还是固定的&#xff…

论文分享|MLLMs中多种模态(图像/视频/音频/语音)的tokenizer梳理

本文旨在对任意模态输入-任意模态输出 (X2X) 的LLM的编解码方式进行简单梳理,同时总结一些代表性工作。 注:图像代表Image,视频代表Video(不含声音),音频代表 Audio/Music,语音代表Speech 各种…

初步认识Vscode

4.26初步认识Vscode (一)快捷键的使用 1. 打开控制端 ctrl ~2. 结束终端 ctrl c3. 多行同时对齐输出 按住shift alt 光标多选4. 多行同时任意位置输出 按住alt 光标单点你想要输入的位置5. 代码太长了,想混行编辑 alt z6. 打开设置控制…

DeepViT:字节提出深层ViT的训练策略 | 2021 arxiv

作者发现深层ViT出现的注意力崩溃问题,提出了新颖的Re-attention机制来解决,计算量和内存开销都很少,在增加ViT深度时能够保持性能不断提高 来源:晓飞的算法工程笔记 公众号 论文: DeepViT: Towards Deeper Vision Transformer 论…

集智书童 | 英伟达和斯坦福基于 Transformer 的异常检测最新研究!

本文来源公众号“集智书童”,仅用于学术分享,侵权删,干货满满。 原文链接:英伟达和斯坦福基于 Transformer 的异常检测最新研究! 在作者推动各种视觉任务性能边界的同时,模型的大小也在相应增长。为了跟上…

【AI知识点】词嵌入(Word Embedding)

词嵌入(Word Embedding)是自然语言处理(NLP)中的一种技术,用于将词语或短语映射为具有固定维度的实数向量。这些向量(嵌入向量)能够捕捉词语之间的语义相似性,即将语义相近的词映射到…