基于Transformer的医学图像分类研究

医学图像分类目前面临的挑战

  1. 医学图像分类需要研究人员同时具备医学图像分析和数字图像的知识背景。
  2. 由于图像尺度、数据格式和数据类别分布的影响,现有的模型方法,如传统的机器学习的识别方法和基于深度卷积神经网络的方法,取得的识别准确度和泛化性是有限的。
  3. 实际场景中,由于医学图像数据的标记成本问题和病例医学图像采集问题,能够获得的有标签医学图像数据是有限的。

现有的医学图像分类方法

  1. 基于统计的分类。分为有监督和无监督两种方式。有监督的统计分类方式通常会将数据划分成训练集和测试集,然后来预测数据的类别标签。常见的概率算法(有监督):最近邻算法、贝叶斯算法;无监督则通过特征分布来区分数据的类别:K均值聚类和模糊聚类算法。
  2. 基于规则的分类。根据设定的一系列规则对特征向量进行分析,后续的过程根据任务的属性设置相应的决策。
  3. 支持向量机。核心思想是寻找给定两个类别之间的最优分离边界。SVM不仅可以用于线性分类场景,还可以在核函数的基础上进行非线性的分类

基于神经网络的分类模式是目前主流的医学图像分类方式,它也可以分为有监督和无监督两种方式。
  1. 有监督的情况下,训练神经网络使得它为每个输入数据分配一个类别标签,然后通过神经网络的预测输出和实际标签之间的误差(即损失函数)来调整神经网络的参数。
  2. 在无监督的情况下,训练样本并不需要有明确的标签信息,神经网络主要探究数据的底层结构和类别实例之间的关联性,根据样本的相似度或不相似度将其划分为一个个簇。

卷积神经网络在医学成像分类过程中的使用方式:

  1. 直接进行训练;
  2. 迁移学习或者微调;
  3. 特征提取器(深度卷积神经网络会移除分类层,将卷积层的输出作为输入图像的特征表示)

卷积神经网络结构

残差网络

模型网络的层数过少会导致训练误差变大,然而不断增加网络层数在可能会带来模型效果的提升的同时也会导致在训练过程过程中网络梯度消失或爆炸的问题。这是因为当网络过深时,由于反向传播过程中导数不断连乘,网络参数的梯度在这过程中会逐渐趋于零或者无穷大,导致网络参数无法进行有效更新。

64通道卷积神经网络

64通道卷积神经网络由四个卷积模块组成,每个卷积模块都包含了一个卷积层、一个批归一化层和一个激活层。此外,对于前两个卷积模块,它们还包含一个额外的2*2最大池化层。卷积层对应的卷积核大小为3*3,通道数为64,卷积核在特征图上的滑动步长为1.

批归一化层在这里的目的是为了对每一批处理的数据进行约束,在一定程度上减少了模型在训练过程中发生过拟合的风险,增强模型的泛化能力。

激活层则是为模型引入非线性元素,同时对于模型参数反向传播时出现梯度消失和爆炸现象起着一定的缓解作用。前两个卷积模块包含的最大池化层主要的作用是对特征图进行下采样。

Transformer

整体结构

编码器由N个相同的编码层组成,每个编码层包含两个子层,分别是多头自注意力层和一个简单全连接前馈网络。同时两个子层之间采用了跳跃连接的方式,并在每个子层之后采用归一化层

每个层对应的输出为:LayerNorm(x+SubLayer(x)),其中SubLayer(x)表示子层。

对于解码器,由N个相同解码层组成。解码层由三个子层组成,解码层比编码层多一个多头自注意力子层。增加的多头自注意力层主要用来执行输出的注意力捕获,这三个子层也采用了跳跃连接的方式进行组织。

多头自注意力模块

多头注意力模块包含多个自注意力模块,它们在通道维度进行拼接,以建模输入序列中不同元素之间的关系

自注意力模块的softmax对应的计算复杂度是关于输入序列长度的平方,因此在输入序列长度过大时会消耗较大的计算资源。

位置编码

由于 Transformer 结构中不包含卷积和递归结构,所以为了使得模型能够利用输入序列的顺序信息,需要引入位置编码来表示元素在序列中的相对位置。位置编码的维度和输入以及输出的嵌入向量一致,所以可以直接相加作为编码器和解码器的输入。

视觉Transformer

ViT首先将输入图像进行转变成一组切片序列,然后将其输入到标准的Transformer的编码器中进行处理,以实现不同的下游任务。

自动化机器学习

自动化机器学习任务的组成包括机器学习算法的选取、结合、以及参数化处理过程。
自动化机器学习方法主要由两个部分组成:一个是搜索空间模型,另一个是遍历搜索空间的优化器

自动化机器学习的目标是在学习工具上构建一个高级别的控制器,用来找到合适的特征、模型以及算法的参数配置。

自动化特征工程的目标是构建一个提升后续模块表现的特征集。

特征金字塔Transformer模型

为了便于理解医学图像分类任务的主要目标,首先建立一个医学图像分类任务的定义。对于给定大小 H × W 且通道数为 C 的输入图像 x R H × W × C ,在MedMNIST 中 H = W = 28 并且 C = 1 3 ,医学图像分类的目标是准确识别图像在对应数据集中的种类 y。
\hat{y}=G(x)
其中, \hat{y}指的是类别预测输出。

模型组件

深度残差网络和Vision Transformer,两个组件分别对应了特征提取和特征建模能力。

Res-Net-18主要由八个基本块组成,每两个基本块组成一个基本层(basic layer)。一般来说,浅层网络主要提取比较泛化的特征信息,而深层网络则可以提取到输入图像更具有特征的特征信息。

Vision Transformer组件则是将一张图像处理成相同尺寸的多个切片,然后被输入到Transformer中。给定一张图像x\in R^{H\times W\times C},它经过变换后成为一系列展平的切片x_{p} \in R^{N\times(P^{2}C)},其中,(P,P)表示每个切片的大小。

一张图像通常首先会被输入到一个卷积神经网络中提取特征,然后模型根据输出的特征图进行分类。神经网络的不同层具备不同的特征信息,但是目前大多数模型都是基于深层特征进行预测。

 整体模型

模型将ResNet-18中的基本层作为特征提取器,将获取的CNN特征图展平为一个线性序列。

模型可以充分使用深度神经网络中低层、中层以及高层的特征输出来进行预测。使用基本层作为特征提取器能够取得比直接使用Vision Transformer更好的效果。

对于ResNet的四个基本层,可以使用符号 B1, B2, B3, B4 来进行表示,同时每个基本层都被看作一个特征提取器

B_{i}=g(B_{i-1})+f(g(B_{i-1})),i=2,3,4

x为输入特征,f表示基本块的一系列运算操作,g表示残差连接,并且g(.)=.+f(.)。各层的输出可以被建模为通过不同尺度来观察输入图像。

多尺度融合决策

对于四个不同层的输出,选取前三个尺度的特征图(B1,B2,B3)并将其输入到三个浅层的ViT中。对于最后一个尺度的特征图输出(B4),它被保留在ResNet-18的原始路径中。

对于Transformer路径部分,首先将输入{b_{i}\in B_{i}\mid i=1,2,3}变换成一系列展平的2D切片,每块切片的大小都为1*1,之后利用可训练的线性投影将矢量化切片映射到一个D维的嵌入空间中。同时,为每个切片添加位置嵌入来保持切片在原图中的位置信息。

Transformer的编码器主要包含两个组件:多头自注意力结构和多层感知机(MLP)模块。通过编码器的处理后,可以获取激活函数a,其处理过程

 对于ResNet原路径部分,最后一层的特征图被输入进一个池化层和一个线性层。最后一层对应的激活向量a_{4}=F_{linear}(F_{pool}b4),b_{4}\in B_{4},接着将四个激活向量进行拼接,并且将最终的预测通过一个softmax或sigmoid函数进行处理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/496618.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

2024第六届环境科学与可再生能源国际会议能源 (ESRE 2024) 即将召开!

2024第六届环境科学与可再生能源国际会议 能源 (ESRE 2024) 即将举行 2024 年 6 月 28 日至 30 日在德国法兰克福举行。ESRE 2024 年 旨在为研究人员、从业人员和专业人士提供一个论坛 从工业界、学术界和政府到研究和 发展,环境科学领域的专…

Kubernetes 知识体系 系列一

多年前,大多数软件应用程序都是大型的单体,要么作为单个进程运行,要么作为少数服务器上的少量进程运行。这种过时的系统一直延续很久。 它们的发布周期较慢,更新相对较少。 在每个发布周期结束时,开发人员将整个系统…

算法第三十四天-有效数独

有效数独 题目要求 解题思路 一个简单的方法是,遍历9*9书读三次,以确保: 行中没有重复的数字列中没有重复的数字3*3子数独中没有重复的数字 但是,实际上,所有的一切都以可以在一次迭代中完成 可以使用box_index (r…

网约车APP小程序源码代驾顺风拼车货运司乘端安卓苹果源码可二开

内容目录 一、详细介绍二、效果展示1.部分代码2.效果图展示 一、详细介绍 系统是基于Thinkphpuniapp开发的,全开源未加密,这套源码可以拿回去自己做二开 后台用户端司机端 功能详情介绍: 车主实名认证,驾驶证认证,车…

Python列表、元组、字典及集合

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 一、列表定义方式: 二、元组1、定义方式:2、元组中的物理存储地址不可修改,如果修改则会报错,但是元组中的列表、字典项等却可以…

代码随想录算法训练营第三十七天 | 738. 单调递增的数字、968. 监控二叉树

代码随想录算法训练营第三十七天 | 738. 单调递增的数字、968. 监控二叉树(待刷) 738. 单调递增的数字题目解法 968. 监控二叉树(待刷) 738. 单调递增的数字 题目 解法 class Solution { public:int monotoneIncreasingDigits(in…

File和IO流

1. File类常用方法 1.1 获取基本属性 • public String getName() :获取名称 • public String getPath() :获取路径 • public String getAbsolutePath():获取绝对路径 • public File getAbsoluteFile():获取绝对路径表示…

嵌入式培训3-28

编写一条学生链表&#xff0c;写一些能够像链表里边添加数据的函数 实现&#xff1a;将链表中的所有内容保存到文件中去 以及 读取文件中的所有内容&#xff0c;加载到链表里面 #include <stdio.h> #include <string.h> #include <stdlib.h> #include <ma…

AD学习笔记

1. EOS 选择中心点 2. PDL 标记距离 3. 选择线框&#xff0c;按DSD重新定义板框 4. su框选&#xff0c;sl线选 5. mx x/y轴移动 6. dk 打开层叠管理器 7. shifts单层显示 8. 单端引脚不报错&#xff0c;CO工程选项下关闭报错即可。 9. PCB界面中寻找元件&#xff1a;…

蓝桥杯 - 小明的背包3(多重背包)

解题思路&#xff1a; 动态规划 多重背包问题需要在01背包问题&#xff08;不重复&#xff09;的基础上多加一层循环进行遍历&#xff0c;并且dp[ j ]的式子也需要修改 import java.util.Scanner;public class Main {public static void main(String[] args) {Scanner scan …

【JavaSE】网络编程

定义&#xff1a;在网络通信协议下&#xff0c;不同计算机上运行的程序&#xff0c;进行的数据传输 常见的软件架构&#xff1a; C/S&#xff1a;Client/Server&#xff08;客户端/服务器&#xff09; 在用户本地需要下载并安装客户端程序 画面可以很精美&#xff0c;用户体…

【面试经典 | 150】单词拆分

文章目录 Tag题目来源解题思路方法一&#xff1a;动态规划 写在最后 Tag 【动态规划】【字符串】 题目来源 139. 单词拆分 解题思路 方法一&#xff1a;动态规划 定义状态 定义 dp[i] 表示字符串 s 前 i 个字符组成的字符串&#xff08;s[0, ..., i-1]&#xff09;是否能被…

7.JDK下载和安装

文章目录 一、下载二、安装三、JDK的安装目录介绍 写JAVA代码不是随随便便能写的&#xff0c;我们得先做一点准备工作。例如&#xff0c;我们平时想要玩一把游戏&#xff0c;就需要先下载、安装才能玩游戏。JAVA也是一样的&#xff0c;也是需要下载并安装相关的软件&#xff0c…

2010-2021年银行网点及员工信息数据

2010-2021年银行网点及员工信息数据 1、时间&#xff1a;2010-2021年 2、来源&#xff1a;整理自csmar 3、指标&#xff1a;银行代码、股票代码、银行中文简称、统计截止日期、分行数量、机构网点数量、其中&#xff1a;境内网点数量、其中&#xff1a;境外网点数量、在职员…

[疑难杂症2024-002]一个“显而易见“的问题,是如何进入生产环境的?

本文由Markdown语法编辑器编辑完成。 1. 前言 最近在处理一个在医院上线的系统的问题。这个问题&#xff0c;由于关联的模块比较多&#xff0c;至少涉及到3个模块之间的功能调用。因此&#xff0c;协调大家都有时间来排查问题不是很方便。这个问题就拖了有一周左右。医院那边…

2024-03-28 Quest3 开发环境配置教程

文章目录 准备条件1 登录 Meta 账号2 Oculus 软件下载与配置3 下载 Quest3 开发包4 Unity 环境配置环境测试 准备条件 Quest3 头显一个。一根 USB 3.0 数据线。魔法。 ​ 有关 quest3 激活与配置可参考 B 站 UP &#xff1a;“南七月nqy_”。跳转链接&#xff1a;https://spa…

Exception in thread “main“ com.fasterxml.jackson.databind.JsonMappingException:

问题&#xff1a;jaskson反序列化超出最大长度 Caused by: com.fasterxml.jackson.core.exc.StreamConstraintsException: String length (5043456) exceeds the maximum length (5000000) 场景&#xff1a;前端传递过大base64 原因&#xff1a; jaskon默认已经限制了最大长…

货币系统(闫氏DP分析法)

题目描述&#xff1a; 给定 V 种货币&#xff08;单位&#xff1a;元&#xff09;&#xff0c;每种货币使用的次数不限。 不同种类的货币&#xff0c;面值可能是相同的。 现在&#xff0c;要你用这 V 种货币凑出 N 元钱&#xff0c;请问共有多少种不同的凑法。 输入格式&am…

路由的完整使用

多页面和单页面 多页面是指超链接等跳转到另一个HTML文件,单页面是仍是这个文件只是路由改变了页面的一部分结构. 路由的基本使用 使用vue2,则配套的路由需要是第3版. 1)下载vue-router插件 2)引入导出函数 3)new 创建路由对象 4)当写到vue的router后只能写路由对象,因此只…

CImage 类及其常用成员函数用法实例详解 一

Cimage类是一个用于处理图像的类&#xff0c;它的主要用途是方便地创建、编辑、保存和显示图像。Cimage类支持多种图像文件格式&#xff0c;包括BMP、GIF、JPG、PNG和TIF等。较CBitmap类使用起来更方便。其构造函数及成员函数如下&#xff1a; 下面详细说明CImage常用成员函数的…
最新文章