1000字范文 > 文献阅读-ICRA-用于机器人手术器械的实时细分的注意力引导的轻型网络

文献阅读-ICRA-用于机器人手术器械的实时细分的注意力引导的轻型网络

时间：2022-03-19 01:22:04

文章序号、所属单元及链接：0059-Computer Vision for Medical Robots

一作所属单位：中科院自动化所

读后体会：论文创新点：实时轻量、注意力机制、性能优异。

用于机器人手术器械的实时细分的注意力引导的轻型网络

AbstractIntroductionMethodologyA. 概览B. 轻量级注意力解码器C. 迁移学习D. 损失函数 Experimental and ResultA.数据集B.实验条件C. 结果：CATA7D. 结果：EndoVis Conclusions

Abstract

手术器械的实时分割在机器人辅助手术中起着至关重要的作用。但是，由于深度学习模型的高计算成本和缓慢的推理速度，因此实现深度学习模型以对手术器械进行实时分割仍然是一项艰巨的任务。在本文中，我们提出了一种注意力导向的轻型网络（LWANet），该网络可以实时分割手术器械。LWANet采用编码器-解码器体系结构，其中编码器是轻量级网MobileNetV2，解码器由深度可分离卷积，注意融合块和转置卷积组成。深度可分离卷积被用作构造解码器的基本单元，这可以减小模型大小和计算成本。注意融合块捕获全局上下文并编码通道之间的语义相关性以强调目标区域，从而有助于定位手术器械。执行转置卷积以对特征图进行上采样以获取精炼的边缘。LWANet可以实时分割手术器械，而所需的计算成本却很少。基于960*544输入，仅3.39 GFLOPs，其推理速度就可以达到39 fps。而且，它具有较小的模型大小，参数数量仅为2.06M。在两个数据集上对提出的网络进行了评估。它在Cata7上实现了94.10％的平均IOU的最新性能，并在EndoVis上创下了新记录，平均IOU增加了4.10％。

Introduction

近年来，在机器人辅助手术和计算机辅助手术中已经看到了显着的进步。外科手术器械的实时语义分割是外科手术机器人控制的关键技术之一。它可以准确地定位机器人器械并估计其姿势，这对于外科手术机器人导航至关重要。此外，分割结果可用于预测危险操作并降低手术风险，有助于实现机器人自主操作。此外，手术器械的语义分割可以为术后工作提供多种自动化解决方案，例如客观技能评估，手术报告生成和手术流程优化。这些应用程序可以提高手术的安全性并减少医生的工作量，这对临床工作具有重要意义。

最近，已经提出了用于外科器械的语义分割的一系列方法。CNN-RNN的混合方法引入了递归神经网络来捕获全局上下文并扩展接受域。RAS-Net 采用了一种注意机制来强调目标区域并改善特征表示。另一项工作将卷积神经网络预测和运动姿势信息融合在一起，以提高分割精度。但是，这些工作主要集中在融合不同形式的信息以提高分割精度，而没有考虑推理速度，从而限制了它们在外科手术机器人实时控制中的应用。

与常见的分割任务不同，外科器械的语义分割面临更多挑战。为了提供良好的视野，在手术期间需要强光条件，导致手术器械上出现严重的镜面反射。镜面反射可使外科手术器械变白并改变其视觉特征，例如颜色和纹理。网络无法通过这些已更改的特征来识别手术器械，从而使分割更加困难。此外，由于照明角度的变化，手术器械的移动以及人体组织的遮挡，阴影经常出现在视野中。手术器械和背景往往在阴影中变暗。这个问题不仅改变了手术器械的视觉特征，而且使得很难区分手术器械和背景。另外，有时由于运动和视野，手术器械的仅一部分出现在图像中，从而导致严重的类失衡。这些问题使外科器械的定位语义分割更具挑战性。

为了解决这些问题，引入注意的轻量级网络（LWANet）被提出用来实时分割手术器械。它采用编码器-解码器架构来获得高分辨率的mask，可以为机器人控制提供更多详细的位置信息。轻量级网络MobileNetV2 被用作编码器。它具有快速的推理速度，并具有强大的特征提取功能。此外，我们设计了一个轻量级的注意力解码器来恢复位置信息。深度可分离卷积（DSC）被用作构建解码器的基本单元。它将标准卷积分解为两部分，以减少计算成本和模型大小。为了更好地恢复位置细节，转置卷积用于在解码器中执行上采样。

注意融合模块（AFB）旨在融合高级和低级特征。它引入了全局平均池来捕获全局上下文并编码通道之间的语义依赖性。由于不同的通道对应于各种语义响应，因此该块可以通过通道之间的语义依赖性来区分目标区域和背景。通过强调特定的通道，它可以专注于目标区域并准确定位手术器械，有助于解决镜面反射和阴影问题以及提高分割精度。此外，注意力融合块仅需很少的计算成本，有助于提高推理速度。

我们的工作如下：

提出了一种以注意力为导向的轻型网络，以实时分割手术器械。它具有较小的模型大小，并且只需很少的计算成本。在960*544输入上仅使用3.39 GFLOP时，推理速度就可以达到39fps。因此，它可以应用于外科手术机器人的实时控制和实时计算机辅助手术。

注意融合模块旨在对通道之间的语义依赖性进行建模，并强调目标区域，这有助于外科手术器械的定位和语义细分。

提出的网络在Cata7上实现了最先进的性能94.10％的平均IOU，并在EndoVis 上创下了新记录，平均IOU增加了4.10％。

Methodology

A. 概览

由于计算资源的限制，深度学习模型在机器人中的应用非常困难。为了解决这个问题，我们提出了一种以注意力为导向的轻量级网络（LWANet），以实时分割机器人器械。它采用编解码器架构来获取高分辨率mask并提供详细的位置信息。LWANet的架构如图2所示。为了减少计算成本，轻量级网络MobileNetV2用作编码器以提取语义特征。它基于反向残差块，该块快速且具有存储效率。删除了mobilenetv2的最后两层，包括平均池化层和全连接的层。它们不适用于语义分割任务。MobilenetV2的输出比例为1/32原始图像。上采样必然会增加网络的计算成本。因此，轻量级注意力解码器被设计为恢复位置细节。它仅需很少的计算成本，有助于对手术器械进行实时分割。LWANet的输出比例为原始图像的1/4。

B. 轻量级注意力解码器

轻量级的注意力解码器包括深度可分离卷积，注意融合块和转置卷积。深度可分离卷积用作解码器的基本单元，有助于降低计算成本。注意融合块捕获全局上下文，并对通道之间的语义相关性进行编码，以关注目标区域。此外，采用转置卷积进行上采样。

1.深度可分离卷积：深度可分离卷积被用作解码器的基本单元，代替了标准卷积。深度可分离卷积将标准卷积分解为空间卷积(depthwise convolution)和通道卷积(pointwise convolution)，从而打破了Kernel大小与输出通道之间的相互作用，这样，可以减少计算成本。

2.注意融合块：引入了注意融合块以融合高级特征图和低级特征图。由于不同的通道对应于各种语义响应，因此引入了一种称为“挤压和激发”机制的通道注意机制，以对通道之间的语义依赖性进行编码。这种注意机制是分别对低级和高级特征执行的，以提取不同级别的注意特征，如图2（b）所示。这样，我们不仅可以在低级特征图中强调目标位置的详细信息，还可以在高级特征图中捕获全局上下文和语义信息，以改善特征表示。

3.转置卷积：：解码器恢复位置细节，并通过上采样获得高分辨率特征图。但是，上采样通常会导致边缘模糊并降低图像质量。为了解决这个问题，引入了转置卷积来执行上采样。它可以学习权重以适合各种对象，从而帮助保留边缘信息。这样，我们可以获取精炼的边缘并提高分割精度。

C. 迁移学习

手术视频或图像很难获得。而且，用于手术器械的注释花费大量时间和成本。因此，采用迁移学习策略来克服这一困难。我们使用其他任务的样本来提高手术器械的分割精度。在我们的网络中，编码器MobileNetV2 已在ImageNet上进行了预训练。ImageNet中的图像均来自生活场景。通过预训练，网络可以学习低级特征，例如对象的边界，颜色和纹理。这些功能也可以应用于手术现场。这样，编码器具有更好的提取低级特征的能力。然后在手术器械数据集上训练网络，以捕获器械的高级语义特征。此策略可提高网络性能并加速网络融合。