1000字范文 > CV Code|计算机视觉开源周报2004期

CV Code|计算机视觉开源周报2004期

时间：2021-07-22 06:35:20

五月第四周，盘点本周新开源或即将开源的CV代码，涵盖方向广泛，不仅涉及到技术创新，还涉及多种CV应用。

其中Facebook新目标检测框架DETR是本周最热的论文，开辟了目标检测新方向！

鲁汶大学等提出的无监督学习方法，精度已经接近全监督方法，注定要影响深远！

最近新出了好几篇密集目标检测的文章，微软也新提出并开源了HNMS模型，看起来很棒！

哈佛医学院等使用眼动数据推断人搜寻目标的技术则让人不寒而栗！

一定要看到最后，篇篇都精彩。

场景文本识别

#CVPR #

[1].SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

SEED：场景文本识别的语义增强型编码器-解码器框架

作者 | Zhi Qiao, Yu Zhou, Dongbao Yang, Yucan Zhou, Weiping Wang

单位 | 中国科学院大学；中国科学院

论文 |/abs/.10977

代码 |/Pay20Y/SEED(404)

音频识别动作

#CVPR #

[2].Listen to Look: Action Recognition by Previewing Audio

作者 | Ruohan Gao,Tae-Hyun Oh， Kristen Grauman，Lorenzo Torresani 单位 | 得克萨斯大学奥斯汀分校；FAIR

代码 | /facebookresearch/

Listen-to-Look

网站 | http://vision.cs.utexas.edu/projects/

listen_to_look/

3D人体形态估计

[3].PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization

PIFuHD：用于高分辨率3D人体数字化的多层次像素对齐隐含功能

通过充分利用1k分辨率的输入图像，在单幅图像的人体形状重建上，明显优于现有的最先进的技术。

作者 | Shunsuke Saito,Tomas Simon,Jason Saragih,Hanbyul Joo 单位 | 南加州大学；FAIR

论文 |/pdf/.00452.pdf

代码 |/shunsukesaito/PIFuHD

网站 |https://shunsukesaito.github.io/PIFuHD/

GAN

#CVPR #

[4].Learning to Simulate Dynamic Environments with GameGAN

学习使用GameGAN模拟动态环境

NVIDIA发明了一种新的GAN生成模型：GameGAN，只需要给其观看游戏画面和相应的键盘动作，就能学会生成能玩、能交互的游戏。

而且GameGAN还能分离游戏中的静态背景和动态组件，方便对游戏元素进行替换，生成新的、不存在游戏。

也许将来有一天，下载一个游戏不再几十、上百G的资源，而仅需要一个GameGAN就够了！

NVIDIA：无论你们玩游戏引擎支持的游戏还是GAN生成的游戏，反正都要用我的显卡！

作者 | Seung Wook Kim, Yuhao Zhou, Jonah Philion, Antonio Torralba, Sanja Fidler

单位 | NVIDIA，多伦多大学，Vector Institute，MIT（都是AI重量级单位）

论文 | /abs/.12126

代码 | https://nv-tlabs.github.io/gameGAN/

视频 | /watch?v=4OzJUNsPx60

网站 | https://nv-tlabs.github.io/gameGAN/

[5].Network Bending: Manipulating The Inner Representations of Deep Generative Models

Network Bending：操纵深层生成模型的内在表征

引入了一个新的框架，用于与深度生成模型交互和操作，称之为Network Bending。在FFHQ数据集上训练的官方预训练的StyleGAN2模型上演示了这些转换。

作者 | Terence Broad, Frederic Fol Leymarie, Mick Grierson

单位 | 伦敦艺术大学;伦敦大学

论文 | /abs/.12420

代码 | /terrybroad/network-bending

目标检测

#CVPR ##人员检测#

[6].RAPiD: Rotation-Aware People Detection in Overhead Fisheye Images

RAPiD：高空鱼眼图像中的旋转感知人员检测

波士顿大学提出一种在鱼眼图像中进行人员检测的新方法RAPiD，并开源了代码

RAPiD源代码可用于非商业用途。

作者 | Zhihao Duan, M. Ozan Tezcan, Hayato Nakamura, Prakash Ishwar, Janusz Konrad

单位 | 波士顿大学

论文 | /abs/.11623

代码 | http://vip.bu.edu/projects/vsns/

cossy/fisheye/rapid/

/duanzhiihao/RAPiD

数据集 | http://vip.bu.edu/projects/vsns/cossy/datasets/cepdof/

#ECCV 投稿论文# 本周影响最大的CV论文！

[7].End-to-End Object Detection with Transformers

基于Transformers的端到端目标检测

该文提出了一种新的方法，将目标检测看作是一个直接的集预测问题，简化了检测流水线，有效地消除了许多手工设计的组件，如非极大抑制（NMS）过程或anchor的生成，显式编码了对任务的先验知识。

作者 | Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko

单位 | Facebook AI

论文 | /abs/.12872

代码 | /facebookresearch/detr

模型的跨界：我拿Transformer去做目标检测，结果发现效果不错

#YOLO##实例分割##实时检测#

[8].Poly-YOLO: higher speed, more precise detection and instance segmentation for YOLOv3

Poly-YOLO:为YOLOv3提供更高的速度、更精确的检测和实例分割

YOLOv3升级版！

1）减少了参数，提供了精度。与YOLOv3相比，训练参数只有其60％，但mAP却提高了40％！还提出更轻量的Poly-YOLO Lite

2）扩展到实例分割任务上。

作者 | Petr Hurtik, Vojtech Molek, Jan Hula, Marek Vajgl, Pavel Vlasanek, Tomas Nejezchleba

单位 | 奥斯特拉发大学；

论文 | /abs/.13243

代码 | /irafm-ai/poly-yolo

[9].Hashing-based Non-Maximum Suppression for Crowded Object Detection

基于哈希的非极大值抑制拥挤目标检测法

在本文中，提出了一种算法，命名为基于哈希的非最大值抑制（HNMS），以有效地抑制目标检测中的非最大值方块。在CARPK、SKU-110K、CrowdHuman数据集上进行了大量实验，证明了HNMS的效率和效果。

微软出品，必属精品！

作者 | Jianfeng Wang, Xi Yin, Lijuan Wang, Lei Zhang

单位 | 微软

论文 | /abs/.11426

代码 | /microsoft/hnms

#水下目标检测#

[10].Underwater object detection using Invert Multi-Class Adaboost with deep learning

通过设计新算法解决小目标检测和减少噪声的影响，在两个水下机器人拾取竞赛数据集URPC和URPC进行的实验表明，与几种最先进的目标检测方法相比，提出的SWIPENet+IMA框架在检测精度上取得了较好的性能。

作者 | Long Chen, Zhihua Liu, Lei Tong, Zheheng Jiang, Shengke Wang, Junyu Dong, Huiyu Zhou

论文 | /abs/.11552

代码 | /LongChenCV/SWIPENet

NAS

[11].Noisy Differentiable Architecture Search

NoisyDARTS：含注入噪声的可微分神经网络搜索

本文为基于 FairDARTS 的后续工作。FairDARTS 中提出可微分神经网络搜索（ DARTS）性能崩塌的两个不可或缺的要素：竞争环境和不公平优势。FairDARTS 采取了打破竞争环境的方式，使各操作之间相互协作。本文从不公平优势入手，将跳接操作（skip connection）的输出特征注入噪声进行扰动。

小米在NAS领域不断有新工作，赞????

作者 | Xiangxiang Chu, Bo Zhang, Xudong Li

单位 | 小米; 中国科学院大学

论文 | /abs/.03566

代码 | /xiaomi-automl/NoisyDARTS （即将发布）

人类意图预测

#CVPRW ##零样本学习# #视觉搜索#

[12].What am I Searching for: Zero-shot Target Identity Inference in Visual Search

我在找什么？视觉搜索中的零样本目标身份推理

来自哈佛的学者通过解码一个人的眼动行为来破译一个人在寻找什么，给定受试者一幅目标图像，在多个不同的图像中让受试者去找这幅图片，记录眼动数据。尽管受试者在实验中没看到目标图像，但系统自动推断出他要找什么！

这是一个有意思而又有点可怕的实验！在计算机面前以后是不是我们的心思也无处隐藏？

作者 | Mengmi Zhang, Gabriel Kreiman

单位 | 哈佛医学院；Minds and Machines

论文 | /abs/.12741

代码 | /kreimanlab/HumanIntentionInferenceZeroShot（尚未）

视频 | /watch?v=rcWgWTwWDm0&feature=youtu.be

图像分类

#无监督学习#

[13].Learning To Classify Images Without Labels

学习无标签图像分类

该文方法的分类准确率以巨大的幅度超过了最先进的方法，特别是在CIFAR10上的分类准确率为+26.9%，在CIFAR100-20上为+21.5%，在STL10上为+11.7%。

此外，在ImageNet上的结果显示，这是第一个在200个随机选取的类上有很好的扩展性的方法，获得了69.3%的TOP-1和85.5%的TOP-5准确率，与全监督方法相差不到7.5%！！

无监督学习领域最近的重量级工作！代码即将公布。

作者 | Wouter Van Gansbeke, Simon Vandenhende, Stamatios Georgoulis, Marc Proesmans, Luc Van Gool

单位 | 鲁汶大学；苏黎世联邦理工学院

论文 | /abs/.12320

代码 | /wvangansbeke/

Unsupervised-Classification（即将）

目标跟踪

#CVPR (oral)##3D目标跟踪##点云#

[14].P2B: Point-to-Box Network for 3D Object Tracking in Point Clouds

点云3D目标跟踪的Point-to-Box网络（P2B），1080TI上40FPS

为了实现点云中的3D目标跟踪，提出了一种新型的Point-to-Box网络，称为P2B，以端到端学习的方式来实现。主要想法是首先在三维搜索区域内嵌入目标信息，将潜在的目标中心定位在三维搜索区域内。然后，点驱动的三维目标候选框和验证共同执行。通过这种方式，可以避免耗时的三维详尽搜索。

应用PointNet++作为骨干，在KITTI跟踪数据集上的实验证明了P2B的优越性(比最先进的改进约10%)。值得注意的是，P2B可以在单个NVIDIA 1080Ti GPU上以40FPS运行。

作者 | Haozhe Qi, Chen Feng, Zhiguo Cao, Feng Zhao, Yang Xiao

单位 | 华中科技大学

论文 | /abs/.13888

代码 | /HaozheQi/P2B

四维可视化

#CVPR #

[15].4D Visualization of Dynamic Events from Unconstrained Multi-View Videos

无约束多视角视频动态事件的四维可视化

提出了一种数据驱动的4D时空可视化方法，用于从手持式多摄像头拍摄的视频。该方法的关键是使用特定场景的自监督神经网络来构成事件的静态和动态描述。

作者 | Aayush Bansal, Minh Vo, Yaser Sheikh, Deva Ramanan, Srinivasa Narasimhan

单位 | 卡内基梅隆大学

论文 | /abs/.13532

代码 | /aayushbansal/Open4D

网站 | http://www.cs.cmu.edu/~aayushb/Open4D/

3D神经网络

[16].SurfaceNet+: An End-to-end 3D Neural Network for Very Sparse Multi-view Stereopsis

SurfaceNet+:一种用于非常稀疏的多视角立体视觉的端到端3D神经网络

实验证明了SurfaceNet+比最先进的方法在精度和召回好不少。在两个数据集的极端稀疏-MVS设置下，现有的方法只能返回极少的点，SurfaceNet+在密集的MVS设置下，仍然可以很好地工作。

作者 | Mengqi Ji, Jinzhi Zhang, Qionghai Dai, Lu Fang

单位 | 清华大学

论文 | /abs/.12690

代码 | /mjiUST/SurfaceNet-plus

在我爱计算机视觉公众号对话框回复“CVCode”即可获取以上所有论文下载地址。（网盘位置：Code周报--2004期）

感谢这些开源技术的开发者，喜欢这样的分享请文末点个“在看”！

往期"精彩阅读"

CV Code|计算机视觉开源周报2001期

CV Code|计算机视觉开源周报2002期

CV Code|计算机视觉开源周报2003期

END

备注如：目标检测

CV细分方向交流群

2D、3D目标检测、图像分割、检索、NAS等最新资讯，

若已为CV君其他账号好友请直接私信。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:amos@

网站:

在看，让更多人看到

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。