近期,机电学院机器视觉团队在一区top期刊Pattern Recognition(IF:8.518), 以金职院为第一单位发表论文 An enhanced noise-tolerant hashing for drone object detection
在过去十年中,无人机(UAV)已广泛应用于地质灾害监测、智慧农业和城市规划等领域。在本项研究中,作者将多种属性融合到一个耐噪声的哈希框架中,该框架能够极快地从无人机图片中检测对象。该方法能够本质上灵活地编码每个目标对象的各种拓扑结构,基于此可以在不同视角和高度下发现多尺度对象。此外,通过协同利用 L_f 和 L_1 范数,计算出的哈希码对于低质量的无人机图片和嘈杂的语义标签具有鲁棒性。更具体地,对于每一张搭载无人机的图片,作者提取其中视觉上/语义上突出的对象部分。为了表征它们的拓扑结构,我们通过将空间相邻的对象片段链接成一个小图来构建一个图形组件(graphlet)。随后,设计了一个二进制矩阵分解(MF)来层次化地挖掘这些图形组件的语义,其中三个属性:i) 深度二进制哈希码学习,ii) 污染图片/标签去噪,及 iii) 自适应数据图更新被无缝整合。这种多属性二进制MF可以迭代求解,进而每个图形组件被转换为二进制哈希码。最后,每张无人机照片中的图形组件对应的哈希码被用于基于排名的对象发现。在 DAC-SDC、MOHR 及我们自编的数据集上的全面实验已证明了我们方法的速度和准确性。此外,还设计了一个精细的 FPGA 架构来计算我们的哈希码。平均而言,在4K无人机视频上(无时间建模)达到了每秒57帧的对象检测速度。
除了上述优势之外,该方法在四个方面包含如下后期工作。首先,确定哪些属性将被整合或放弃是特定于数据集的,这需要哈希模型设计者的领域知识作为前提条件。相应地,推导出目标函数的高效有效解决方案也是另一个难点。第二,尽管采用的 FPGA 架构便于实现,但它可能在性能上不及其他硬件平台,例如 Jetson AGX Xavier。实际上,在多个硬件平台上比较我们的算法需要相当的工程成本,这超出了本工作的范围。第三,经验结果表明, F-范数最小化可以很好地减轻高斯噪声的影响。然而,据我们所知,它不能最优地处理由快速无人机移动引起的脉冲噪声或运动模糊。最后,当前的对象检测图像集通常由多尺度框标注。基于这些训练我们基于图形组件的对象探测器是次优的。这是因为图形组件自然具有不同的形状,而框无法无缝覆盖它们。理想情况下,希望有一个训练图像集,其中每个目标对象对应的图形组件都被标注。显然,这将极大地促进我们无人机对象探测器的训练程序。基于上述讨论,论文作者计划1)将一套精炼的属性集成到我们的多属性哈希框架中,2)在极速体育直播,足球比分直播 AI 强化的硬件平台上重新实现我们的方法,以及3)编制一个具有每个目标图形组件级别标注的互联网规模无人机图片集。
机电学院机器视觉课题组自组建以来,一直致力于人工智能技术在无人机农业和智能交通方面的应用,目前该团队有博士3人,硕士3人。此外,机器视觉课题组与美国南加州大学、新加坡国立大学,中科院等国内外高校保持长期合作关系,这为该团队后期取得高层次项目与科研成果奠定了基础。