近日,计算机学院(软件学院)、人工智能学院马颖东课题组在基于Transformer结构的图像分割方面取得了新的进展,研究成果以 “TFRNet: Semantic Segmentation Network with Token Filtration and Refinement Method”为题,发表于国际跨媒体智能领域顶级期刊IEEE Transactions on Multimedia上,内蒙古大学为唯一完成单位。该刊是中国人工智能学会认定的A类期刊,中科院1区TOP期刊。
图像分割类应用(包括语义分割、实例分割、显著物体检测等)既要提取图像细节信息计算高质量分割掩码图,又依赖于图像的全局信息以实现场景识别。最近提出的基于视觉Transformer结构方法依靠自注意力机制的全局建模能力,显著提高了图像分割的准确率。但是视觉Transformer结构存在计算复杂度高、缺少细节信息等局限性,难以获得像素级分割结果。
文章针对基于Transformer结构图像分割领域存在的上述问题,利用特征筛选方法,筛选出重要特征并增强重要特征在网络中的权重,解决了现有Transformer分割方法计算复杂,结果不够准确的问题。同时将Transformer特征与卷积神经网络特征融合,进一步精炼分割结果。实验结果表明,此方法在不同的图像分割数据集上都取得了显著的性能提升。
该研究得到了国家自然科学基金的资助,论文链接:https://ieeexplore.ieee.org/document/10474206
素材来源:计算机学院(软件学院)、人工智能学院 编辑:李文娟 审核:刘雪峰