2023国际青年设计师邀请赛将于9月17日举行
第19届国际计算机视觉会议(International Conference on Computer Vision (ICCV) 2023)于2023年7月14日公布了论文接收情况,澳门科技大学创新工程学院计算机科学与工程学院的多篇论文获接收。ICCV是最顶尖的人工智能与计算机视觉方向的国际会议之一。
创新工程学院计算机科学与工程学院梁延研副教授、万军特聘副教授、张渡讲座教授团队今年被ICCV2023接收了三篇论文,第一作者分别为创新工程学院计算机科学与工程学院研究生朱震威、杨俪莹及周本加,通讯作者分别为梁延研副教授和万军副教授。这是近年来澳科大在计算机科学和人工智能相关学科方面对培养人才和科学研究的重要成果。
(资料图片)
这是继在多个人工智能国际顶尖会议(如:Association for the Advancement of Artificial Intelligence (AAAI) Conference on Artificial Intelligence, International Joint Conference on Artificial Intelligence (IJCAI), IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR))上发表论文后,澳科大科研团队在人工智能国际顶尖会议上取得的又一新突破,也是澳科大作为第一单位首次于ICCV发表研究论文。上述会议均得到中国计算机学会推荐并评级为人工智能领域的A类会议(注:A类为最高级别,中国计算机学会对该类别的定义是国际上极少数的顶级刊物和会议,鼓励我国学者去突破)。
研究论文得到国家科技部-澳门科技发展基金联合项目“通用视觉模型关键技术研究”(0070/2020/AMJ)、澳门科技发展基金面上项目“增强现实中的关键技术研究”(0004/2020/A1)和广东省重点领域研发计划项目“虚拟现实核心引擎关键技术平台研发及产业化”(2019B010148001)资助。
三篇论文题目和摘要如下:
1. UMIFormer: Mining the Correlations between Similar Tokens for Multi-View 3D Reconstruction.
近年来,Vision Transformer结合空间-时间解耦的特征提取方法在视频处理任务上取得突破。同样作为应对多张图像输入的问题,多视角3D重建任务却无法直接继承这种方式。这是因为无序的视角之间关联性完全不确定,并没有类似于视频数据中时序相关性的先验条件可用。为了解决这样的问题,我们提出了UMIFormer——一个全新的transformer网络用于处理无序的多张图像输入。该结构利用Transformer块做解耦的视图内编码,并依赖我们设计的token校正块,挖掘不同视角之间相似tokens的关联性,以实现解耦的视角间编码。之后,再次依据相似性,将从各个视角分支获取的tokens压缩为固定大小的紧致表示,同时保留丰富的信息用于重建。在ShapeNet数据集上,我们验证了所提出的解耦学习方式确实适用于处理无序的多张图像。同时,我们的模型也大幅优于现有的最好方法。
多视角输入的相似性Token示意图,挖掘相似的Token有利于将相似信息形成关联
所提出的方法架构
2. Gloss-free Sign Language Translation: Improving from Visual-Language Pretraining.
这篇文章中我们提出了一种不需要依赖Gloss 标注信息(gloss-free)的手语翻译(SLT)方法: GFSLT-VLP。Sign Language Gloss 信息的标注需要花费巨大的人力物力成本,而且还需要专门的语言专家进行细粒度标注。这导致当数据规模比较大时,这种标注浪费资源且工程巨大。本文提出的Gloss-free SLT方法首次实现了在完全不需要依赖Gloss标注的情境下,显著缩小了与Gloss-based 方法之间的性能差距。整个方法包含两个关键步骤:(i)将多模态预训练领域的视文对比学习范式(CLIP)和NLP领域的掩码自监督学习范式(MSL)结合到一起预训练视觉编码器(Visual Encoder)和文本解码器(Text Decoder)。(ii)构建一个端到端的SLT模型架构,它具有类似编码器-解码器的结构,并继承了第一阶段学习到的视-文知识,从而有效地捕获到语言知识引导的手势特征。这些新颖设计的无缝结合形成了鲁棒的手语表示,并显著提高了Gloss-free手语翻译的性能。
两种不同的SLT方法。 (a)使用Gloss序列作为中间表示,例如,sign2gloss2text(直接),Sign2Text(间接);(b)在整个训练/推理过程中不使用Gloss信息
所提出的方法架构。(a)第一阶段进行视-文预训练; (b)继承视-文知识并进行端到端的手语翻译任务
3. Long-Range Grouping Transformer for Multi-View 3D Reconstruction.
目前,Transformer在许多计算机视觉任务中都表现出了优越的性能。在遵循这一范式的多视图三维重建算法中,当面对大量的视图输入时,自注意力需要处理包含大量信息的复杂图像令牌。信息内容的爆炸导致模型学习的难度极大。为了缓解这个问题,最近的方法压缩了表示每个视图的令牌,或者放弃计算不同视图令牌之间的注意力。显然,它们会对性能产生负面的影响。因此,我们提出了基于分而治之原则的长距离分组注意力(LGA)。来自所有视图的令牌都会被分组,以进行单独的注意力操作。每个组中的令牌从所有视图中采样,并且可以为当前视图提供宏观表示。不同组间的多样性确保了特征学习的丰富性。我们通过使用LGA连接视图间特征,并使用标准的自注意力层提取视图内特征,提出一种高效的编码器。 此外,我们设计出一个新颖的渐进式上采样解码器,用于生成具有相对高分辨率的体素。基于以上内容,我们最终构建出一种基于Transformer的网络,命名为LRGT。在ShapeNet数据集上的结果证明LRGT在多视图三维重建任务中达到了卓越的性能。
提出的方法架构
标签:
- 2023国际青年设计师邀请赛将于9月17日举行
- 《原神》3.8版罗莎莉亚培养指南 罗莎莉亚怎么培养?
- 《中国•考古》第二集揭秘 原来唐代墓室是这个样子
- K755/6次列车:党员当先锋 暑运展作为
- 四川联通各级工会开办暑期职工子女托管班
- IMF上调2023年全球经济增长预期至3.0%
- 提前退休的特殊工种都包括哪些工种 答案在这里
- 昇辉科技:暂时未有涉及汽车及汽车零部件相关业务
- 目前黄金价格多少钱(2023年7月27日)
- 1-6月全国规模以上工业企业利润下降16.8%
- 第十六届香港青少年军事夏令营正式开营
- 艺术|再述巾帼英雄故事,舞剧《花木兰》重返京城舞台
- 广州新开工民用建筑100%执行绿色建筑标准
- 河南鲁山:做好“土特产”文章 “贫瘠地”变身“金土地”
- 奥迪欲购买国产电动车平台
- 没皱纹到重度皱纹,适用的医美有什么区别?
- 方正证券:下半年流动性将维持宽松 数字经济AI会迎来反弹行情
- 新时达7月12日快速反弹
- 中考742分选择职业教育引争议?这不过是个人选择
- 7月11日基金净值:广发聚瑞混合A最新净值3.8532,涨2.11%
- 郑州昨晚发布暴雨红色预警 今日局地仍有强对流天气
- 存储产业链加速国产替代化 芯片龙头ETF(516640)大涨2.4%
- 【2023市县人大行】践行全过程人民民主 安庆市人大打造100个基层实践点
- 朋友爱上了这款包包,苔藓针饺子包编织教程,挺括有型新颖别致
- 长春女曲姑娘摘银心有不甘,泪洒赛场 主教练鞠晓玉:这是成长的代价,她们已经很棒了!
- 2-0!洋枪伤了土炮也能进球!距榜首4分,成都蓉城争冠希望重燃
- 【何以中国·了不起的文明遗存】古代第一条“高速公路”,荒草难掩的奇迹
- 中国通号:参建的广汕高铁正式启动联调联试
- 多位专家汇聚南宁探讨ADLS新技术
- 安徽省首家“四省边际城市就医服务便捷区”架起异地就医服务“快速通道”
- 《高山清渠》播出过半 李健用真实形象诠释黄大发的奋斗轨迹
- 现实题材电视剧《分界线》8月1日播出 何冰张国强强手过招
- 花篮的花儿香!民族歌剧《唱响南泥湾》在保利剧院迎来首演
- 韩国电信公布未来五年非基础设施投资预算拨出12万亿韩元
- 冰墩墩设计者给北京四中学生回信:祝福可爱奋进的中国少
- 江苏南通发现1人检测结果呈阳性 系外地返通人员
- 湖南郴州报告2例香港返湘人员新冠肺炎确诊病例
- 广西百色疫情社区传播链基本阻断
- 广西新增1例本土确诊病例 本轮本土疫情累计报告确诊病例
- 葫芦岛市两医院不再收治非绥中地区患者 就医患者闭环管理
- 苏州14日新增本土确诊1例,无症状感染者3例 详情及轨迹公布
- 2021年北京空气质量创历史最优 首次全面达标