自然场景下文字检测的几何归一化网络 GNNets (自然场景下文案怎么写)

文章编号:44118 资讯动态 2024-12-09 iccv2019 商汤科技 计算机视觉

GNNets:自然场景下文字检测的几何归一化网络 | ICCV 2019

GNNets:自然场景下文字检测的几何归一化网络 | ICCV 2019

该文章通过对待处理图像的特征图进行几何变换,从而将待处理图像中几何分布差异较大的文本框归一化到一定的几何分布范围内,提高了自然场景下文本测检的效果。

一、研究背景

随着深度学习的迅速发展,计算机视觉技术对实际生产具有影响越来越重要的影响。对图像中的文本进行检测和识别,有助于计算机理解视觉内容。

由于卷积神经网络(CNN)方法的通用性,自然场景文本检测受益于常规物体检测而快速发展。但由于自然场景中的文本在实际应用场景中具有较大的几何变化(例如宽高比或文字方向),所以其自身仍存在巨大的挑战。

对于尺度变化问题,现有方法一般通过使用一个检测头(detection header)对不同层级的特征进行检测,利用 NMS 融合结果后作为输出或者使用类似 FPN [1] 的网络将多尺度特征融合然后进行文本检测。

对于角度变化问题,现有方法一般通过直接回归文本框角度或使用对方向敏感的卷积来预测任意方向。

但目前的方法中要求检测头(detection header)需要学习到文字巨大的几何差异或者检测头(detectionheader)仅在所有训练样本中一个子集进行学习,这可能导致性能欠佳。

作者研究了几何分布对场景文本检测的影响,发现基于 CNN 的检测器只能捕获有限的文本几何分布,但充分利用所有训练的样本可以提高其泛化能力。

为了解决上述难题,作者提出了一种新颖的几何规范化模块(GNM)。每个自然场景图片中的文本实例可以通过 GNM 归一化到一定的几何分布范围内。这样所有训练样本均被归一化为有限的分布,因此可以有效地训练一个共享的文本检测头。

本文提出的 GNM 是通用的,可以直接将该模块插入到任何基于 CNN 的文本检测器中。为了验证提出方法的有效性,作者针对文字方向的差异性新建了一个测试集(Benchmark)并发布。雷锋网

二、方法描述

GNNets:自然场景下文字检测的几何归一化网络 | ICCV 2019

Fig. 1 是 GNNets 的整体网络结构图。总体网络结构由 Backbone,GNM,SharedText Detection Header 组成。通过 Backbone 提取的特征图会被输入到具有多个分支的几何规范化模块(GNM)中,每个分支由一个尺度归一化单元(SNU)和方向归一化单元(ONU)组成。

SNU 有两个不同比例的尺归一化单位(S,S1/2)和四个方向归一化单位(O,Or,Of,Or + f)。通过 SNU 和 ONU 的不同组合,GNM 会生成不同的几何归一化特征图,这些特征图将被输入到一个共享文本检测标头中。

GNNets:自然场景下文字检测的几何归一化网络 | ICCV 2019

Fig.2 是作者提出的 ONU 模块的示意图。通过应用 ONU 可以更改文本框方向。如图所示「绿色」框是原始框,「灰色」框是转换过程中的中间框,「红色」框是 ONU 的输出的结果框。

θ和θ' 分别是原始框和结果框的角度。(a),(b),(c)和(d)分别是 O,Or,Of,Or + f 的过程的示意图。由上图可以简单明了的表示 ONU 具有将 [0,π/4],[-π/2,-π/4],[-π/4,0] 和 [π/4,π/2] 角度的文本转换为在 [0,π/4] 角度的文本。

GNNets:自然场景下文字检测的几何归一化网络 | ICCV 2019

Fig. 3 展示了 GNM 在网络中的结构设置。对于 SNU 中的 S 使用 1x1 的卷积操作和 3x3 的卷积操作;S1/2 使用 1X1 的卷积,步长为 2 的下采样以及 3x3 的卷积。对于 ONU 中的 O,Or,Of,Or + f 中的 Operations 则分别采用不操作,旋转 feature maps,翻转 feature maps 和旋转后再翻转 feature maps。

由于多分支网络的影响,作者提出了一个针对 GNNets 的抽样训练策略。

在训练期间,作者随机采样一个文本实例,并通过旋转和调整大小 7 次来对其进行扩充,以使 GNM 的每个分支在每批次中都具有有效的文本实例用于训练。这样可以对 GNM 的所有分支进行统一训练。并且在训练过程中如果文本实例不在预先设定的几何区间内,则忽略分支中的该文本实例。

在测试过程中,作者将 GNM 中所有分支输出文本框相应地反向投影到原始比例和方向。不在分支预先设定的几何区间内的文本框会被丢弃。其余的文本框通过 NMS 合并。

三、实验结果

GNNets:自然场景下文字检测的几何归一化网络 | ICCV 2019

与原始的 PSENet[2] 相比,作者提出的 GNNets 在 ICDAR 2015[3] 和 ICDAR 2017 MLT [4] 上分别实现了约 1.3%和 2.1%的性能提升。

与 ICDAR 2015 上的 EAST[5] 和 ITN [6] 相比,GNNet 的 F-score 比它们分别高出 8%和 9%。与 FTSN [7] 相比,获得了 4.5%的性能提升。GNNets 在 ICDAR 2015 上的表现优于 FOTS [8],在 ICDAR 2017 MLT 上的 F-score 更超出其 7.3%。并且 FOTS 使用了文字识别的数据。

在单尺度测试中,作者提出的 GNNets 在 ICDAR 2015 和 ICDAR2017 MLT 上均达到了 state-of-the-art 的性能。Fig. 5 可视化了 GNNets 和其他文本检测方法在 ICDAR 2015 和 ICDAR 2017 MLT 上的检测结果。

GNNets:自然场景下文字检测的几何归一化网络 | ICCV 2019

四、总结及讨论

1、在本文中,作者提出了一种新颖的几何归一化模块(GNM)以生成多个几何感知特征图。并且 GNM 是通用的,可以应用到任何基于 CNN 的检测器中,以构建端到端的几何归一化网络(GNNet)。

实验表明,GNNet 在检测几何分布较大的文本实例方面相较于 baseline 表现出出色的性能。并且,GNNet 在两个文字检测主流的数据集上较最新的方法获得了显著的性能提升。

2、文中研究了几何分布对场景文本检测的影响,发现基于 CNN 的检测器只能捕获有限的文本几何分布,但充分利用所有训练的样本可以提高其泛化能力,对后续文字检测以及其他相关领域有启发性影响。

3、综上所述,文本检测是 OCR 任务的首要前提,但自然场景下文字的字体变化、悬殊的宽高比、任意角度给检测任务带来巨大的挑战,本文为我们提出了目前研究方向上忽略的点,并提供了一个新颖的解决方法,但是相较与常规物体检测,文本检测领域仍然有其特殊性以及较大的提升空间

参考文献

[1]Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, Bharath Hariharan,and Serge Belongie. Feature PyraMID Networks for Object Detection. In CVPR,2017.

[2]Xiang Li, Wenhai Wang, Wenbo Hou, Ruo-Ze Liu, Tong Lu, and Jian Yang. ShapeRobust Text Detection with Progressive Scale Expansion Network. arXiv preprintarXiv:1806.02559, 2018.

[3]Dimosthenis Karatzas, Lluis Gomez-Bigorda, Anguelos Nicolaou, Suman Ghosh,Andrew Bagdanov, Masakazu Iwamura, Jiri Matas, Lukas Neumann, Vijay RamaseshanChandrasekhar, Shijian Lu, and Others. ICDAR 2015 Competition on RobustReading. In ICDAR, 2015.

[4]ICDAR2017 Competition on Multi-Lingual Scene Text Detection and ScriptIdentification.2017.

[5]Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang, Shuchang Zhou, Weiran He, andJiajun Liang. EAST: An Efficient and Accurate Scene Text Detector. In CVPR,2017.

[6]Fangfang Wang, Liming Zhao, Xi Li, Xinchao Wang, and Dacheng Tao.Geometry-Aware Scene Text Detection with Instance Transformation Network. InCVPR, 2018.

[7]Yuchen Dai, Zheng Huang, Yuting Gao, Youxuan Xu, Kai Chen, Jie Guo, andWeidong Qiu. Fused Text Segmentation Networks for Multi-Oriented Scene TextDetection. In ICPR, 2018.

[8]Xuebo Liu, Ding Liang, Shi Yan, Dagui Chen, Yu Qiao, and Junjie Yan. Fots:Fast Oriented Text Spotting with a Unified Network. In CVPR, 2018.

雷锋网报道。

原创文章,未经授权禁止转载。详情见 转载须知 。

GNNets:自然场景下文字检测的几何归一化网络 | ICCV 2019


本文地址: https://www.gpxz.com/article/10b337e51a1f225273cf.html
全局中部横幅
全局中部横幅
上海欧赛得科技有限公司

上海欧塞得科技有限公司成立于2024年03月05日,注册地位于上海市崇明区绿华镇富华路79号(上海绿华经济开发区),法定代表人为欧阳小芳。经营范围包括一般项目:技术服务、技术开发、技术咨询、技术交流、技术转让、技术推广;网络与信息安全软件开发;网络技术服务;互联网销售(除销售需要许可的商品);软件开发。(除依法须经批准的项目外,凭营业执照依法自主开展经营活动)

18183游戏网

18183游戏网是面向手机游戏玩家的综合门户,提供有趣有态度的最新手游内容。汇聚手游社区、热门手游礼包,新游、泛娱乐、手游排行榜等,让你Get最新手游、分享你的热辣点评。

青岛机械加工厂家

青岛机械加工厂家,车床加工,大型数控龙门铣床加工,大型数控龙门铣床加工,青岛大型机械加工,大型数控加工,青岛数控车床加工,铣床加工,加工中心加工外协,青岛机械加工,金属焊接加工,cnc加工,青岛机加工,青岛数控加工,模具加工,青岛模具厂,青岛数控加工外协,车床加工,青岛,胶州,城阳,即墨,崂山,胶南,黄岛,青岛开发区,青岛四方区,铣床加工,数控cnc机械加工外协,青岛机加工公司

朱阿根烧饼·起源仙居

朱阿根烧饼隶属于杭州浙森餐饮管理有限公司,近年来发展如火如荼,目前在全国已经有近两百家品牌加盟店。朱阿根烧饼是中国的名小吃之一,助力于帮助更多中小投资者创业成功!

江苏惠天工业涂装工程有限公司

江苏惠天工业涂装工程有限公司|新能源汽车电池箱电泳加工

边缘计算网关

纵横智控将传统行业基础设施与物联网、边缘计算、AI等新技术相结合,为行业数字化转型集成商提供边缘计算网关、IOT数据中台、HMI、远程IO、AI边缘盒子等产品及解决方案,提质增效、优化流程,推动行业数字化转型

联系我们

华纳娱乐公司官方客服【ak4w53微】官网【298978.com】,华纳娱乐公司为您提供真人实体娱乐,并且客服24小时不间断为您提供服务。

Decent

山东鼎信数字科技有限公司(Decent鼎信),成立于2010年,是国内领先的数字权益解决方案提供商,先后荣膺国家级高新技术企业、山东省瞪羚企业、山东省双软认证企业、山东省数字经济示范平台企业、ISO9001质量管理体系认证企业。Decent鼎信专注于数字产品的开发及运营,陆续打造橙券、小橙生活、橙票票、橙积分、车加加等核心品牌,为银行、保险、电商、运营商等行业客户提供开放高效的专业服务,助力传统行业数字化转型升级和价值落地。

首页

我们以创新的理念为客户量身定制可靠、全面、先进的信息化解决方案,并为客户提供完善的技术支持和贴心服务,提升客户的信息化建设管理水平。因为业精于专,获得全国300多家单位的支持与信赖,在同行业中稳居榜首,我们的服务理念:细节决定成败,质量是第一竞争力!

宏美集团

宏美控股集团有限公司是一家国内知名的酒类品牌运营公司,下辖成都经典玉液酒业有限公司、成都谷池贸易有限公司、成都富谷赢商贸有限公司三个直属子公司。集团公司始终秉承“诚信为本、责任为基、品牌为魂”的经营理念,以严格规范的管理,立足酒类品牌运营和营销行业。经过多年的历练和沉淀,现已拥有一支精管理、善经营的高素质专业营销管理团队。

实用工具

我就查查询提供实用工具在线查询,免费在线工具包括生活服务、金融理财、教育学习、数学计算和站长查询等实用工具,是较受欢迎的在线实用查询工具网站。


全局底部横幅