Amazon研究人员用AI提高曲线文本识别测试准确度超过83%



光学字符识别(OCR),即将手写或打印文本的图像转换为机器可读文本,是一门可追溯到70年代早期的技术。

但是长期以来OCR算法一直很难识别出与水平面不平行的字符,于是Amazon的研发人员开发了一项叫“TextTubes”的技术。这是一个自然图像中曲线文本的检测器,可将文本建模为围绕其中轴线的管状。在一篇描述他们工作的论文中,合作者声称他们的方法在一个通用的OCR基准上达到了最先进的结果。

正如研究人员所解释的,场景文本通常被分成两个连续的任务:文本检测和文本识别。 第一个涉及使用上下文线索来定位字符、单词和行,第二个是转录其内容。两者都说起来容易做起来难,自然环境中的文本不仅受到变形的影响,而且还会受到视点变化和字体的影响。

三亚机场温馨提示:春运临近,机场客流量较大,请广大旅客遵守民航局相关规定,提前检查行李物品,切勿藏匿民航局禁止携带登机的危险品、违禁品等乘机,以免耽误行程。(完)

12月9日,大雾中的成都机场。(成都机场供图)

假设有一天,TextTubes能够投入使用,对于那些高度依赖OCR技术开展业务的企业来说,这可能是一个好消息。据估计,超过80%的数字流程中仍保留着纸张;大约有97%的小企业仍在使用纸质支票。据Grand View Research的数据显示,这或许就是为什么到2025年,OCR解决方案市场的价值预计将达到138.8亿美元原因。(雷锋网(公众号:雷锋网)雷锋网雷锋网)

雷锋网原创文章,。详情见转载须知。

该团队的解决方案是利用文本参考框架的“管状”表现形式,利用目标文本通常是大小相似的字符串联而成的事实,从而捕获大部分可变性。与使用易于重叠和容易产生噪声的矩形和四边形来捕获文本信息的传统方法相比,它被公式化为一种数学函数,能够训练机器学习场景文本检测器。

据气象部门介绍,今晨的大雾主要是受夜间辐射降温影响形成,预计将持续至11时左右,对该机场后续航班运行也会造成一定影响。

在发现该违禁品后,机场安检主管耐心为旅客普及了民航局相关规定,旅客表示理解并对火种进行了自弃处理。

“对一个实例的中间轴和平均半径进行建模……可捕获有关实例整体的信息。”该论文的合著者写道。 “在由单个单词组成的数据集上,例如Total-Text,我们的模型能够实现最先进的性能。在具有行级注释的数据集上,例如CTW-1500,我们的模型能够更好地捕获实例中各个单词的文本信息。”

研究人员在CTW-1500上评估了TextTubes的性能。CTW-1500是一个数据集,该数据集由从自然场景和图像库中收集的1500张图像(每个图像至少一个曲线实例),超过10000个文本实例组成。同时在Total-Text上进行了评估,Total-Text包含大约1255次训练图像、300个测试图像以及一个或多个曲线文本实例。他们报告说,他们在CTW-1500上以83.65%的准确度取得了行业领先的结果,而最接近的方法的准确度为75.6%。

为应对大雾带来的不利影响,成都机场于7时20分启动大面积航班延误黄色预案,并于9时将预案升级为橙色,这也是成都机场今年首次启动大面积航班延误橙色预案。

经检查发现,该名旅客携带的是基于现代工艺制作的钻木取火套件,属于火种类违禁品。该套件由于增加了轴承装置,生火速度比传统的钻木取火快,且在X光机图像上无明显的火种特征,隐匿性较强,容易被隐藏在手提行李中携带乘机,存在安全隐患。

成都机场提醒旅客,目前当地已进入冬季大雾频发期,出行前请提前关注气象预报,避免因天气原因耽误行程。(完)