到期末了,算法课老师要求翻译一篇论文。显然,使用word和typor太不上道了。所以学习了一下latex的使用。下面总结一下LaTeX常用标签:

1.导入常用包及配置图片路径

\documentclass[twocolumn]{article} %两行显示
\usepackage{xeCJK} % 使用汉语
\usepackage{graphicx} %导入图片的包
\usepackage{wrapfig} %图片包围
\usepackage{subcaption} %两个图片在一行
\usepackage{amsmath, amsfonts}
\graphicspath{{./images/}} %设置图片路径

\begin{document} %相当于html的body
    所有的内容都要写在这里面
\end{document}

2.常用标题的标签

\begin{Abstract} %摘要
\end{Abstract}

\section{Introduction} %介绍
    \subsection{title1} %子标题1
    \end{title1}
\end{Introduction}

\title{} %标题 要配合\maketitle使用

3.换行及空格

\quad %小空格
\qquad %大空格 为两个\quad的宽度
\; %小小空格
\, %小小小空格
\! %紧贴
<!--more-->
\newline 换行
\par 换行(新段落)
\\ 换行

4.字体大小及样式

\tiny
\scriptsize
\footnotesize
\small
\normalsize
\large
\Large
\LARGE
\huge
\Huge
<!--more-->
\textbf{} %粗体
\textit{} %斜体

5.实例和效果

\documentclass[twocolumn]{article}
\usepackage{xeCJK} % 使用汉语
\usepackage{graphicx} %导入图片的包
\usepackage{wrapfig} %图片包围
\usepackage{subcaption} %两个图片在一行
\usepackage{amsmath, amsfonts}
\graphicspath{{./images/}} %设置图片路径
\title{\textbf{在现实世界中实现稳健的视觉信息提取:
新数据集和解决方案}}


\author{\textbf{Jiapeng Wang, Chongyu Liu, Lianwen Jin, Guozhi Tang, Jiaxin Zhang,
} \\
\textbf{
Shuaitao Zhang,
Qianying Wang
, Yaqiang Wu,Mingxiang Cai} \\
South China University of Technology; Lenovo Research;\\
SCUT-Zhuhai Institute of Modern Industrial Innovation; Xi’an Jiaotong University \\
{eejpwang, eechongyu.liu}@mail.scut.edu.cn, eelwjin@scut.edu.cn, \\{eetanggz, eejxzhang, eestzhang}@mail.scut.edu.cn,\\
{wangqya, wuyqe, caimx}@lenovo.com}


\begin{document}


    


\maketitle

\begin{abstract}
    \quad\quad 视觉信息提取(VIE)由于其各种先进的应用,如文档理解、自动标记和智能教育,最近引起了相当大的关注。大多数现有工作将这个问题解耦为文本发现(文本检测和识别)和信息提取的几个独立子任务,在优化过程中完全忽略了它们之间的高度相关性。在本文中,我们提出了一种面向现实世界场景的强大的视觉信息提取系统(VIES),它是一个统一的端到端可训练框架,通过将单个文档图像作为同时进行文本检测、识别和信息提取的框架。输入和输出结构化信息。具体来说,信息提取分支从文本识别中收集丰富的视觉和语义表示以进行多模态特征融合,反之,提供更高级别的语义线索以促进文本识别的优化。此外,针对公共基准的短缺,我们构建了一个名为 EPHOIE (https://github.com/HCIILAB/EPHOIE) 的全注释数据集,这是第一个文本识别和视觉信息提取的中文基准. EPHOIE 由 1,494 张布局和背景复杂的试卷头图像组成,包括总共 15,771 个中文手写或印刷文本实例。与最先进的方法相比,我们的 VIES 在 EPHOIE 数据集上表现出显着的优越性能,并在端到端场景下在广泛使用的 SROIE 数据集上实现了 9.01\% 的 F-score 增益。
\end{abstract}
    
\section{介绍}

    \quad\quad 最近,视觉信息提取(VIE)因其各种先进的应用而引起了相当大的研究兴趣,例如文档理解(Wong、Casey 和 Wahl 1982)、自动标记(Tremblay 和 Labonte ́ 2003)和智能教育(Kahraman, Sagiroglu 和 Colak 2010。
    \par
    \quad VIE现有的大多数工作主要包括两个独立的阶段,即文本发现(文本检测和识别)和信息提取。前者旨在定位和识别文本,而后者根据先前的结果提取特定实体。最近的研究(Liu et al. 2019; Yu et al. 2020; Xu et al. 2020)表明,除了语义特征外,文档的视觉和空间特征也提供了丰富的线索。尽管取得了令人鼓舞的结果,但这些方法仍然存在以下局限性:(1)尽管他们的文本识别模型已经学习了用于检测和识别的有效表示,但他们的信息提取模块丢弃了然后从 OCR 结果中再次检索它们。这导致了冗余计算,并且丢弃的特征可能比新学习的特征更有效。(2)独立部分的训练过程无关,导致信息提取模块缺乏线索,而文本识别模块无法根据基本目标进行自适应优化。连续的阶段通常结合起来完成一个共同的任务,但它们之间并不相互协作。\par
    \quad 为了解决上述局限性,在本文中,我们提出了一种针对真实世界场景的强大视觉信息提取系统,称为VIES,它是一个统一的端到端可训练框架,用于同时进行文本检测、识别和信息萃取。VIES引入视觉协调机制(VCM)和语义协调机制(SCM),分别从文本检测和识别分支收集丰富的视觉和语义特征,用于后续的信息提取分支,反之,提供更高层次的语义线索,致敬文本定位的优化。 同时,设计了一种新颖的自适应特征融合模块(AFFM),以在信息提取分支中整合来自不同来源(视觉、语义和位置)和级别(段级和令牌级)的特征,以生成更有效的表示。\par
    \quad 随着基于学习的算法的蓬勃发展,针对特定任务进行的综合基准是激发更高级工作的先决条件。 在 VIE 中,SROIE (Huang et al. 2019) 是使用最广泛的一种,它专注于光学字符识别 (OCR) 和印刷英文扫描收据的 VIE 任务。 然而,对于布局复杂、手写文本的文档,难以满足实际应用的需求。 \par
    \quad 为了解决这个问题并促进VIE领域的发展,我们进一步建立了一个具有挑战性的数据集,称为OCR和信息提取的试卷头数据集(EPHOIE),其中包含 1,494 张图像和15,771个带注释的文本实例。图像是从中国各个学校的真实试卷中收集和扫描的,我们裁剪了包含所有关键信息的纸头区域。文本由水平和任意四边形的手写和印刷汉字组成。复杂的布局和嘈杂的背景也增强了 EPHOIE 数据集的泛化能力。典型示例如图 1 所示。\par
    
    \begin{figure}[h]
    \centering
    \includegraphics[width=0.5\textwidth]{figure1}
    \caption{一些经典和有挑战的布局。(a) 复杂布局。 (b) 有噪声的布局}
    \end{figure}
    
    
    \quad 在 EPHOIE 和广泛使用的基准测试上的大量实验表明,我们提出的 VIES 大大优于最先进的方法。我们的主要贡献可以总结如下:\par
    
    • 我们针对真实世界场景提出了一个强大的视觉信息提取系统,称为 VIES,它是一个统一的端到端可训练框架,用于同时进行文本检测、识别和信息提取。 \par
    • 我们引入了 VCM 和 SCM,使独立模块能够从联合优化中受益。 AFFM 还旨在集成来自不同来源和级别的功能,以提升整个框架。
    • 我们提出了一个名为EPHOIE的全注释数据集,它是第一个用于文本识别和视觉信息提取应用的中文基准。 \par
    • 我们的方法在EPHOIE和广泛使用的基准测试中都达到了最先进的性能,这充分证明了所提议的 VIES 的有效性。\par
    



\end{介绍}

\section{相关工作}
    \quad\quad 用于视觉信息提取的数据集 对于 VIE,SROIE (Huang et al. 2019) 是使用最广泛的公共数据集,为该领域带来了巨大的推动力。它专注于印刷英文版的扫描收据,并包含每个图像的完整 OCR 注释和键值对信息标签。 (Guo et al. 2019)提出了一个具有固定布局的中国基准,包括火车票、护照和名片。 然而,绝大多数图像是完全合成的,仅用键值对标签进行注释,没有任何 OCR 注释。 在这方面,为了在中文文档和手写信息中开发 OCR 和 VIE 任务,非常需要具有复杂背景、多变布局和多种文本样式的综合数据集,以适应现实世界的场景。\par
    \quad 视觉信息提取方法 近年来,VIE 方法取得了令人鼓舞的改进。早期的工作主要使用基于规则(Esser et al. 2012; MUSLEA 1999)或模板匹配(Huffman1995)方法,这可能导致泛化能力较差。 随着深度学习的发展,越来越多的研究人员将文本识别得到的结果转化为纯文本,然后为随后的序列标记模型(例如 BiLSTM-CRF(Lample 等人,2016)提取特征嵌入以获得最终实体。然而,缺乏视觉和位置信息往往会导致性能不佳。\par
    \quad 最近的工作已经认识到,文档的视觉和空间特征在信息提取中也起着至关重要的作用。 诸如 Post-OCR 解析 (Hwang et al. 2019) 等典型方法考虑了边界框坐标。 LayoutLM (Xu et al. 2020) 基于类 BERT 模型的预训练过程对文档的布局结构和视觉线索进行建模。 GraphIE (Qian et al. 2019)、PICK (Yu et al. 2020) 和 (Liu et al. 2019) 尝试使用图神经网络 (GNN) 来提取全局图嵌入以进一步改进。 CharGrid (Katti et al. 2018) 使用 CNN 来同时整合输入矩阵中包含的语义线索和布局信息。 然而,这些现有的传统方法只关注与信息提取阶段相关的性能,而忽略了先决调节的 OCR 模块。\par
    \quad 目前,更多 VIE 的相关工作正逐渐朝着端到端的方式发展。 (Guo et al. 2019) 直接从输入图像生成特征图,并使用多个实体感知解码器来解码所有实体。 但是,它只能处理具有固定布局的文档,并且随着实体数量的增加,其效率会显着降低。 (Carbonell et al. 2020) 对图像中的每个文本段进行本地化、识别和分类,这很难处理文本段由不同类别的字符组成的情况。 (Zhang et al. 2020) 提出了一个端到端的可训练框架来解决 VIE 任务。 但是,它更侧重于实体提取的性能,只能应用于 OCR 任务相对简单的场景。\par
\end{相关工作}

\section{用于 OCR 的试卷头部数据集
和信息提取}
    \quad\quad 在本节中,我们将介绍用于 OCR 和信息提取的新试卷头部数据集
(EPHOIE) 基准及其特性。
\end{用于 OCR 的试卷头部数据集
和信息提取} 



% \begin{center}
% \begin{tabular}{c c c c c c c c c c}
% \hline
% \textbf{Dataset} & \textbf{year} & \textbf{Scenario} & \textbf{Language } & \textbf{Image} & \textbf{Number} & \textbf{Text} & \textbf{Shape} & \textbf{Script} & \textbf{Entities} \\
% \hline
% \hline
% \textbf{Dataset} & \textbf{year} & \textbf{Scenario} & \textbf{Language } & \textbf{Image} & \textbf{Number} & \textbf{Text} & \textbf{Shape} & \textbf{Script} & \textbf{Entities} \\
% \hline
% \end{tabular}
% \end{center}

    \begin{figure*}[ht]
    \centering
    \begin{center}
            \caption{EPHOIE 和 SROIE 之间的比较。 “H”或“Q”表示水平或任意四边形文本。}
    \end{center}
    \includegraphics[scale=0.7]{table1}
    \end{figure*}
    
    \begin{figure}[h]
    \centering
    \includegraphics[width=0.4\textwidth]{figure2}
    \begin{center}
            \caption{: EPHOIE 中的注释示例。 在实体中
字段,“Key”或“Value”分别表示它是实体的键或值,而“None”表示两者都不是。
Entity 中的不同数字表示不同的类别。}
    \end{center}
    \end{figure}
    
    \quad \textbf{数据集描述}\quad 据我们所知,
    EPHOIE 基准是第一个用于 OCR 的公共数据集
    和 VIE 任务,旨在激发文档智能和
    争夺。 它包含 1,494 张图像和 15,771 个带注释的文本实例,包括手写和打印字符。 这是
    分为具有 1,183 张图像的训练集和测试集
    分别设置了 311 张图像。 EPHOIE 中的所有图像
    从真实试卷中收集和扫描
    各种学校,文本类型和布局多样化
    分配。 我们数据集的统计数据以及与最广泛使用的公共基准 SROIE 的比较是
    如表1所示。 对于EPHOIE,我们只裁剪纸头
    包含所有关键信息的区域。
    
    \quad \textbf{详细注释} \quad 详细注释形式
    EPHOIE 如图 3 所示。由于存在水平和任意四边形文本,四个顶点是
    需要包围它们。 除了为文本检测标注边界框外,还需要文本内容
    文本识别和信息提取。 我们注释了图像上出现的所有文本,同时另外
    标记所有键信息的实体键值对。 这
    实体中的数字字符串表示每个令牌的类别,
    因为单个段中可能存在多个实体。
    \par
    \par
    \par
    
    


\par
\par
\par
\par
\par
\par
\section{方法}
    \quad\quad 我们的 VIES 的整体框架如图 3 所示。它由一个共享主干和三个特定的
    文本检测、识别和信息提取的分支。 给定输入图像,文本识别分支是
    不仅负责本地化和识别所有
    文本,但也提供了丰富的视觉和语义
    通过视觉和语义协调机制为后续网络提供特征。 自适应特征融合
    信息提取分支中的模块首先收集这些
    从检测到的框中提取具有附加空间特征的丰富表示,以在解耦级别(段级别和令牌级别)自适应地生成融合特征。 在
    这一部分,引入了多头自注意力机制,让每个人都可以自由地关注其他人。 然后,将解耦级别中的特征重新耦合
    最后使用序列标记模块将特定实体与识别的字符串区分开来。


\end{方法}


\section{文本检测
视觉协调机制 (VCM)}

    \quad\quad 准确的文本检测是文本识别和信息提取的前提。 一个直观的想法来提升
    检测分支是让IE分支在训练过程中以端到端的方式提供反馈指导。
    给定输入图像,我们的 VIES 首先使用共享主干来提取高级特征表示 X。然后,
    检测分支以 X 作为输入并输出框 B,
    任意的置信度分数 C 甚至二进制掩码 M
    四边形文字:\par 
     \newline
    \quad\quad  \textit{B,C,M = TextDetection(X)} \quad\quad\quadquad\quad (1) \par \par
    
    \quad 在这里,我们引入了一种创新的视觉协调机制(VCM),它可以有效地传递丰富的视觉
从检测分支到IE分支的特征Fvis
并反过来提供额外的监督信息
有助于检测分支的优化。 它可以
如图 4(a) 所示,定义如下:\par
    \textit{F$_{vis}$=Linear(AvgPool(Conv2D(RegionPool(X,B)))) (2)} \par
    \quad 这里,RegionPool 表示区域特征池化方法
例如 RoIPooling (Girshick 2015) 和 RoIAlign (He et al.
2017)。 AvgP ool 减少了高度和宽度尺寸
到单位大小。 线性是学习投影来变换 Fvis
进入d通道。\par

    \quad 对于视觉丰富的文档,关键的视觉线索如
Fvis 中集成了形状、字体和颜色。 这
IE 分支的梯度也可以帮助检测分支
学习更多有利于
整个框架。\par

    
    \begin{figure*}[ht] 
    \centering 
    \includegraphics[scale=0.7]{figure3} 
    \caption{VIES 的总体框架。 它由一个共享的骨干网和三个特定的分支组成:(1)文本
    检测,(2)文本识别和(3)信息提取。 Boxt 表示从盒子中划分出来的单个令牌盒子
    整个文本段框。} 
    \end{figure*}
    
    \begin{figure}[h] 
    \centering 
    \includegraphics[scale=0.7]{figurre4} 
    \caption{视觉和语义协调机制的详细结构。 (a) 视觉协调
机制(VCM)。 (b) 语义协调机制 (SCM)。} 
    \end{figure}
    

    
\end{文本检测视觉协调机制 (VCM)}

\section{文本识别
语义协调机制 (SCM)}
    \quad\quad 文本识别极大地限制了整个系统的性能上限。 如果识别的字符串是
不太准确,不管 IE 分支有多强大,它总是没用的。 基于这种考虑,是否
IE阶段的语义监督可以促进识别
分支尤为关键。 \par
    \quad 在我们的 VIES 中,给定共享特征 X,高级
收集特定文本区域中的表示并
馈入编码器以提取输入特征序列
H = (h$_{1}$, h$_{2}$, · · · , h$_{N}$ ),其中 N 是特征长度。
然后,采用基于注意力的解码器(Bahdanau、Cho 和 Bengio 2015)来循环生成隐藏状态
S = (sh$_{1}$, sh$_{2}$, · · · , sh$_{2}$) 参考已识别字符的历史和 H,其中 M 表示最大解码步长。 最后,输出文本序列 O =
(oh$_{1}$, oh$_{2}$, · · · , oh$_{2}$) 使用 S 计算。 \par
    \quad 在这里,我们引入了我们的语义协调机制(SCM)来建立双向语义流
在我们的识别分支和 IE 分支之间。 隐藏
我们的识别分支中的状态 S 包含每次解码中每个标记的高级语义表示
步。 因此,我们将其视为token级别的语义特征
Fsem,t 并将其发送到 IE 分支:\newline
\textit{F$_{sem,t}$ = (s$_{1}$,s$_{2}$,···,s$_{M}$) = S,} \par
    \quad \quad \quad \quad \textit{ where F$_{sem,t}$ = S$_{i}$} (3) \par
    
    \quad 这里, Fsem,ti ∈ R
d
去节点对应于段中第 i 个标记的 d 维向量。
注意,段级语义特征 Fsem,s 也
极大地影响类别特征。 此外,Fsem,t
捕获局部线索,Fsem,s 包含全局信息,说明它们是互补的。
受之前作品(张、赵和乐存)的启发
2015年; Kim 2014) 采用 CNN 来整合整体
从单词或字符的每个句子的表达
嵌入,我们的 VIES 生成每个
从 Fsem,t 中分段 Fsem,s 如下:\par
    
    \includegraphics[width=0.4\textwidth]{figure5} \par
    
    \quad 这里,⊕是连接运算符,n是长度
当前段和nc是一维卷积的数量
内核。 请注意,所有一维操作都是在
长度尺寸。
SCM 的整体结构如图 4(b) 所示。
这样就可以将提取到的胜任语义表示直接传递给上层
IE分支的语义约束可以指导识别分支的训练过程。\par

\end{文本识别
语义协调机制 (SCM)}
    
    \section{信息提取
自适应特征融合模块 (AFFM)}
    \quad\quad 信息提取需要最全面、最
用于区分特定实体的表达性表示
来自已识别的字符串。 除了视觉和语义
上面的文本发现分支提供的功能,我们的 IE
分支进一步从文本框中提取空间特征和
解耦令牌级别的表示,以便相对
无论是token归属于错误的字符串,还是该字符串是否属于错误的字符串,都可以获得准确的线索。
过切或下切,由于背景复杂,形状多样,在文本检测中经常出现
样式。 为了编码位置信息,我们生成空间
来自相对边界框坐标的 Fspt 特征为:

    \includegraphics[scale=0.7]{figure6} \par
    \quad 其中 Wimg 和 Himg 分别是图像宽度和高度。 Linear 用于将 Fspt 转换为 d 个通道
这与上面的视觉和语义特征中的相同。我们直观地根据识别字符串的长度将整个段的框沿其最长边均匀地划分为几个单个标记的框 Bt。
然后可以根据Bt生成token级别的视觉特征Fvis,t和空间特征Fspt,t。
从多层次获取多层次特征后
源作为学习公共嵌入空间中的表示,我们的自适应特征融合模块 (AFFM) 引入了两个多层多头自注意力模块
结合线性变换首先丰富所有投影
分别具有不同细粒度的向量。总结了多模态特征,然后是层
归一化以生成综合表示
每个人。然后,它作为 K、Q 和 V 在
缩放点积注意力,可以表示为:\par
    \includegraphics[scale = 0.7]{figure7} \par
    \includegraphics[scale = 0.7]{figure8} \par
    
    \quad 其中 ns 是文本段的数量,nj 是长度
第 j 段。 Fj,ti
构成输入特征序列
后续序列标记模块。 \par
    
    \quad 序列标记特征重新耦合后,我们输入
输入特征序列到标准 BiLSTM-CRF(Lample
等。 2016)用于实体提取。 直观地说,段嵌入提供了额外的全局表示。 串联的
特征被送入 BiLSTM 网络进行编码,并且
输出进一步传递到一个完全连接的网络和
然后是一个 CRF 层来学习实体序列中的语义约束。
    
    \quad 
    \end{信息提取
自适应特征融合模块 (AFFM)}

\section{优化策略}
    \quad\quad 在训练阶段,我们提出的框架可以被训练
以端到端的方式与损失的加权总和
由文本检测、识别三个分支生成
和信息提取:\par
    \quad L = L$_{E}$ + λ$_{D}$L$_{D}$ + λ$_{R}$L$_{R}$ (12)\par
    
    \quad 其中 λD 和 λR 是控制
损失之间的权衡。 LD 和 LR 分别是文本检测和识别分支的损失,LE 是
信息提取分支丢失。
LD 分别由文本分类、框回归和掩码识别的损失组成,如(He
等。 2017)。 LR 在输出之间采用 CrossEntropyLoss
文本序列 O 和地面实况文本序列。 CRFLoss 是
也被用作信息提取的 LE。
    
    

\end{优化策略}


\section{实验}
    
\subsection{补充细节}
\quad\quad 我们采用 Mask R-CNN (He et al. 2017) 作为我们的文本检测
使用 ResNet-50(He et al. 2016)分支,然后是 FPN
(Lin et al. 2017) 作为其支柱。 我们在文本的注意力机制中使用 LSTM(Hochreiter 和 Schmidhuber 1997)
认出。 在 SCM 中,三个一维卷积的大小为
2、3和4。在AFFM中,我们设置heads和sublayers的数量是4和3,输入特征的维度和线性
变换分别为 256 和 512。
我们的超参数 λD 和 λR 都设置为 1.0
实验。 在端到端训练阶段,文本发现分支的初始学习率设置为 0.1,ADADELTA 信息提取分支的初始学习率设置为 1.0 (Zeiler 2012)
在对前者进行充分的预训练后进行优化。 我们
也将其减少到每 25 个时期的十分之一两次。

\end{补充细节}

\subsection{消融研究}
    \quad\quad 在本节中,我们评估了所提出框架的多个组件对 EPHOIE 数据集的影响。\par
    \quad \textbf{端到端的优化效果}\quad
    探索引入的端到端优化方式的效果
VCM 和 SCM,我们进行以下消融研究
结果如表 2 所示。 基线表示
信息提取分支生成的梯度为
分离并且不能反向传播到文本定位
部分。 我们选择了另外两个高级结构——图注意力网络 (GAT) (Velickovi ˇ c et al. 2018) 类似于 (Liu´
等。 2019)和TRIE中的信息提取模块
(Zhang et al. 2020),然后将它们与 TRIE 和我们的 VIES 中的优化方法结合起来进行详细比较。\par
    \begin{figure*}[ht] 
    \centering 
    \caption{端到端优化的效果。 LA 表示整线精度。 A+B表示优化方法A和IE结构B的组合。} 
    \includegraphics[scale=0.7]{figure9} 
    \end{figure*} \par
    \quad 从表 2 中可以看出,VIES(Ours) 在所有文本检测、识别和信息提取任务中都大大优于四个对应物, \par
    
    \begin{figure}[h] 
    \centering 
    \caption{: VCM 和 SCM 的影响。 H表示输入特征序列,S表示识别中的隐藏状态
分支。} 
    \includegraphics[scale=0.7]{figure10} 
    \end{figure} \par
    \quad 从表 2 中可以看出,VIES(Ours) 在所有文本检测、识别和信息提取任务中都大大优于四个对应物,这揭示了我们框架的优越性。 TRIE 在低 IoU 下的检测任务和信息提取任务中比 Baseline 表现更好,但是,性能
高 IoU 的检测和识别都明显降低。 这表明最终的改进
成就并不总是意味着整体的进步
整个系统。 相比之下,E2E(Ours) + IE阶段
在 TRIE 下实现了可比的检测结果
IoU 和在其他方面的显着更好的表现,
充分验证了我们优化策略的优势。 此外,VIES(Ours) 在所有
TRIE 和 E2E(Ours) 中 E2E(Ours) + IE 阶段的任务
+ GAT,揭示了我们的建模的有效性
AFFM 以及联合训练方法需要
在仔细考虑下建立以充分利用
它的作用。\par
    \quad \textbf{VCM和SCM的效果} \quad  这里我们进行以下操作
实验来验证我们的 VCM 和 SCM 的效果。 我们
为他们设计几个直观有效的结构,
结果如表 3 所示。 这完全表明,虽然结合文本定位分支和 IE 分支是一个
比较直观的想法,如何善用它需要
一个全面的设计。 我们的 VCM 和 SCM 可以最大化
端到端优化的好处。\par
    \quad \textbf{多源特点的效果} \quad 我们进行了以下实验来验证多源的有效性
AFFM 中的特征,结果如表 4 所示。\par
    \quad 可以观察到,设置 (4) 中多模态表示的进一步融合提供了最佳性能。
语义特征是最容易区分的
信息抽取。如设置(1)所示,我们的方法
仅使用语义特征就可以达到令人满意的性能。此外,这些功能是由我们提供的
识别分支,这可能比识别分支更有效
在传统例程下重新提取的。
包含字体和颜色等视觉特征
丰富的语义线索也很关键。这带来了显着的
性能提升,这可以在设置 (2) 中观察到。
当不同文本的语义高度相似时,视觉
特征起着决定性的作用。
请注意,在设置(3)中引入空间特征略优于设置(1),揭示了形状和
文本的位置在表示语义方面也起着关键作用。通过自适应特征融合过程,上述属于不同个体的表达特征可以自由地参与到所有其他个体中,从而可以对段间和段内进行建模
同质的关系。的负面影响
来自不同来源的错误也可以在这里得到缓解。\par
    \includegraphics[scale = 0.7]{figure11} \par
    \quad \textbf{与最先进的技术比较} 
    \quad 为了全面评估我们的框架,我们比较了
它采用了几种最先进的方法。 值得注意的是,我们
根据原始论文或来源重新实现它们
代码(如果在开源平台上可用)。\par 
    \quad \textbf{在EPHOIE数据集上的效果}\quad  如表 5 所示,我们的
方法在 EPHOIE 上表现出优越的性能。 (刘
等。 2019)、TRIE (Zhang et al. 2020) 和引入多模态表示的 VIES 优于同行
利润率很高。 在端到端设置下,
OCR 结果不太准确,我们管道的鲁棒性更明显。 其合理的设计有效
减少由文本定位错误引起的负面影响。
VIES 定性结果的一些例子显示在
图 5。 \par
    \quad 实验结果
SROIE 数据集如表 6 所示。我们的方法实现了
Ground Truth 设置下的有竞争力的结果,并以显着的优势超越最先进的结果
(从 82.06 到 91.07)在端到端设置下。 竞赛中的方法可能不可避免地为每个任务和复杂的后处理引入模型集成技术。
然而,我们的 VIES 仅使用一个
具有轻量级网络结构的单一框架。 和
我们只引入简单的正则化来纠正 Total 和 Date 结果的格式。
与EPHOIE相比,扫描收据的布局
相对固定,字体样式少变,有
背景中存在较少的噪音。 在这样一个相对简单的场景中,进一步证实了我们方法的优越性。\par
    \begin{figure*}[ht] 
    \centering 
    \caption{ EPHOIE 数据集上最先进算法的性能 (F1-Score) 比较。 地面真相意味着
使用真实边界框和文本作为信息提取分支的输入,端到端表示使用相同的
相反,来自文本发现分支的预测。} 
    \includegraphics[scale=0.7]{figure12} 
    \end{figure*} \par
    \quad 从表 2 中可以看出,VIES(Ours) 在所有文本检测、识别和信息提取任务中都大大优于四个对应物, \par



    
    
    
\end{消融研究}
\end{实验}

\section{结论}
    \quad\quad 在本文中,我们针对现实世界的场景提出了一个强大的视觉信息提取系统(VIES),这是一个统一的端到端可训练框架,用于同步
文本检测、识别和信息提取。\par
    \quad 此外,我们提出了一个完全注释的数据集,称为
EPHOIE,这是两者的第一个中国基准
OCR 和 VIE 任务。 大量实验表明
我们的 VIES 在 EPHOIE 上实现了卓越的性能
数据集,并在广泛使用的 SROIE 上获得了 9.01% 的 F 分数增益,与之前最先进的方法相比
端到端信息提取场景下的数据集。 \par
    \quad 视觉信息提取是一项具有挑战性的任务
自然语言处理与计算机的跨领域
想象。 许多问题没有得到很好的解决,包括
复杂的布局和背景,过度依赖完整
注释和错误的不断积累。 因此,它仍然是一个开放的研究问题,值得更多
关注和进一步调查。
\end{结论}
    
    
    \centering
    \caption{: VCM 和 SCM 的影响。 H表示输入特征序列,S表示识别中的隐藏状态
分支。} 
    \includegraphics[scale=0.7]{figure13} 
    
     
     \section{确认}
     \quad 这项研究得到了 NSFC 的部分支持(批准号:
61936003, 61771199), GD-NSF (No. 2017A030312006),
国家重点研发计划广东省知识产权局(编号:2016YFB1001405)
物业办项目(2018-10-1)、广州市科技创新项目(201704020134)。
\end{确认}

\section{参考}
Bahdanau, D.; Cho, K.; and Bengio, Y. 2015. Neural machine translation by jointly learning to align and translate.
In ICLR. \par
Carbonell, M.; Fornes, A.; Villegas, M.; and Llad ´ os, J. 2020. ´\par
A Neural Model for Text Localization, Transcription and
Named Entity Recognition in Full Pages. Pattern Recognition Letters 219–227.\par
Esser, D.; Schuster, D.; Muthmann, K.; Berger, M.; and
Schill, A. 2012. Automatic indexing of scanned documents:
a layout-based approach. In Document Recognition and Retrieval XIX, volume 8297, 118–125.\par
Girshick, R. B. 2015. Fast R-CNN. In ICCV 1440–1448.
Guo, H.; Qin, X.; Liu, J.; Han, J.; Liu, J.; and Ding, E. 2019.
EATEN: Entity-aware attention for single shot visual text
extraction. In ICDAR, 254–259.\par
He, K.; Gkioxari, G.; Dollar, P.; and Girshick, R. 2017. Mask ´
R-CNN. In ICCV, 2961–2969.\par
He, K.; Zhang, X.; Ren, S.; and Sun, J. 2016. Deep residual
learning for image recognition. In CVPR, 770–778.\par
Hochreiter, S.; and Schmidhuber, J. 1997. Long short-term
memory. Neural computation 9(8): 1735–1780.\par
Huang, Z.; Chen, K.; He, J.; Bai, X.; Karatzas, D.; Lu, S.;
and Jawahar, C. 2019. Icdar2019 competition on scanned
receipt ocr and information extraction. In ICDAR, 1516–
1520.\par
Huffman, S. B. 1995. Learning information extraction patterns from examples. In IJCAI, 246–260.\par
Hwang, W.; Kim, S.; Seo, M.; Yim, J.; Park, S.; Park, S.;
Lee, J.; Lee, B.; and Lee, H. 2019. Post-OCR parsing: building simple and robust parser via BIO tagging. In Workshop
on Document Intelligence at NeurIPS 2019.\par
Kahraman, H. T.; Sagiroglu, S.; and Colak, I. 2010. Development of adaptive and intelligent web-based educational
systems. In AICT, 1–5.\par
Katti, A. R.; Reisswig, C.; Guder, C.; Brarda, S.; Bickel,
S.; Hohne, J.; and Faddoul, J. B. 2018. Chargrid: Towards ¨
Understanding 2D Documents. In EMNLP, 4459–4469.\par
Kim, Y. 2014. Convolutional Neural Networks for Sentence
Classification. In EMNLP, 1746–1751.\par
Lample, G.; Ballesteros, M.; Subramanian, S.; Kawakami,
K.; and Dyer, C. 2016. Neural Architectures for Named Entity Recognition. In NAACL-HLT, 260–270.\par
Lin, T.-Y.; Dollar, P.; Girshick, R.; He, K.; Hariharan, B.; ´
and Belongie, S. 2017. Feature pyramid networks for object
detection. In CVPR, 2117–2125.\par
Liu, X.; Gao, F.; Zhang, Q.; and Zhao, H. 2019. Graph Convolution for Multimodal Information Extraction from Visually Rich Documents. In NAACL-HLT, 32–39.\par
Ma, X.; and Hovy, E. 2016. End-to-end Sequence Labeling
via Bi-directional LSTM-CNNs-CRF. In ACL, 1064–1074.
MUSLEA, I. 1999. Extraction patterns for information
extraction tasks: A survey. In Proc. AAAI-99 Workshop
on Machine Learning for Information Extraction, Orlando,
Florida, 1999, 1–6.\par
Qian, Y.; Santus, E.; Jin, Z.; Guo, J.; and Barzilay, R. 2019.
GraphIE: A Graph-Based Framework for Information Extraction. In NAACL-HLT, 751–761.\par
Tremblay, G.; and Labonte,´ E. 2003. Semi-automatic mark- ´
ing of java programs using junit. In EISTA, 42–47.\par
Velickovi ˇ c, P.; Cucurull, G.; Casanova, A.; Romero, A.; Li ´ o,`
P.; and Bengio, Y. 2018. Graph Attention Networks. In
ICLR.
Wong, K. Y.; Casey, R. G.; and Wahl, F. M. 1982. Document
analysis system. IBM journal of research and development
26(6): 647–656.\par
Xu, Y.; Li, M.; Cui, L.; Huang, S.; Wei, F.; and Zhou, M.
2020. LayoutLM: Pre-training of text and layout for document image understanding. In ACM-SIGKDD, 1192–1200.\par
Yu, W.; Lu, N.; Qi, X.; Gong, P.; and Xiao, R. 2020. PICK:
Processing Key Information Extraction from Documents using Improved Graph Learning-Convolutional Networks. In
ICPR.\par
Zeiler, M. D. 2012. Adadelta: an adaptive learning rate
method. arXiv preprint arXiv:1212.5701 .\par
Zhang, P.; Xu, Y.; Cheng, Z.; Pu, S.; Lu, J.; Qiao, L.; Niu, Y.;
and Wu, F. 2020. TRIE: End-to-End Text Reading and Information Extraction for Document Understanding. In ACMMM.\par
Zhang, X.; Zhao, J.; and LeCun, Y. 2015. Character-level
convolutional networks for text classification. In NIPS, 649–
657.\par
\end{参考}
\end{document}

查看在线效果

最后修改:2021 年 06 月 20 日 11 : 33 PM
如果觉得我的文章对你有用,请随意赞赏