论文解读丨Zero-Shot场景下的信息结构化提取
摘要:在信息结构化提取领域,前人一般需要基于人工标注的模板来完成信息结构化提取。论文提出一种zero-shot的基于图卷积网络的解决方案,可以解决训练集和测试集来自不同垂直领域的问题。

在信息结构化提取领域,前人一般需要基于人工标注的模板来完成信息结构化提取。论文提出一种zero-shot的基于图卷积网络的解决方案,可以解决训练集和测试集来自不同垂直领域的问题。

Figure 1. 训练和推理数据来源的垂直领域不一样。
问题定义

Figure 2. OpenIE和ClosedIE的直观理解。
Relatin Extraction
Close Relation Extraction (ClasedIE)
R
Open Relation Extraction(OpenIE)
R
Zero-Shot Extraction
Zero-Shot按难度分可以区分如下:
Unseen-Website Zero-shot Extraction
即同一垂直领域的不同版式,比如,都是来自电影的网页。只是推理测试的时候使用的网页排版与训练不一样。
Unseen-Websiste Zero-shot Extraction
即不同垂直领域的不同版式,比如,训练是来自电影的网页,而推理测试的时候使用的可能是招聘类网站的网页。
论文提出的解决方案其实是发掘出图网络中全部的key-value对,由于发掘key-value这个任务本身是版式不依赖的,从而起到了跨领域的版式结构解析。
概念
relation: 指key
object:指value
relationship: 指key -> value
编码器(特征构建)
节点信息的构建由图G
基于设计的规则来构建实体之间的关系
以下情况下,会构建节点之间的边(key-value对经常是上下关系或左右关系):
水平情况:水平邻居,而且中间没有其它节点;
垂直情况:垂直邻居,而且中间没有其它节点;
同级情况:同级节点;
使用图网络来实体之间的关系进进建模
基于Graph Attention Network (GAT)来对节点关系进行建模,节点初始(输入)特征:
视觉特征:网页中对节点的视觉类描述;
文本特征:OpenIE是对预训练Bert进行特征平均,CloseIE则是统计该节点字符串出现的频率(似乎对跨领域更友好);
预训练机制
论文设计了辅助的损失函数L_{pre}
关系预测网络
OpenIE
判断一对节点是否满足第一个节点字符串内容是第二个节点字符串内容的key:
使用the candidate pair identification algorithm来获取潜在的字符串对;
两个节点的原始输入特征+GNN输出特征+两个节点的关系特征作为分类器输入;
全连接网络进行分类;
ClosedIE
交叉熵多类分类
实验
确实是跨领域任务更加困难。

CloseIE:确实是网址越多,效果越好。

确认各个因素对网络模型效果的影响。
