ERNIE - 清华 详解
发布网友
发布时间:2024-09-15 03:09
我来回答
共1个回答
热心网友
时间:2024-12-13 15:53
ERNIE,即Enhanced Language Representation with Informative Entities,是研究者们通过增强BERT模型,将显性知识融入其中,以提升模型在知识驱动任务中的表现。尽管百度的ERNIE模型也具有影响力,但其知识的注入方式为隐性。清华大学的研究着重于通过模型结构的调整,融合知识和语言语义,清华ERNIE与华为ZEN模型在结构上有所相似,但目前效果上不如ZEN,后者通过N-gram而非实体融合,且融合策略不同。
关键问题在于如何从文本中提取知识,并与BERT的上下文语义嵌入相结合。模型的核心包括T-Encoder和K-Encoder:T-Encoder负责文本的词法和语义编码,有N层;K-Encoder则处理知识实体嵌入及融合,有M层。输入文本以subword级别处理,实体嵌入使用transE模型,通过(H,R,T)构建关系和实体向量。然而,早期的transE模型仅适用于一对一关系,不适用于多对多或一对多的关系。
ERNIE模型的主要作用在于,通过multi-head self-attentions(MH-ATTs)结合token和entity嵌入,进行信息融合,使用非简单的加法,而是combine和divide过程。预训练阶段通过denoising entity auto-encoder(dEA)增强模型,训练时要求模型根据mask的token预测对应的entities。而在特定任务的fine-tuning阶段,分类任务依赖于[CLS]输出,而知识驱动任务则要求更高的NER准确度和适度的模型简化。