ERNIE - 清华详解

发布网友发布时间：2024-09-15 03:09

共1个回答

热心网友时间：2024-12-13 15:53

ERNIE,即Enhanced Language Representation with Informative Entities，是研究者们通过增强BERT模型，将显性知识融入其中，以提升模型在知识驱动任务中的表现。尽管百度的ERNIE模型也具有影响力，但其知识的注入方式为隐性。清华大学的研究着重于通过模型结构的调整，融合知识和语言语义，清华ERNIE与华为ZEN模型在结构上有所相似，但目前效果上不如ZEN，后者通过N-gram而非实体融合，且融合策略不同。

关键问题在于如何从文本中提取知识，并与BERT的上下文语义嵌入相结合。模型的核心包括T-Encoder和K-Encoder：T-Encoder负责文本的词法和语义编码，有N层；K-Encoder则处理知识实体嵌入及融合，有M层。输入文本以subword级别处理，实体嵌入使用transE模型，通过（H，R，T）构建关系和实体向量。然而，早期的transE模型仅适用于一对一关系，不适用于多对多或一对多的关系。

ERNIE模型的主要作用在于，通过multi-head self-attentions（MH-ATTs）结合token和entity嵌入，进行信息融合，使用非简单的加法，而是combine和divide过程。预训练阶段通过denoising entity auto-encoder（dEA）增强模型，训练时要求模型根据mask的token预测对应的entities。而在特定任务的fine-tuning阶段，分类任务依赖于[CLS]输出，而知识驱动任务则要求更高的NER准确度和适度的模型简化。

ERNIE - 清华 详解

ERNIE - 清华详解