4 ELMo模型介绍

学习目标

了解什么是ELMo.
掌握ELMo的架构.
掌握ELMo的预训练任务.
了解ELMo的效果和成绩.
了解ELMo的优缺点.

1 ELMo简介

ELMo是2018年3月由华盛顿大学提出的一种预训练模型.

ELMo的全称是Embeddings from Language Models.
ELMo模型的提出源于论文<< Deep Contextualized Word Representations >>.
ELMo模型提出的动机源于研究人员认为一个好的预训练语言模型应该能够包含丰富的句法和语义信息, 并且能够对多义词进行建模. 而传统的词向量(2013年的word2vec, 2014年的GloVe)都是上下文无关的, 也就是固定的词向量. 最典型的例子就是"apple"在不同的语境下, 应该可以表示水果或公司, 但是固定的词向量显然无法做到这一点. 因此研究团队利用新的语言模型训练一个上下文相关的预训练模型, 成为ELMo, 并在6个NLP任务上获得提升.
这是第一个支持动态词向量的语言模型

2 ELMo的架构¶

2.1 总体架构¶

从上面的架构图中可以看到, 宏观上ELMo分三个主要模块.

最底层黄色标记的Embedding模块.
中间层蓝色标记的两部分双层LSTM模块.