4 训练词向量
学习目标¶
- 了解词向量的相关知识.
- 掌握fasttext工具训练词向量的过程.
1 训练词向量介绍¶
1.1 词向量的相关知识:¶
- 用向量表示文本中的词汇(或字符)是现代机器学习中最流行的做法, 这些向量能够很好的捕捉语言之间的关系, 从而提升基于词向量的各种NLP任务的效果.
1.2 练词向量的过程¶
- 第一步: 获取数据
- 第二步: 训练词向量
- 第三步: 模型超参数设定
- 第四步: 模型效果检验
- 第五步: 模型的保存与重加载
2 实现步骤¶
2.1 数据介绍¶
数据集仍然使用:英语维基百科的部分网页信息
注意:原始数据集已经放在/root/data/enwik9.zip,解压后数据为/root/data/enwik9,预处理后的数据为/root/data/fil9
# 查看前80个字符
head -c 80 data/fil9
# 输出结果为由空格分割的单词
anarchism originated as a term of abuse first used against early working class
2.2 训练词向量¶