3 文本张量表示方法

学习目标¶

了解什么是文本张量表示及其作用.
掌握文本张量表示的几种方法及其实现.

1 文本张量表示

将一段文本使用张量进行表示，其中一般将词汇表示成向量，称作词向量，再由各个词向量按顺序组成矩阵形成文本表示.
举个例子:

`["人生", "该", "如何", "起头"]

==>

每个词对应矩阵中的一个向量

[[1.32, 4,32, 0,32, 5.2], [3.1, 5.43, 0.34, 3.2], [3.21, 5.32, 2, 4.32], [2.54, 7.32, 5.12, 9.54]]`

文本张量表示的作用:
- 将文本表示成张量（矩阵）形式，能够使语言文本可以作为计算机处理程序的输入，进行接下来一系列的解析工作.
文本张量表示的方法:
- one-hot编码
- Word2vec
- Word Embedding

2 one-hot词向量表示

又称独热编码，将每个词表示成具有n个元素的向量，这个词向量中只有一个元素是1，其他元素都是0，不同词汇元素为0的位置不同，其中n的大小是整个语料中不同词汇的总数.
举个例子:

["改变", "要", "如何", "起手"] ==>

[[1, 0, 0, 0], [0, 1, 0, 0], [0, 0, 1, 0], [0, 0, 0, 1]]`

onehot编码实现:在下面两种方式出现之前,还是相当常见的

• 进行onehot编码:

import jieba
# 导入keras中的词汇映射器Tokenizer
from tensorflow.keras.preprocessing.text import Tokenizer
# 导入用于对象保存与加载的joblib
from sklearn.externals import joblib

# 思路分析 生成onehot
# 1 准备语料 vocabs
# 2 实例化词汇映射器Tokenizer, 使用映射器拟合现有文本数据 (内部生成 index_word word_index)
# 2-1 注意idx序号-1
# 3 查询单词idx 赋值 zero_list，生成onehot
# 4 使用joblib工具保存映射器 joblib.dump()
def dm_onehot_gen():

    # 1 准备语料 vocabs,模拟句子切词后的内容
    vocabs = {"周杰伦", "陈奕迅", "王力宏", "李宗盛", "吴亦凡", "鹿晗"}

    # 2 实例化词汇映射器Tokenizer, 使用映射器拟合现有文本数据 
    #  (内部生成 index_word word_index)
    # 2-1 注意idx序号-1
    mytokenizer = Tokenizer()
    mytokenizer.fit_on_texts(vocabs)

    # 3 查询单词idx 赋值 zero_list，生成onehot
    for vocab in vocabs:
        zero_list = [0] * len(vocabs)# 列表长度=文本切词去重后的总长
        idx = mytokenizer.word_index[vocab] - 1#这就是我们生成的那个
        zero_list[idx] = 1
        print(vocab, '的onehot编码是', zero_list)

    # 4 使用joblib工具保存映射器 joblib.dump().这是一个保存对象的工具
    # 因为每次生成的词表其实是不一样的,并不是"周杰伦"就一定index为1,所以要保存
    mypath = './mytokenizer'
    joblib.dump(mytokenizer, mypath)
    print('保存mytokenizer End')

    # 注意5-1 字典没有顺序 onehot编码没有顺序 []-有序 {}-无序 区别
    # 注意5-2 字典有的单词才有idx idx从1开始
    # 注意5-3 查询没有注册的词会有异常 eg: 狗蛋
    print(mytokenizer.word_index)
    print(mytokenizer.index_word)

• 输出效果:

`陈奕迅的onehot编码是 [1, 0, 0, 0, 0, 0] 王力宏的onehot编码是 [0, 1, 0, 0, 0, 0] 鹿晗的onehot编码是 [0, 0, 1, 0, 0, 0] 周杰伦的onehot编码是 [0, 0, 0, 1, 0, 0] 李宗盛的onehot编码是 [0, 0, 0, 0, 1, 0] 吴亦凡的onehot编码是 [0, 0, 0, 0, 0, 1]

保存mytokenizer End

{'陈奕迅': 1, '王力宏': 2, '鹿晗': 3, '周杰伦': 4, '李宗盛': 5, '吴亦凡': 6} {1: '陈奕迅', 2: '王力宏', 3: '鹿晗', 4: '周杰伦', 5: '李宗盛', 6: '吴亦凡'}`