3 fasttext文本分类
学习目标
- 了解什么是文本分类及其种类.
- 掌握fasttext工具进行文本分类的过程.
1 文本分类介绍¶
1.1 文本分类概念¶
- 文本分类的是将文档(例如电子邮件,帖子,文本消息,产品评论等)分配给一个或多个类别. 当今文本分类的实现多是使用机器学习方法从训练数据中提取分类规则以进行分类, 因此构建文本分类器需要带标签的数据.
1.2 文本分类种类¶
- 二分类:
- 文本被分类两个类别中, 往往这两个类别是对立面, 比如: 判断一句评论是好评还是差评.
- 单标签多分类:
- 文本被分入到多个类别中, 且每条文本只能属于某一个类别(即被打上某一个标签), 比如: 输入一个人名, 判断它是来自哪个国家的人名.
- 多标签多分类:
- 文本被分人到多个类别中, 但每条文本可以属于多个类别(即被打上多个标签), 比如: 输入一段描述, 判断可能是和哪些兴趣爱好有关, 一段描述中可能即讨论了美食, 又太讨论了游戏爱好.
- 实际开发解决方案:转成多个二分类来解决
2 文本分类的过程¶
- 第一步: 获取数据
- 第二步: 训练集与验证集的划分
- 第三步: 训练模型
- 第四步: 使用模型进行预测并评估
- 第五步: 模型调优
- 第六步: 模型保存与重加载
2.1 获取数据¶
数据集介绍,本案例烹饪相关的数据集, 它是由facebook AI实验室提供的演示数据集