2 文本处理的基本方法
学习目标¶
- 了解什么是分词, 词性标注, 命名实体识别及其它们的作用.
- 掌握分词, 词性标注, 命名实体识别流行工具的使用方法.
1 什么是分词¶
- 分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符。分词过程就是找到这样分界符的过程.
- 举个例子:
`传智教育是一家上市公司,旗下有黑马程序员品牌。我是在黑马这里学习人工智能
['传智', '教育', '是', '一家', '上市公司', ',', '旗下', '有', '黑马', '程序员', '品牌', '。', '我', '是', '在', '黑马', '这里', '学习', '人工智能']`
- 分词的作用:
- 词作为语言语义理解的最小单元, 是人类理解文本语言的基础. 因此也是AI解决NLP领域高阶任务, 如自动问答, 机器翻译, 文本生成的重要基础环节.
- 流行中文分词工具jieba:(比如还有snowNLP,pyltp:哈工大,THULAC:清华的,ik分词器:elasticsearch推出的)
- 愿景: “结巴”中文分词, 做最好的 Python 中文分词组件.
- jieba的特性:
- 支持多种分词模式
- 支持中文繁体分词
- 支持用户自定义词典
记录一些指令:
- conda env list
- conda create -n 沙箱名 python=3.10
- conda activate 沙箱名
- pip list 查看自己装了哪些pip包