文本数据如何转换成计算机能够计算的数据

文本数据如何转换成计算机能够计算的数据
在这里插入图片描述
首先我们把语料读进来,然后要把作为文本信息的语料,转换为可以进行数学计算的数字形式。我们首先要统计语料中的所有词语(如果是中文的话还要先进行分词处理),然后建立一个字典,让每一个词语都唯一对应一个数字ID,最后再把每一句话都变成跟词语一一对应的一串数字ID,这个过程叫做tokenization,一般翻译成“标记化”或者“令牌化”。


  1. 词袋模型(Bag of Words Model)

把文本(段落或者文档)看作无序的集合,忽略语法和单词的顺序,计算每个单词出现的次数

实战步骤:

例如有三句话语料

["机器学习带动人工智能飞速的发展。",

           "深度学习带动人工智能飞速的发展。",

           "机器学习和深度学习带动人工智能飞速的发展。"

          ] 

1.引入 jieba 分词器、语料和停用词集合

2.对语料进行分词操作,用到 lcut() 方法:

3.去掉停用词和标点符号

4.把所有的分词放到一个袋子(List)里面,取并集,去重,得到特征词结果

['飞速', '的', '深度', '人工智能', '发展&#
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值