文本分类（六）：使用fastText对文本进行分类--小插曲

最新推荐文章于 2025-09-18 15:43:48 发布

原创

最新推荐文章于 2025-09-18 15:43:48 发布 · 5.2w 阅读

70 ·

CC 4.0 BY-SA版权

文章标签：

#文本分类-深度学习 #fasttext

需要注意的问题：
1、linux mac 平台
2、标签中的下划线是两个！两个！两个！

环境说明：python2.7、linux
自己打自己脸，目前官方的包只能在linux，mac环境下使用。误导大家了，对不起。
测试facebook开源的基于深度学习的对文本分类的fastText模型
fasttext python包的安装:

pip install fasttext

第一步获取分类文本，文本直接用的清华大学的新闻分本，可在文本系列的第三篇找到下载地址。
输出数据格式：样本 + 样本标签
说明：这一步不是必须的，可以直接从第二步开始，第二步提供了处理好的文本格式。写这一步主要是为了记忆当时是怎么处理原始文本的。

import jieba
import os

basedir = "/home/li/corpus/news/" #这是我的文件地址，需跟据文件夹位置进行更改
dir_list = ['affairs','constellation','economic','edu','ent','fashion','game','home','house','lottery','science','sports','stock']
##生成fastext的训练和测试数据集

ftrain = open("news_fasttext_train.txt","w")
ftest = open("news_fasttext_test.txt","w")

num = -1
for e in dir_list:
    num += 1
    indir = basedir + e + '/'
    files = os.listdir(indir)
    count = 0
    for fileName in files:
        count += 1            
        filepath = indir + fileName
        with open(filepath,'r') as fr:
            text = fr.read()
        text = text.decode("utf-8").encode("utf-8")
        seg_text = jieba.cut(text.replace<

最低0.47元/天解锁文章

22 条评论

瞧不死的AI 2020.06.09
博主的预测效率如何？我的100分类的模型，预测十几条之后就会变得特别慢？

「已注销」 2020.03.27
博主，我想问一下，训练出来的模型该怎么使用呢？

天下无我这般幸运人 2019.11.10
请问fasttext可以做多标签分类吗，训练数据中一个样本可以有多个类别吗
- 天下无我这般幸运人回复3stone_ 2019.12.05
  [reply]qq_26398495[/reply] 多谢！
- 3stone_回复天下无我这般幸运人 2019.12.04
  [reply]weixin_42582008[/reply] 可以的! 默认直接用softmax加阈值判断实现. 不过参数one-vs-all可以提高训练准确率(背后是把多分类转换成多个二分类)