打造个性化新闻源与预测内容传播力
打造个性化新闻源
文本预处理
在处理文章语料时,我们使用了一些关键参数对文本进行预处理。首先是 stop_words ,我们传入 english 来去除所有英文停用词,这些词缺乏信息内容,去除它们有助于提高数据的质量。接着是 min_df ,它会去除那些在至少三篇文档中都未出现的单词,这样可以减少非常罕见的术语,从而缩小矩阵的规模。
支持向量机(SVM)
我们使用线性支持向量机(SVM)作为分类器。SVM 是一种尝试使用最大间隔超平面将数据点线性分离到不同类别的算法。假设我们有两类数据,想要用一条线将它们分开,最有效的方法是找到最大间隔线,即位于每类最近点之间中心的线,这些最近点被称为支持向量。
如果数据不能如此整齐地分离,有两种解决方案。一种是使用软间隔 SVM,它仍然会最大化间隔,但对于落在间隔错误一侧的点会进行惩罚。另一种是使用核技巧,将数据转换到更高维的空间,使数据能够线性分离。
以下是将 tf - idf 矩阵输入 SVM 进行训练的代码:
from sklearn.svm import LinearSVC
clf = LinearSVC()
model = clf.fit(tv, df['wanted'])
这里, tv 是我们的矩阵, df['wanted'] 是我们的标签列表,标签为
超级会员免费看
订阅专栏 解锁全文
21

被折叠的 条评论
为什么被折叠?



