文本挖掘与分类器技术问答

最新推荐文章于 2025-12-04 20:10:26 发布

原创

最新推荐文章于 2025-12-04 20:10:26 发布 · 736 阅读

·

30

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#文本挖掘 #分类器 #聚类

1、有一款附带可免费下载的软件，需要安装tmsk和riktext，该如何操作？

软件由 Data-Miner Pty. Ltd. 提供，购买了相关产品的用户可获得免费单用户许可证。访问 http://www.data-miner.com ，点击 TMSK 和 RIKTEXT 的链接，查看单用户许可证并接受其条款，声明已购买相关产品。

之后提供用户名 tmskriktext （区分大小写）和密码 780387954332 来下载软件，下载后按照在线提供的安装说明进行安装。

2、如何获取路透社 - 21578数据集的训练文件trn.zip、测试文件tst.zip以及ExerciseFiles.zip文件，这些文件将用于后续练习？

访问 http://www.data - miner.com 的下载部分，找到标记为 “Files for Exercises in Text - Mining Book” 的链接，下载并解压文件 ExerciseFiles.zip ，该文件中有五个文件，其中就包含 trn.zip 和 tst.zip ，这些文件会用于后续章节练习。

3、在训练/测试向量上使用线性分类器时，需要使用哪些程序？对 tmsk.properties 中指定的文件有什么要求？索引文件有什么特点？

在训练/测试向量上使用线性分类器时，需使用的程序是 linear 和 testline 。

tmsk.properties 中指定的文件必须同步，例如索引文件（如果指定了）必须与向量文件对应，否则程序会从不同文件中读取不一致的数据，导致程序崩溃。

索引文件是一个可选参数，可以在属性文件中安全地将其注释掉。指定索引文件的主要好处是执行速度会稍快一些，但在作业中可能不太明显。

4、研究线性分类器和riktext分类器中的精确率 - 召回率权衡问题。讨论为什么召回率上升时精确率会下降。

由于精确率和召回率衡量的是不同类型的错误，若总体错误率保持不变，提高精确率（减少一种类型的错误）会降低召回率（增加另一种类型的错误），这就导致了 精确率 - 召回率权衡 。

对于大多数分类器，可通过简单改变一个常数来进行这种权衡。

5、如何使用 EM 算法进行 k - 均值聚类？

可以通过将公式改为

$$
\max_{\theta_1, \ldots, \theta_k} \sum_{i = 1}^{n} \max_{q_{i,1}, \ldots, q_{i,k}} \sum_{c = 1}^{k} q_{i,c} \ln(\mu_c p_c(x_i \mid \theta_c)),
$$

其中约束条件为 $ q_{i,c} \geq 0 $，且 $ \sum_{c = 1}^{k} q_{i,c} = 1 $，

来得到 $ k $-均值等硬阈值方法。为解决此优化问题，仍可使用 EM 算法，但将 E 步替换为硬聚类分配规则：

若 $ c = \arg\max_l (\mu_l p_l(x_i \mid \theta_l)) $，则 $ q_{i,c} = 1 $，否则 $ q_{i,c} = 0 $。

6、列出使用 EM 算法相对于 k - 均值算法的一个优势。

EM 算法有非常自然的统计解释，并且可以与复杂的统计建模技术相结合。

7、请给出两个适用于从文档中提取命名实体的系统的语言相关特征。

特定语言的词性标注信息、特定语言的句法分块标注信息

8、假设你有 CSV 格式的数据，每行一个案例，类别标签作为第一个字段。请将其转换为 CSV 格式，其中第一个字段是唯一的案例标识符，最后一个字段是案例标签。

可以按照以下步骤进行转换：

为每行添加唯一的案例标识符。可使用 awk 命令添加，例如
bash awk '{print NR,$0}' input.csv > temp.csv
这里 NR 是行号，作为唯一标识符。
调整字段顺序，将类别标签移到最后。可先使用 cut 命令提取字段，再用 paste 命令重新组合。假设除标签外有 n 个字段，命令如下：
bash cut -d',' -f2- input.csv > fields_except_label.csv
提取除标签外的字段；
bash cut -d',' -f1 input.csv > label.csv
提取标签；
bash paste -d',' fields_except_label.csv label.csv > output.csv
重新组合。
将唯一标识符添加到最终结果。使用 paste 命令将唯一标识符和调整后的字段组合：
bash paste -d',' <(awk '{print NR}' input.csv) output.csv > final.csv
这样 final.csv 就是转换后的 CSV 文件，第一个字段是唯一案例标识符，最后一个字段是案例标签。

9、编写一个脚本，（a）将CSV文件中 `Close` 字段替换为两周窗口内先前值的平均值；（b）添加一个名为 `Up` 的目标字段，如果当前 `Close` 值高于前一天的值

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。