1、有一款附带可免费下载的软件,需要安装tmsk和riktext,该如何操作?
软件由 Data-Miner Pty. Ltd. 提供,购买了相关产品的用户可获得免费单用户许可证。访问 http://www.data-miner.com ,点击 TMSK 和 RIKTEXT 的链接,查看单用户许可证并接受其条款,声明已购买相关产品。
之后提供用户名 tmskriktext (区分大小写)和密码 780387954332 来下载软件,下载后按照在线提供的安装说明进行安装。
2、如何获取路透社 - 21578数据集的训练文件trn.zip、测试文件tst.zip以及ExerciseFiles.zip文件,这些文件将用于后续练习?
访问 http://www.data - miner.com 的下载部分,找到标记为 “Files for Exercises in Text - Mining Book” 的链接,下载并解压文件 ExerciseFiles.zip ,该文件中有五个文件,其中就包含 trn.zip 和 tst.zip ,这些文件会用于后续章节练习。
3、在训练/测试向量上使用线性分类器时,需要使用哪些程序?对 tmsk.properties 中指定的文件有什么要求?索引文件有什么特点?
在训练/测试向量上使用线性分类器时,需使用的程序是 linear 和 testline 。
tmsk.properties 中指定的文件必须同步,例如索引文件(如果指定了)必须与向量文件对应,否则程序会从不同文件中读取不一致的数据,导致程序崩溃。
索引文件是一个可选参数,可以在属性文件中安全地将其注释掉。指定索引文件的主要好处是执行速度会稍快一些,但在作业中可能不太明显。
4、研究线性分类器和riktext分类器中的精确率 - 召回率权衡问题。讨论为什么召回率上升时精确率会下降。
由于精确率和召回率衡量的是不同类型的错误,若总体错误率保持不变,提高精确率(减少一种类型的错误)会降低召回率(增加另一种类型的错误),这就导致了 精确率 - 召回率权衡 。
对于大多数分类器,可通过简单改变一个常数来进行这种权衡。
5、如何使用 EM 算法进行 k - 均值聚类?
可以通过将公式改为
$$
\max_{\theta_1, \ldots, \theta_k} \sum_{i = 1}^{n} \max_{q_{i,1}, \ldots, q_{i,k}} \sum_{c = 1}^{k} q_{i,c} \ln(\mu_c p_c(x_i \mid \theta_c)),
$$
其中约束条件为 $ q_{i,c} \geq 0 $,且 $ \sum_{c = 1}^{k} q_{i,c} = 1 $,
来得到 $ k $-均值等硬阈值方法。为解决此优化问题,仍可使用 EM 算法,但将 E 步替换为硬聚类分配规则:
若 $ c = \arg\max_l (\mu_l p_l(x_i \mid \theta_l)) $,则 $ q_{i,c} = 1 $,否则 $ q_{i,c} = 0 $。
6、列出使用 EM 算法相对于 k - 均值算法的一个优势。
EM 算法有非常自然的统计解释,并且可以与复杂的统计建模技术相结合。
7、请给出两个适用于从文档中提取命名实体的系统的语言相关特征。
特定语言的词性标注信息、特定语言的句法分块标注信息
8、假设你有 CSV 格式的数据,每行一个案例,类别标签作为第一个字段。请将其转换为 CSV 格式,其中第一个字段是唯一的案例标识符,最后一个字段是案例标签。
可以按照以下步骤进行转换:
-
为每行添加唯一的案例标识符。可使用
awk命令添加,例如
bash awk '{print NR,$0}' input.csv > temp.csv
这里NR是行号,作为唯一标识符。 -
调整字段顺序,将类别标签移到最后。可先使用
cut命令提取字段,再用paste命令重新组合。假设除标签外有n个字段,命令如下:
bash cut -d',' -f2- input.csv > fields_except_label.csv
提取除标签外的字段;
bash cut -d',' -f1 input.csv > label.csv
提取标签;
bash paste -d',' fields_except_label.csv label.csv > output.csv
重新组合。 -
将唯一标识符添加到最终结果。使用
paste命令将唯一标识符和调整后的字段组合:
bash paste -d',' <(awk '{print NR}' input.csv) output.csv > final.csv
这样final.csv就是转换后的 CSV 文件,第一个字段是唯一案例标识符,最后一个字段是案例标签。

最低0.47元/天 解锁文章
1094

被折叠的 条评论
为什么被折叠?



