文本挖掘与分类器技术问答

1、有一款附带可免费下载的软件,需要安装tmsk和riktext,该如何操作?

软件由 Data-Miner Pty. Ltd. 提供,购买了相关产品的用户可获得免费单用户许可证。访问 http://www.data-miner.com ,点击 TMSK 和 RIKTEXT 的链接,查看单用户许可证并接受其条款,声明已购买相关产品。

之后提供用户名 tmskriktext (区分大小写)和密码 780387954332 来下载软件,下载后按照在线提供的安装说明进行安装。

2、如何获取路透社 - 21578数据集的训练文件trn.zip、测试文件tst.zip以及ExerciseFiles.zip文件,这些文件将用于后续练习?

访问 http://www.data - miner.com 的下载部分,找到标记为 “Files for Exercises in Text - Mining Book” 的链接,下载并解压文件 ExerciseFiles.zip ,该文件中有五个文件,其中就包含 trn.zip tst.zip ,这些文件会用于后续章节练习。

3、在训练/测试向量上使用线性分类器时,需要使用哪些程序?对 tmsk.properties 中指定的文件有什么要求?索引文件有什么特点?

在训练/测试向量上使用线性分类器时,需使用的程序是 linear testline

tmsk.properties 中指定的文件必须同步,例如索引文件(如果指定了)必须与向量文件对应,否则程序会从不同文件中读取不一致的数据,导致程序崩溃。

索引文件是一个可选参数,可以在属性文件中安全地将其注释掉。指定索引文件的主要好处是执行速度会稍快一些,但在作业中可能不太明显。

4、研究线性分类器和riktext分类器中的精确率 - 召回率权衡问题。讨论为什么召回率上升时精确率会下降。

由于精确率和召回率衡量的是不同类型的错误,若总体错误率保持不变,提高精确率(减少一种类型的错误)会降低召回率(增加另一种类型的错误),这就导致了 精确率 - 召回率权衡

对于大多数分类器,可通过简单改变一个常数来进行这种权衡。

5、如何使用 EM 算法进行 k - 均值聚类?

可以通过将公式改为

$$
\max_{\theta_1, \ldots, \theta_k} \sum_{i = 1}^{n} \max_{q_{i,1}, \ldots, q_{i,k}} \sum_{c = 1}^{k} q_{i,c} \ln(\mu_c p_c(x_i \mid \theta_c)),
$$

其中约束条件为 $ q_{i,c} \geq 0 $,且 $ \sum_{c = 1}^{k} q_{i,c} = 1 $,

来得到 $ k $-均值等硬阈值方法。为解决此优化问题,仍可使用 EM 算法,但将 E 步替换为硬聚类分配规则:

若 $ c = \arg\max_l (\mu_l p_l(x_i \mid \theta_l)) $,则 $ q_{i,c} = 1 $,否则 $ q_{i,c} = 0 $。

6、列出使用 EM 算法相对于 k - 均值算法的一个优势。

EM 算法有非常自然的统计解释,并且可以与复杂的统计建模技术相结合。

7、请给出两个适用于从文档中提取命名实体的系统的语言相关特征。

特定语言的词性标注信息、特定语言的句法分块标注信息

8、假设你有 CSV 格式的数据,每行一个案例,类别标签作为第一个字段。请将其转换为 CSV 格式,其中第一个字段是唯一的案例标识符,最后一个字段是案例标签。

可以按照以下步骤进行转换:

  1. 为每行添加唯一的案例标识符。可使用 awk 命令添加,例如
    bash awk '{print NR,$0}' input.csv > temp.csv
    这里 NR 是行号,作为唯一标识符。

  2. 调整字段顺序,将类别标签移到最后。可先使用 cut 命令提取字段,再用 paste 命令重新组合。假设除标签外有 n 个字段,命令如下:
    bash cut -d',' -f2- input.csv > fields_except_label.csv
    提取除标签外的字段;
    bash cut -d',' -f1 input.csv > label.csv
    提取标签;
    bash paste -d',' fields_except_label.csv label.csv > output.csv
    重新组合。

  3. 将唯一标识符添加到最终结果。使用 paste 命令将唯一标识符和调整后的字段组合:
    bash paste -d',' <(awk '{print NR}' input.csv) output.csv > final.csv
    这样 final.csv 就是转换后的 CSV 文件,第一个字段是唯一案例标识符,最后一个字段是案例标签。

9、编写一个脚本,(a)将CSV文件中 Close 字段替换为两周窗口内先前值的平均值;(b)添加一个名为 Up 的目标字段,如果当前 Close 值高于前一天的值

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值