机器学习中的逻辑回归与R语言实践
1. 逻辑回归简介
逻辑回归是一种有效的机器学习模型,常用于解决各种文体或文本分类任务。它与线性回归有一定的相似性,线性回归是基于单个或一组自变量来预测数值的有用技术,而逻辑回归在文本分类中有着独特的应用。
2. 以推文分类为例理解逻辑回归
在CLEF PAN 2019评估活动中,有一个任务是识别一组推文是由人类撰写还是由机器人生成。由于单条推文识别难度较大,每次识别基于来自同一来源的100条推文。
推文有各种形式,如缩写(lol、btw等)、表情符号、提及(@nytimes等)、转发、话题标签(#ActOnClimate)和超链接等。为了区分人类(标签H)和机器人(标签B)发送的推文,下面是一些示例:
| ID | Size | Emoji | Face | Mention | Link | Hashtag | Retweet | Category |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| ID - 944 | 1168 | 0 | 0 | 0 | 48 | 0 | 0 | B |
| ID - 424 | 810 | 0 | 0 | 0 | 100 | 0 | 0 | B |
| ID - 233 | 3805 | 0 | 0 | 1 | 202 | 5 | 0 | B |
| ID - 2194 | 1611 | 6 | 0 | 21 | 36 | 87 | 5 | H |
| ID - 3704 | 2085 | 9 | 5 | 132 | 20 |
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



