
python学习
Elin_24
百年云烟只过眼,不为繁华易素心
展开
-
第一个爬虫:爬取古诗中带有“月”字的诗句
引言为了练习python,所以到处找资料试着写了一个自己的爬虫。因为是第一个爬虫,所以比较简单,不超过50行。主要源于爬取的网站没有什么限制而且网页排布很规律,也就没有什么技术亮点,单纯的入门爬虫而已。爬取目标及准备python版本:3.4.3爬取对象: 古诗文网(so.gushiwen.org)随便点开一个古诗文网的诗歌页面,观察它的URL地址就会发现,诗歌的地址基本由 “so.gushiwen原创 2017-02-21 10:54:23 · 3460 阅读 · 1 评论 -
使用python做tf-idf算法实践
引入信息内容安全课杨老师讲了一个tf-idf算法,用于提取一篇文档的关键词。觉得蛮好玩又正好练习python,所以就试着写了一下,特此记录,各位看官请轻拍板砖。tf-idf 算法及其原理偷个懒,直接贴维基百科的解释:至于原理,同样贴图(没错,我就这么懒了怎么样吧。。→_→) :如果看维基还是了解不清楚的话,推荐阮一峰大神的博客,这个也是我们的老师上课讲的东西。至于其中的数学原理,从维基的原理就很容易原创 2017-03-27 19:49:50 · 3315 阅读 · 1 评论 -
贝叶斯推断应用:垃圾邮件过滤
附上新博客地址:月光森林引入仍然是“信息内容安全” 课程的一个实验总结。为了理解整个原理,不但重新复习了一边贝叶斯,还因为对“联合概率”理解不透彻,直接翻译了一篇文章 —— 联合概率(翻译)。特此对整个实验进行总结。准备50封邮件,25封垃圾邮件和25封正常邮件操作系统: ubuntu 16.04python版本: 3.5.2参考 : 贝叶斯推断及互联网应用(一...原创 2017-04-06 18:47:25 · 3037 阅读 · 3 评论 -
K-Means 文本聚类
信息内容安全的一个作业, 要求用K-means聚类算法对一定量的新闻文本进行分类。为便于总结,同时交作业,以此记之。原创 2017-04-18 12:27:48 · 3714 阅读 · 0 评论