
爬虫
文章平均质量分 63
迷人的派大星
加油
展开
-
scrapy+elasticsearch实现搜索引擎
前言很久之前就想实现一个小的搜索引擎供自己使用,一来代码量不大,二来也可以屏蔽一些广告。因此在春节期间,在同学提供前端的帮助下,一个小的搜索引擎系统就成型啦。做出来之后总体效果也符合我之前的预期,但引擎的核心部分取了巧,并不是自己去实现的权重排序,而是通过爬虫去抓取其他搜索引擎的结果,算是小小的遗憾,以后有机会自己在补上。效果预览先放几张效果图(需要代码的同学可以评论留下邮箱):主页搜索页1搜索页2总体功能共分为两个部分,主页和结果页搜索框实现了搜索建议补全关键词未命中es时原创 2021-04-08 20:25:05 · 1290 阅读 · 52 评论 -
Java爬虫百度首页
新入Java爬虫,记录一下爬取http://site.baidu.com/并分类存储的思路和实现代码。项目环境Idea + maven + jdk1.8 + tomcat 8 +mysql 8 未采用框架。实现思路:HttpClient构建Http请求获取页面Jsoup解析,结构化数据创建Dao层,连接Mysql数据库,将分类好的数据写入数据库利用Servlet将前台的sele...原创 2019-02-12 20:41:00 · 1411 阅读 · 0 评论 -
scrapy新浪微博爬虫
最近因为做毕设的原因,需要采集一批数据。本着自己动手的原则,从新浪微博上采集到近百位大家耳熟能详的明星14-18年的微博内容。看看大佬们平常都在微博上都有哪些动态吧~1.首先项目采用scrapy编写,省时省力谁用谁知道。采集的网站为weibo.com,是微博的网页端。稍稍麻烦了一点,但相对于移动段和wap站点来说内容稍微更全一点。2.采集之前我们先来看下微博都给我们设置了哪些障碍。登录...原创 2020-06-09 13:04:04 · 4895 阅读 · 4 评论