- 博客(6)
- 收藏
- 关注
原创 使用webmagic 爬取中关村评论
和之前爬取天气网站一样,现在用webmagic爬取中关村在线华为手机的评论。(http://detail.zol.com.cn/405/404275/review.shtml) 之前的天气网站由数据是静态的,解析时很容易就能获取,这次的评论数据不一样,是js动态加载的。f12打开开发人员工具,点击第二页时我们可以在network中看到一条xhr请求 可以发现请求的规律,一款手机对应一个proid
2017-02-22 11:44:02
1107
原创 使用webmagic 爬取天气网站
在WebMagic里,实现一个基本的爬虫只需要编写一个类,实现PageProcessor接口即可。这个类基本上包含了抓取一个网站,你需要写的所有代码。该例子使用webmagic爬取天气网上杭州的历史天气数据,使用Jsoup解析页面,代码如下:package com.yelling.weather.spider;import java.util.List;import org.apache.commo
2017-02-22 10:49:49
2433
原创 java集合类
一、Collection接口Collection是最基本的集合接口,Collection接口继承树如下图:二、List接口List接口继承了Collection接口。List是有序的Collection,使用此接口能够精确的控制每个元素插入的位置。用户能够使用索引(元素在List中的位置,类似于数组下标)来访问List中的元素,这类似于Java的数组。 实现类有ArrayList、Vector、Li
2016-10-29 21:26:06
374
原创 join用法和性能浅析
JOIN 分为:内连接(INNER JOIN)、外连接(OUTER JOIN)。其中,外连接分为:左外连接(LEFT OUTER JOIN)、右外连接(RIGHT OUTER JOIN)、全外连接(FULL OUTER JOIN),其中外连接的“OUTER”关键字可以省略不写。例:表A有列ID,值为:1234表B有列ID,值为:3456
2016-10-23 22:45:29
1977
1
原创 同花顺面试
**1.复制一个10GB文件,运行内存只有8GB**剪切时文件如果在同一分区不移动文件,只更新文件目录。不在同一分区或复制文件的时候,存起来的只是文件的路径和文件名(所谓FullName)。当你粘贴的时候会从这个路径下把文件复制到你粘贴的目录中。分块复制,扇区512B,一个块8扇区4KB。
2016-10-23 19:42:17
2228
原创 Spring 简单的配置
1、导入spring的dist中的jar包和commons-logging包2、在src目录下创建相应的beans.xml3、为beans.xml添加相应的schema
2016-10-20 19:18:53
357
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅