
爬虫
文章平均质量分 56
君を見つけて
这个作者很懒,什么都没留下…
展开
-
关于webmagic爬虫报错javax.net.ssl.SSLHandshakeException: Received fatal alert: protocol_version
目前webmagic最新版是0.7.3版本,在爬取只支持TLS1.2的https站点会报错javax.net.ssl.SSLHandshakeException: Received fatal alert: protocol_versionat java.base/sun.security.ssl.Alert.createSSLException(Alert.java:131) ~[na:na]at java.base/sun.security.ssl.Alert.createSSLExceptio原创 2020-11-23 13:10:54 · 2508 阅读 · 2 评论 -
SpringBoot集成okhttp3爬虫
一.引入依赖pom依赖如下: <dependency> <groupId>com.squareup.okhttp3</groupId> <artifactId>okhttp</artifactId> <version>3.10.0</version> </dependency>二.在resources目录下配置application.propertie原创 2020-10-07 15:55:48 · 1726 阅读 · 2 评论 -
webMagic调用定制Pipeline/Service/Dao出现 method=‘null‘, extras=null, priority=0, headers={}, cookies={}的解决
背景:根据webMagic官方文档,定制Pipeline的实现类进行数据库保存爬虫信息的操作,那么这个Pipeline类里头就必须通过@AutoWired注解来调用Service或Dao层,结果这里出现了报错.method=‘null’, extras=null, priority=0, headers={}, cookies={}原因:Spring中,自己亲自通过new从而实例化出来的对象是不被Spring所管理的。在webMagic的官方实例中,如果要将抓取的数据进行保存的话,需要自己创建一个实原创 2020-09-27 22:57:52 · 1450 阅读 · 9 评论 -
xPath取指定标签的指定属性值
参考:https://www.cnblogs.com/hhh5460/p/5079465.html案例:主要问题:要取span标签的value属性值,次要问题:因此我们需要定位到这个标签,但有2个问题,一来是class的属性值对应的标签太多,不能当作定位规则,而id的属性值为不确定的,所以需要starts-with语法.解决:格式:/@属性名例如://span[starts-with(@id,'jq_big_home_')]/@value...原创 2020-09-26 19:56:18 · 5158 阅读 · 1 评论 -
xPath去匹配不确定属性值的标签
参考:https://segmentfault.com/q/1010000016145426案例:其中,span标签的id属性值是’jq_homeTeam_xxxx’的格式,值为不固定的,我们需要匹配到这类id属性值的span标签.解决:利用xPath的starts-with()函数去匹配格式://标签名[starts-with(@属性名,'属性值中不变的字符串')]例如://span[starts-with(@id,'jq_homeTeam_')/text()]...原创 2020-09-26 16:18:55 · 793 阅读 · 0 评论 -
WebMagic爬虫框架中,无法进入(运行)到process方法的解决。
本人目前在使用WebMagic爬虫框架,但是根据官方文档来操作,发现使用main方法启动爬虫操作后,重写实现的process方法并未被执行。为此浪费了一上午时间,后来发现是实现类名不一致的问题。就是说,你的实现类名必须为‘GithubRepoPageProcessor’才可以。...原创 2020-09-25 11:40:03 · 1140 阅读 · 2 评论