
数据采集
详细记录了用java采集网站数据的实例和运用
阿泽财商会
作品主页https://mbd.pub/o/m/azcsh,高级人工智能算法训练工程师,人工智能应用工程师,高级工程师,高级信息系统项目管理师,软件设计师,CSM敏捷教练,csdn20周年直播嘉宾,高级健康管理师,会计师。
清华大学出版社《MongoDB游记》数据库教程书作者。专注于人工智能,数据挖掘技术与大数据,云计算与存储等技术的学习与研究。擅长人工智能算法训练,系统响应式开发、数据采集数据清洗和数据分析,分布式云存储运算等技术。熟悉后台系统、云存储计算平台的搭建,擅长解决架构过程中遇到的疑难问题。常用开发语言:java、python、c#、perl、sql。
展开
-
爬虫---如何抓取app的思路和方案
背景2015年,谷歌开始对外部App的内部链接和内容进行抓取,目前已经累计抓取了300多亿个。搜索引擎是内容门户之后的互联网第二次重大技术革命。然而伴随着智能手机的普及,应用软件(APP)取代网页,成为主流的技术。由于APP的内容一度无法被搜索引擎抓取到,人们惊呼,移动互联网将带来一场搜索引擎的生存危机。不过,通过和应用软件开发商的合作,谷歌(微博)已经一定程度上化解了这场危机。日前,谷歌已...原创 2019-07-05 15:05:53 · 20533 阅读 · 6 评论 -
python--爬虫--爬虫学习路线指南
目标拥有爬去大规模数据的能力爬虫的作用利用爬虫我们可以获取大量的价值数据,从而获得感性认识中不能得到的信息,比如:知乎:爬取优质答案,为你筛选出各话题下最优质的内容。豆瓣: 优质的电影淘宝、京东:抓取商品、评论及销量数据,对各种商品及用户的消费场景进行分析。安居客、链家:抓取房产买卖及租售信息,分析房价变化趋势、做不同区域的房价分析。拉勾网、智联:爬取各类职位信息,分析各行业人才需...原创 2019-07-05 14:50:02 · 9792 阅读 · 10 评论 -
遇到问题--python--爬虫--urllib的使用协程没有并发的效果
情况方法代码如下:async def get_product_info(): pagelinks=findNoDealedGoodlookProductInfoLinkt(0, 150000) n = 0 for p in pagelinks: try: n=n+1 print("product_info"...原创 2019-05-27 15:25:24 · 711 阅读 · 0 评论 -
遇到问题--python--爬虫--urllib的post参数类型错误--传输json格式
情况使用代码def fetch_raw_post_meitu(link, data): proxy_support = urllib.request.ProxyHandler({'https': '192.168.11.195:8888'}) opener = urllib.request.build_opener(proxy_support) urllib.requ...原创 2019-05-27 14:56:57 · 1386 阅读 · 0 评论 -
python--爬虫--获取和解析存储网页内容--以薄荷网为例
如需转载请注明出处:python–爬虫–获取和解析存储网页内容–以薄荷网为例我们在之前的文章中已经学习了如何进行数据抓包和截取 以及分析 访问网页。例如:抓取app数据教程–fiddler抓包数据截取-薄荷app为例本章主要 学习怎么获取 分析出来的链接地址的内容,进行解析和进行保存。分析网页或者手机APP请求地址通过观察fiddler中的请求可以发现我们需要抓取的地址。详情可参考...原创 2019-04-10 17:03:03 · 41636 阅读 · 0 评论 -
python–爬虫–模拟登录全面介绍和简例–以抓取雅卓app为例
转载请注明出处:python–爬虫–模拟登录全面介绍和简例–以抓取雅卓app为例我们在前面的文章中已经学习了如果使用python进行数据抓取。但我们常常会遇到一种场景,就是想要获取的页面内容或者接口内容是需要我们登陆后才能看到的。这时候 就需要进行模拟登录。使用python来实现跟在界面上操作登录一样的效果。然后进行登录后的数据抓取。怎么实现这个目的呢,本篇文章会记录相关原理和实际操作。...原创 2019-03-27 11:44:06 · 7679 阅读 · 0 评论 -
java下载网络文件
本篇记录下载网络文件的情况比如说 有一个视频 我现在有它的下载链接 http://www.learnEnglish.com/lesson.avi那么实现下载的代码如下:我要把 视频下载到D盘, 存在dv文件夹中,存为123.avi 则路径为 D:/dv/123.avi // 下载网络文件 int bytesum = 0;原创 2014-12-15 19:01:11 · 4620 阅读 · 2 评论 -
java下载html页面---把网页内容保存成本地html
我们在前面讲到httpclient抓取网页内容的时候 通常都是获取到页面的源代码content存入数据库。详见下文:HTTPClient模块的HttpGet和HttpPosthttpclient常用基本抓取类那么如果我们除了获得页面源代码之外 还想把页面保存到本地存成html应该怎么做呢?其实很简单 我们先来看访问页面获取content的代码 private原创 2015-03-03 11:50:53 · 12039 阅读 · 3 评论 -
httpclient常用基本抓取类
package com.reallyinfo.athena.crawlMethodManager;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;import java.io.Reader;import java.io.UnsupportedEn原创 2014-09-17 11:53:50 · 4364 阅读 · 0 评论 -
java处理数据文本时间小函数积累
// 查找某个字符在字符串中出现的次数public int Charcount(String string, String str) { int ii = 0; if (string == null) return 0; int[] count = new int[string.length()]; // 将字符串中索引字符存在临时变量中 char mid = str原创 2014-01-03 18:13:50 · 2001 阅读 · 0 评论 -
httpclient模拟登录
我们在用java的httpclient爬取网站数据时原创 2014-07-08 18:20:53 · 4116 阅读 · 0 评论 -
httpclient使用代理ip
在浏览一些网站的时候由于各种原因,无法进行访问。 频繁访问也可能这时我们需要通过IE,FireFox进行Http的代理设置, 当然httpClient也为我们提供这样的设置原创 2014-07-08 18:07:26 · 14462 阅读 · 0 评论 -
java httpclient访问某些网页报403错误
应该是某些网站对这种“网络收集器”类的东西进行了过滤,你设置请求头伪装成浏览器应该可以的 就是需要setheader 代码如下: httpclient 模拟浏览器动作需注意的cookie和HTTP头等信息commons-httpclient是apache下的一个开源项目,提供了一个纯java实现的http客户端,使用它可以很方便发送HTTP请求,接受HTTP应答转载 2014-03-19 15:38:04 · 9062 阅读 · 0 评论 -
java-jsoup自适应爬取网页表格的内容
在爬取数据的过程中,我们有时候需要爬取页面中的表格 但表格的样式千变万化 下面的类和方法可以解析大部分的表格 得到 属性名 和 对应值. 需要的包链接: http://download.youkuaiyun.com/detail/q383965374/5960953类如下:TestCrawTable -----测试类pa原创 2014-01-24 15:32:34 · 8743 阅读 · 1 评论 -
java获取页面cookie的两种方式
方式一:jsoup Connection conn = Jsoup.connect("http://www.17sct.com/city.php?name=CHANGZHOU"); conn.method(Method.GET); conn.followRedirects(false); Response response = conn.execute(); Sys转载 2014-01-03 10:56:37 · 25999 阅读 · 0 评论 -
HTTPClient模块的HttpGet和HttpPost
Android SDK集成了Apache HttpClient模块。要注意的是,这里的Apache HttpClient模块是HttpClient 4.0(org.apache.http.*),而不是常见的Jakarta Commons HttpClient 3.x(org.apache.commons.httpclient.*)。 HttpClient常用HttpGet和转载 2013-12-14 16:44:54 · 25217 阅读 · 0 评论 -
java-jsoup解析html页面的内容
前面一篇文章讲述了 怎么用httpclient发送页面请求,下面要做的就是 爬取请求到的页面的 内容了。 jsoup可以帮助我们很好的解析页面内容。具体例子我们在上文的框架里做示范。上文链接:http://blog.youkuaiyun.com/zzq900503/article/details/10006751 jsoup的介绍:http://baike.baidu.com/view/406原创 2013-08-19 15:19:55 · 23593 阅读 · 2 评论 -
java-httpclient通过title实现从baidu爬取相关网页链接
思路是:1.构造百度搜索的链接2.初始化一个httpclient对象3.用httpclient发送请求,返回页面content (要判断页面编码)4.提取页面上的链接(可用正则式也可用jsoup)需要的包链接:http://download.youkuaiyun.com/detail/q383965374/5960953新建一个工程原创 2013-08-16 17:43:21 · 8696 阅读 · 7 评论