
高级爬虫
网络公开数据获取的相关知识。
捉虫大仙里
80个产业链,8000个行业,6000个市场以及8000多万家企业数据,累积数据量超80亿,挖掘2亿全国企业关联上千维度数据的潜在价值,专注Windows捉虫一把梭。用计算机语言诠释现实世界,有什么好的建议可以给我留言,我会及时回复滴!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
个人对于现下《人工智能AI》火热的若干点看法
这个热度炒起来以后,在国内的话给人感觉就是GJ层面要推这个事情,但是呢又不会全面快速铺开,也就SZ这种大一线城市宣传的多一些,有做实际的相应工作。估计GJ层面也看到了这一点,现在私有数据也很重要,不会轻易开放重要的数据给到国外,推测这也是人工智能不会那么快速推的原因,不然用国外人开源的。数据,样本数据大多数是他们国外人自己的数据,中国的数据貌似他们搞不到多少,出来的结果很明显偏西方化,对中国文化的理解还是不到位的。是一个趋势,但是最终怎么样也不好说,就像之前的。概念的提出,国外搞的。原创 2024-09-23 10:04:21 · 334 阅读 · 1 评论 -
最新Solr语法,读我一篇即可
以客户端界面版做演示,网上很多教程都没有直接给出api接口链接,导致语法学习苦不堪言,今天我就传授大家实用的,同时给出url链接可直接使用。 一、下面我们开始吧 先上图solr客户端界面q里面的语法类似于sql里面的companyname="公司名"、id=1的语法,前提是该字段是做了索引和分词效果的才能有效哦。...原创 2021-12-28 15:27:57 · 404 阅读 · 0 评论 -
C#使用iTextSharp判断pdf是否损坏
try { using(PdfReader reader = new PdfReader(inputfileFullName)) { } } catch (Exception ex) { string outTxt = $"【Pdf打不开】>>>【{inputfileFullName}】>>>【{DateTime.Now:yyyyMMdd HH:mm:ss}】..原创 2021-04-23 11:34:57 · 907 阅读 · 0 评论 -
手机端模拟操作+http请求
手机端模拟操作+http请求,解决app无法正常监控到数据包的需求。在采集数据的过程中,发现越来越多的站点倾向于手机端的布局了,手机端比web端的数据更丰富,并且是标准的json数据,很多时候通过分析app端的链接可以解决很多电脑端防御严的问题。那么问题来了,怎么样方便我们监听app端的数据包呢?我们知道电脑端用浏览器请求数据的时候会发送对应的数据包,我们要的数据就藏在这些 包里面,要监听的方式可以有很多种都可以做到,浏览器就在自己电脑上面,操作起来很方便。但是回到手机上面就没那么方便了,比较常见的原创 2020-08-14 09:39:17 · 1684 阅读 · 0 评论 -
Csharp的小伙伴们,Tensorflowsharp走起!
Csharp的小伙伴们,Tensorflowsharp走起!1、常见验证码识别,使用Tensorflowsharp识别起来如此soeasy it is very good nice for you,so you must can fly,it is so cool!2、基于谷歌二代机器学习,人工智能,数字字母验证你值得拥有!...原创 2020-06-22 10:37:51 · 444 阅读 · 0 评论 -
C# 字体文件处理using System.Windows.Media.Imaging该引用哪个dll
System.Windows.Media.GlyphTypeface glyphTypeface = new System.Windows.Media.GlyphTypeface(fontFileURI);找不到相关的引用,非常邪门,奶奶的锤子!只需要在引用-->程序集-->框架-->PresentationCore找到这个就行了,另外我发现using System.Windows.Media不仅仅是在PresentationCore中有,而且WindowsBase也有引用方式.原创 2020-05-29 10:57:55 · 833 阅读 · 0 评论 -
一行代码视频下载,so easy!
string spUrl = "https://mpvideo.qpic.cn/0bf2ieaaeaaavmabrbwcbjpfaqodajaqaaqa.f10002.mp4?dis_k=71227019967fc5db1ea83de65240ccde&dis_t=1590399777"; string path = "C://"; string fileName = "测试视频下载.mp4"; bool flg = FileIoHelp.Downl...原创 2020-05-25 21:05:55 · 2939 阅读 · 1 评论 -
爬虫代理哪家强?十大付费代理详细对比评测出炉!
技术分享,原文地址:https://cuiqingcai.com/5094.html侵权请联系删除前言随着大数据时代的到来,爬虫已经成了获取数据的必不可少的方式,做过爬虫的想必都深有体会,爬取的时候莫名其妙 IP 就被网站封掉了,毕竟各大网站也不想自己的数据被轻易地爬走。对于爬虫来说,为了解决封禁 IP 的问题,一个有效的方式就是使用代理,使用代理之后可以让爬虫伪装自己的真实 IP...转载 2020-02-07 11:02:10 · 796 阅读 · 0 评论 -
欠税公告信息获取
税务信息相关的信息,对于企业来说还是蛮有用的。鉴于地税和国税合并之后,国家统一了各省市地区的税务局入口,但是还是有不少省市地区的规范不一致的,需要收集相关数据的话,我们首先应该收集一波各省市地区源站的特征进行分析,万变不离其中,这种通用型的框架原型采集相关数据是非常有必要的。按照标准建立好表原型,将数据统一采集下来之后,即时解析入库,即可成为能直接使用的数据了。以天津市税务局欠税信息为...原创 2020-01-07 14:28:57 · 639 阅读 · 0 评论 -
Fiddler小技巧
fiddler作为一个程序猿+测试媛必备的工具,其他除了最基本的使用方法之外,还有很多强大到不行小技巧下面将遇到的一些坑爹的问题或者可以变得更方便的方式列举一下~当然比较小白的问题,比如如何抓手机的包啊这些已经排除在外了哈一、tunnel to 443 是什么鬼!这个tunnel to 443也的确是挺不顺眼的,正如stackoverfolw上的回答一样,我们可以看见这样一句话...转载 2019-12-13 16:56:10 · 692 阅读 · 0 评论 -
常用学习资料的记录
C# HTML解析工具HtmlAgilityPack使用简介 开源项目Html Agility Pack实现快速解析Html Xpath判断某个属性是否包含或不包含指定的属性或值 黄聪:C#中HtmlAgilityPack判断是否包含或不包含指定的属性或值 Fiddler抓包简易教程 不负此生,待我代码写成,便娶你为妻。 Aspose.Cells中文版文档 Aspose.Cells使...原创 2019-11-25 09:52:00 · 177 阅读 · 0 评论 -
记录几个解析数据时候用到的技能点
2019年11月25日09:54:46获取本地ipstring localIp = string.Empty;string hostName = Dns.GetHostName();//使用Dns获取ip地址可能会有多个Console.WriteLine("--------DNS获取--------");IPAddress[] addres = Dns.GetHostAddres...原创 2019-10-31 13:58:07 · 161 阅读 · 0 评论 -
记录一次左连接的使用
左连接还是挺好用的,就是初次使用不怎么熟练。var leftList = from spider in spideResultsjoin upload in mydataResults on spider.SiteName equals upload.SiteNameinto datafrom myData in data.DefaultIfEmpty()select new {...原创 2019-08-23 14:55:51 · 3712 阅读 · 0 评论 -
企业维度数据的补全是个头疼的问题
全国企业名录的补全 软著、版权的补全 裁判文书的补全企业名录的补全是第一步,名录齐全了。我们才有更准确的任务源知道哪些公司需要补全哪些信息的,其实在这之前我们应该准确的判断出来每个企业的性质,该企业会不会有软著、版权、裁判文书。最近也找了很多补全数据的站点,比较优质的站点都会涉及到账号的问题,这个也是未来抓取的一个趋势,账号成本只会越来越贵,因为你要的不是一次性的用完就丢弃这些账号了,那...原创 2019-07-09 12:24:15 · 8096 阅读 · 0 评论 -
记录一个百度地图的矩形区域搜索算法
矩形区域其实就是x、y左右每次加一定数值,矩形有四个坐标。例如深圳地区的矩形区域是:22.449954,22.866712,113.757547,114.640617然后每次从22.449954增加0.01一直到22.866712113.757547增加0.01一直到114.640617,两个循环组合出来的集合的所有坐标都遍历一遍。List<string> ur...原创 2019-07-01 17:43:52 · 11256 阅读 · 2 评论 -
最新2019全国各省市地区企业数量统计
全国来看1.9亿的企业+个体户,实际企业性质的居然只有不到6000万,有价值的就是这公司性质的6000万数据,不过想要拿全这些名单一直以来都是一个头疼的问题,并且还得持续更新到最新注册日期的企业,大家有什么好的办法可以给我留言,不排除付费合作的可能性哦。2019年全国各省市地区企业数量统计...原创 2019-06-29 11:50:07 · 53126 阅读 · 7 评论 -
粗放时代到规范时代,爬虫该何去何从?
粗放时代的特点表现在以下几个方面 粗放时代:无账户或者若账户(非强制注册或者简单方式可以注册)商业模式:流量模式,通过流量来获取广告,通过广告盈利。防御措施:弱,不影响正常使用的情况下放任。被识别后果弱。代表站点:黄页类网站、企查查、某些信用网……规范时代的特点表现在以下几个方面规范时代:强账号体系(注册成本加大,真实身份验证)商业模式:不简单追求流量,更看重实...原创 2019-06-27 10:55:17 · 9465 阅读 · 0 评论 -
C# 简单实用的文件重命名方式
简单实用,两行代码解决问题。soeasy for youFileInfo fi = new FileInfo(fileName);fi.MoveTo(newFileName);//重命名文件//当有可能出现重名文件时会报异常,需要捕获下。//另外想到一个比较好的方法就是做下文件是否存在的判断。try { //xx/xx/aa.rar string fi...原创 2019-06-24 15:15:06 · 10406 阅读 · 2 评论 -
一句代码解决:请求被中止,未能创建 SSL/TLS 安全通道问题
HTTP请求的时候遇到请求被中止,未能创建 SSL/TLS 安全通道,如何解决呢? 以C#为例,我贴下代码,大家一试便知效果如何咯! public bool Request_www_tamigos_com(out HttpWebResponse response) { response = null; ...原创 2019-06-18 18:46:54 · 15311 阅读 · 3 评论 -
个人对爬虫框架的一些认知(四)
上章讲解了代理方面的使用知识点,本章给大家讲下需要用到账号的站点如何处理? 账号其实就是对应着一个Cookie字符串。有的站点不需要登录所谓的账号,但是在请求的时候Cookie设置那块也需要带上特定的值,这类型的站点我们也归到账号一类。我们为账号体系设置了一个标准的model如下截图,这里以mysql数据库为例:账号model model的关键用处在于...原创 2019-06-10 17:02:59 · 15303 阅读 · 0 评论 -
个人对爬虫框架的一些认知(三)
接上一篇通用框架的讲解之后,今天给大家讲解下爬虫框架关于代理IP使用这块的一些个人见解。 就我个人使用过的代理种类来看,从获取和使用的方式上,我把他们分为两类: 1.所有出去的代理IP都是用的同一个Ip和端口,不需要动态变化,例如:阿布云; 2.通过代理平台接口获取下来不同的Ip和端口进行配置,动态获取,动态使用,例如:站大爷; ...原创 2019-06-04 18:00:13 · 18611 阅读 · 0 评论 -
个人对爬虫框架的一些认知(二)
今天给大家传授一个爬虫框架任务源相对通用的模型: 下面这个我是以mysql数据库为例,以好315网-企业招商信息获取为一个演示效果,其他的数据库和站点按照这个思路走可以了。 大致解释下每个字段所代表的意思和为什么要这么做: 构建这个模型的核心思想就是如何做到请求链接的一个区别标志和去重的一个问题,目前能想到的比较简单实用的就是将url压缩成MD5值存储起来...原创 2019-05-30 09:40:54 · 22441 阅读 · 0 评论 -
关于Http请求GBK乱码转化的问题
class POST请求GBK乱码转化 { public void Start() { //将需要传入的中文参数转化为GBK格式 string INFO = System.Web.HttpUtility.UrlEncode("北京市国家税务局", Encoding.GetEncoding("GBK")); ...原创 2019-05-22 19:13:18 · 36139 阅读 · 0 评论 -
个人对爬虫框架的一些认知(一)
首先从任务的发起开始,我们画一个简单的流程图:爬虫运行简要示意图 一个优秀的爬虫框架,应当是要有个好的监控和异常处理记录,以及各爬虫运行在上面地方的一个简要记录信息。以企查查站点为例,一个爬虫的整体分层架构入下图所示:企查查爬虫架构图 每个爬虫以一个单独的文件目录存在,下一级分4层文件目录,Mark记录该爬虫的说明信息,怎么抓取的,有什么防...原创 2019-05-22 18:00:57 · 30573 阅读 · 0 评论 -
Aspose.Cells中文版文档
Aspose.Cells相应操作1,上传1.1Workbook WorkbookworkBook=newWorkbook(); 属性: 名称 值类型 说明 Colors Color[] ...转载 2019-04-26 17:29:01 · 36556 阅读 · 0 评论 -
Aspose.Cells - 在任何平台上操作Excel电子表格
Aspose.Cells - 在任何平台上操作Excel电子表格用于创建,编辑,转换和渲染Excel文件的原生API,可在任何平台上将电子表格文档导出为多种格式。Aspose.Cells for .NET - .NET Excel文件操作API创建,读取,写入和保存Excel文件格式以及将电子表格导出到各种数据源,而不依赖于任何Microsoft Excel。Aspose.Ce...翻译 2019-04-26 17:07:06 · 35415 阅读 · 0 评论 -
闲谈网络爬虫-CSharp对比Python
这一期给小伙伴们普及下网络爬虫这块的东西,吹下牛,宣传一波C#爬虫的优势,希望Python的老铁们轻喷,哈哈! 大致对比了下Python爬虫和C#爬虫的优劣势,可以吸取Python爬虫的框架,进一步封装好C#爬虫需要用到的方方面面,之后用起来还是会蛮爽的,至少单看在数据抓取方面不输Python,Python应当是利用起来做它更擅长的其他方面的事情,而不是大势宣传它在爬虫方面的...原创 2019-03-05 18:24:42 · 40238 阅读 · 2 评论 -
Python的那些事
如有侵权烦请告知删除。 当代码出现有规律的重复的时候,你就需要当心了,每次写3.14 x x不仅很麻烦,而且,如果要把3.14改成3.14159265359的时候,得全部替换。 有了函数,我们就不再每次写s = 3.14 x x,而是写成更有意义的函数调用s = area_of_circle(x),而函数area_of_circle本身只需要写一次,就可以多次调用。...转载 2019-03-05 15:00:46 · 33552 阅读 · 0 评论 -
学习廖雪峰Git入门教程--总结
廖雪峰的教程作为入门级别的个人感觉还是很实用的,大家可以去参考学习:廖雪峰Git教程2018年8月23日14:52:25【安装git】先安装Git安装好之后打开git.bash,之后输入下面的命名初始化$gitconfig--globaluser.name"YourName"$gitconfig--globaluser.email"email@examp...原创 2018-08-29 10:28:17 · 34044 阅读 · 0 评论 -
爬虫入门——基础理论讲解
原文链接:https://blog.youkuaiyun.com/pmcaff2008/article/details/78120864关于爬虫内容的分享,我会分成两篇,六个部分来分享,分别是:我们的目的是什么 内容从何而来 了解网络请求 一些常见的限制方式 尝试解决问题的思路 效率问题的取舍一、我们的目的是什么一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值...转载 2018-08-16 15:28:28 · 21965 阅读 · 0 评论 -
爬虫入门——记JS代码加载内容处理
网页内容一般就是指我们最终在网页上看到的内容,但是这个过程其实并不是网页的代码里面直接包含内容这么简单,所以对于很多新人而言,会遇到很多问题,比如:明明在页面用Chrome或者Firefox进行审查元素时能看到某个HTML标签下包含内容,但是抓取的时候为空。很多内容一定要在页面上点击某个按钮或者进行某个交互操作才能显示出来。 所以对于很多新人的做法是用某个...原创 2018-08-16 15:06:19 · 23560 阅读 · 0 评论 -
爬虫入门——目标站点分析
要抓指定网站的内容,首先要知道它对应的链接,这里推荐使用的Fiddler抓包软件分析,走HTTP的模式大体归纳为两种请求方式,GET和PSOT,单纯GET请求的,直接丢链接过去就能拿到数据,POST的有封装表单。手动在浏览器上刷一下目标站点的链接,用Fiddler监控找到对应的实际请求链接,以表单形式提交的链接,分析出每个参数所代表的意思,很快就能上手请求到对应数据。 另外需...原创 2018-08-16 12:00:23 · 22453 阅读 · 0 评论 -
Python等十多种编程语言使用代理示例
原文链接:https://blog.youkuaiyun.com/ithomer/article/details/76863965米扑代理示例(mimvp代理,演示)米扑代理示例(mimvp-proxy-demo)聚合了多种编程语言使用代理IP,由北京米扑科技有限公司(mimvp.com)原创分享。米扑代理示例,包含的Python,Java,PHP和C#,围棋,Perl中,红宝石,壳牌的NodeJS,Phan...转载 2018-06-19 09:40:11 · 22327 阅读 · 0 评论 -
CefSharp的引用、配置、实例
CefSharp的引用,配置,实例阅读目录一,1,关于CefSharp 二,2,CefSharp项目源码下载三,3,Winfrom项目引入CefSharp 四,4,Winfrom下载CefSharp的基本使用1.4.1显示一个页面2.4.2 JavaScript调用异步C#方法3.4.3 JavaScript调用带参数C#方法4.4.4 JavaScript调用委托C#方法5.4.6 Chromi...转载 2018-06-08 11:31:17 · 26878 阅读 · 0 评论 -
Fiddler实现手机抓包——小白入门
<div class="htmledit_views"> <p align="center"><strong>手机用fiddler抓包</strong></p><p>电脑最好是笔记本,这样能和手机保持统一局域网内;其他不多说,直接说步骤了。</p&转载 2018-05-15 18:38:29 · 21920 阅读 · 0 评论 -
关于反爬虫,看这一篇就够了
原文链接:https://blog.youkuaiyun.com/u013886628/article/details/51820221转载 2018-05-15 16:57:18 · 19028 阅读 · 1 评论