- 博客(36)
- 收藏
- 关注
原创 网站百度普通收录 API提交代码(C#编写)
/token,在百度站长工具里申请。string postUrl =“https://www.sunsharer.cn/”//提交的页面。// #region Post/Get请求数据 static。
2024-08-09 16:14:14
604
原创 论网站泛目录攻击的监控与防御
当前网络安全形势严峻,大量中小企业网站遭受泛目录攻击,对企业品牌形象及经营生产造成严重影响。网站运营者应对泛目录攻击的现状、具体形式、产业链、危害、监测方法及防御措施有深入的了解,制定好策略,做好网站安全防御措施,以使遭受攻击的风险降至最低。
2024-08-06 11:00:23
1547
原创 搜狗爬虫(www.sogou.com)IP及UA,真实采集数据
3、判断标准:主要根据用户代理是否包含“zhanzhang.toutiao.com”和IP核实。对网站没什么危害,抓取网站频繁,对资源消耗较大,可为网站带来的客户量次于百度和360.1、这批搜狗爬虫(www.sogou.com)IP来源于尚贤达。二、搜狗爬虫(www.sogou.com)主要有4个用户代理。2、数据采集时间段:2023年10月-2024年7月;
2024-08-02 18:13:28
1718
原创 爬虫频繁更换用户代理(UA)和IP能绕过反爬虫机制吗?
我认为频繁更换UA并不能解决爬虫被封的问题。更换IP也不能保证绕过反爬虫机制,因为涉及到抓取频率,如果频率过低,费时长且没有效率,迟早要被反爬虫机制识别;频率过高(比如一秒中抓取两三个页面),则很快就会触发反爬虫规则。今天捕捉到一个网页爬虫,IP地址为:110.42.66.212,UserAgent在短短2小时内换了17个,抓取了62个页面,因触发反爬规则被封。
2024-08-02 17:34:53
1395
原创 今日头条爬虫(zhanzhang.toutiao.com)IP及UA,真实采集数据
3、判断标准:主要根据用户代理是否包含“zhanzhang.toutiao.com”和IP核实。1、这批今日头条爬虫(zhanzhang.toutiao.com)IP来源于尚贤达。二、今日头条爬虫(zhanzhang.toutiao.com)主要有4个用户代理。对网站没什么危害,但抓取网站频繁,对资源消耗较大,可为网站带来些许客户。2、数据采集时间段:2023年10月-2024年7月;五、EXECL格式数据下载。
2024-08-01 11:05:00
1647
原创 亚马逊爬虫(Amazonbot)IP地址,真实采集数据
1、对网站没什么危害,但抓取网站频繁,对资源消耗较大,如果不做境外业务,可能通过防火墙阻止。3、判断标准:主要根据用户代理是否包含“facebook”和IP核实。1、这批亚马逊爬虫(Amazonbot)IP来源于尚贤达。2、数据采集时间段:2023年10月-2024年7月;二、亚马逊爬虫(Amazonbot)主要有4个用户代理。五、EXECL格式数据下载。
2024-07-31 17:43:30
3115
原创 公布一批脸书爬虫(facebook)IP地址,真实采集数据
1、对网站没什么危害,但抓取网站频繁,对资源消耗较大,如果不做境外业务,可能通过防火墙阻止。2、数据采集时间段:2023年10月-2024年7月;1、这批脸书爬虫(facebook)IP来源于尚贤达。二、脸书爬虫(facebook)主要有4个用户代理。3、判断标准:主要根据用户代理是否包含“用户代理(UserAgebt)
2024-07-30 15:40:19
3012
原创 公布一批神马爬虫IP地址,真实采集数据
3、判断标准:主要根据用户代理是否包含“YisouSpider”,具体IP没做核实。2、神马搜索主要是移动端,市场份额不大,据统计,每月能带来个把客户咨询。1、抓取网站频繁,对资源消耗较大,基本上要消耗50%以上的服务器资源;14)、150.158.18.237 (只采集到1个IP)2、数据采集时间段:2023年10月-2024年1月;1、这批神马爬虫IP来源于尚贤达。二、神马爬虫主要有3个用户代理。
2024-07-30 09:46:31
2430
2
原创 远程代码执行(Remote Code Execution, RCE)攻击案例分析与应对策略
最近网站监测到一批以用户代理为 KrebsOnSecurity 的IP对网站进行的RCE攻击。
2024-07-29 17:34:44
1910
原创 《尚贤达猎头网站流量统计模块》,通过HTTP自定义模块实时获取asp.net网站访问流量,并保存到数据库
2、sqlstr.txt,保存数据库连接字符串,供www.sunsharer.cn.dll模块读取,访问数据库之用。1、www.sunsharer.cn.dll ,http自定义模块,实时获取访客信息,并将这些信息保存到数据库。[id] [int] IDENTITY(1,1) NOT NULL,//自动编号。NULL,//客户端操作系统,没作解析,可自行从UserAgent查看。NULL,//浏览器版本,没作解析,可自行从UserAgent查看。[duration] [int] NULL//访问时长。
2024-01-12 11:27:04
572
1
原创 警惕黑客对网站根目录压缩文件进行暴力搜刮
为方便备份操作,部分站长喜欢将网站源文件等资料压缩保存在根目录。这样给黑客留下了可乘之机,黑客可通过爬虫暴力搜刮下载这些压缩文件包,建议各位站长不要在网站目录里保存备份文件包。以下就是小编昨晚遇到的情况。黑客IP为:45.114.124.79,
2024-01-06 10:16:29
655
原创 被黑网站:www.er-zhejiang.com
发现被黑网站:www.er-zhejiang.com,恶意网址在移动端能打开,PC端打不开。
2023-12-28 16:58:49
442
1
原创 网站90%以上的流量是由各种爬虫造成的,阻止爬虫能大幅度提升服务器性能
今天用尚贤达网站日志分析系统统计一下近一个月来各种爬虫访问服务器的数据,发现抓取URL总量达100多万条次,给服务器造成了很大的压力,除去百度,搜狗,360等有价值的爬虫外,大多数无用。将爬虫用系统防火墙阻止后,服务器性能得到大幅度提升,CPU使用率由阻止前90%左右下降20%左右。日期 时间 url 爬虫IP地址 爬虫用户代理。
2023-12-26 17:34:36
543
4
原创 IIS网站日志分析系统,结合防火墙,实现反爬虫,防黑,防注入之二:【IIS筛选请求规则管理】
为过滤访客,今天给系统添加了IIS的筛选请求设置功能,也可以直接到IIS里去设置,但集成到系统中,设置更方便。IIS请求筛选设计界面。
2023-12-21 18:00:23
863
1
原创 IIS网站日志分析系统,结合防火墙,实现反爬虫,防黑,防注入之一:【框架搭建】
一、实现功能:1、IIS日志导入数据库;2、IIS日志分析,IIS日志的增、删,改,查;3、恶意IP地址分析识别;4、基于分析出的恶意IP名单,通过操控防火墙实现反爬虫,防黑,防注入;5、B/S架构,通过浏览器远程访问、管理;6、多网站日志管理。
2023-12-10 10:04:48
543
1
原创 用c#写一段获取网页内容的代码
上面的代码使用了 WebClient 类来获取指定 URL 的内容。DownloadString() 方法将返回该 URL 的 HTML 内容。然后,我们可以使用 Console.WriteLine() 方法打印该内容。在这个例子中,我们通过指定 client.Encoding 属性为 UTF-8 来解决中文乱码问题。如果网页编码不是 UTF-8,需要相应地修改编码。请注意,要在使用此代码之前添加 using System.Net;
2023-03-31 12:41:19
183
原创 用c#写一段获取邮箱后缀的代码
这段代码首先将邮箱地址按照 “@” 符号进行分割,然后获取分割后的第二个部分,即邮箱的后缀。最后将后缀输出到控制台。
2023-03-31 10:28:15
213
原创 用c#写一段提取网页中邮箱地址的代码
然后,使用正则表达式 \b[A-Za-z0-9._%±]+@[A-Za-z0-9.-]+.[A-Z|a-z]{2,}\b 匹配邮箱地址。该正则表达式匹配由字母、数字、下划线、点号、加号、减号、百分号、以及 @ 符号组成的邮箱地址,并使用 . 匹配域名中的点号。最后,使用 MatchCollection 类存储匹配到的邮箱地址,并通过 foreach 循环遍历并输出。首先,使用 WebClient 类获取网页内容,并存储在 html 变量中。
2023-03-31 09:47:06
354
原创 c# 获取网址域名,例:http://www.slhunter.cn/index.aspx
比如,要取得网址(http://www.slhunter.cn/jianjie_x.aspx)中的域名,我们可以通过字符函数来实现:static string Urlroot(string gen) //取域名函数{int URL_num = gen.IndexOf("/", 8, gen.Length - 8);if (URL_num == -1){ return gen; }else{gen = gen.Substring(0, URL_num);return gen;}}
2021-05-31 17:11:02
3440
原创 c# webservice后台 接收微信小程序上传的图片
微信小程序前端:chooseImageTap: function () {var that = this;wx.showActionSheet({itemList: [‘从相册中选择’, ‘拍照’],itemColor: “#00000”,success: function (res) {if (!res.cancel) {if (res.tapIndex == 0) {that.chooseWxImage(‘album’)} else if (res.tapIndex == 1) {
2021-01-15 10:59:36
2535
4
原创 c# listbox 绑定数据后如何取到选择的项的值?
数据库的数据某一列填充了listbox,将数据读取到DataTable中,用listBox的DataSource属性与DataTable进行绑定。DataTable dt = con.mail_acc_Display().Tables[0];listBox.DataSource = dt;listBox.DisplayMember = dt.Columns[1].ColumnName;listBox.ValueMember = dt.Columns[0].ColumnName;如果想获得listb
2020-09-28 20:14:45
2260
原创 c#爬虫之HttpWebRequest 中文乱码(utf-8,gbk,gb2312)解决方法
private string GetUrlHtml_mail(string url)// { HttpWebRequest request = null; HttpWebResponse response = null; string strHtml = string.Empty; string strHtml_1 = string.Empty; string strHtml_1_1 = string.Empty;...
2020-09-22 09:19:47
5955
原创 c#字符函数清理html文件中的<div>标记
做爬虫系统时,为了排除干扰项,便于数据处理,需对抓取的页面中的html标记要做一下清理,可以用正则表达式的方式,也可以用字符函数的方式进行清理,本文以字符函数的方式清理标记为例,其它标记以此类推。private string del_div(String char_0)//清除div标记{ string char_1;//存储单个字符,用于检测“>” int char_num_0 = 0; char_0 = char_0.Replace("<D
2020-09-18 11:44:47
346
《尚贤达猎头网站流量统计模块》,通过HTTP自定义模块实时获取asp.net网站访问流量,并保存到数据库
2024-01-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人