
抓取
文章平均质量分 69
ArvinStudy
这个作者很懒,什么都没留下…
展开
-
模拟登录--OPPO官网
using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Net;using System.IO;using System.Text.RegularExpressions;namespace renrenApp{ class Program原创 2013-03-28 11:33:28 · 4761 阅读 · 0 评论 -
[c#]BPlusTreePrototype - B+树的C#实现
来自:http://www.cnblogs.com/CopyPaster/archive/2013/02/17/2914077.html这里贴一个C#版的B+树实现,大家首先可以不用太去关注算法本身(算法本身我也不是本人所写,大家如果关心算法,可以先去了解一下B+树的原理,然后再去看里面相关代码),可以把它认为是一个高效的持久hashtable(用本地文件方式持久,基于效率考虑,最好不好每次p转载 2013-02-18 09:37:39 · 1112 阅读 · 0 评论 -
C#.NET GB2312编码转化为中文
代码:using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Text.RegularExpressions;namespace GB2312ConvertChinese{ class Program { stati原创 2013-01-18 17:14:26 · 3980 阅读 · 0 评论 -
得到真实外网IP、IP所在国家、省份、地区
来自:http://blog.youkuaiyun.com/porschev/article/details/6335519 #region##得到真实IP以及所在地详细信息 /// /// 得到真实IP以及所在地详细信息(Porschev) /// /// public string GetIpDetails()转载 2013-02-06 16:34:32 · 1354 阅读 · 0 评论 -
如何高效、准确、自动识别网页编码
来自:http://www.cnblogs.com/tdlian/archive/2011/11/25/2263054.html天地连站群可以根据用户输入的初始关键词,获取该关键词搜索引擎的搜索结果,然后逐条获取这些相关文章的内容。这样就需要面对无数网页的各种编码。为了解决这个问题,引入了下面的解决办法:在引入编码自动识别前,我们有两种途径获取网页的编码信息:其一、通过服务器返回的he转载 2013-02-05 22:38:09 · 1097 阅读 · 0 评论 -
C# DDOS攻击代码(伪IP)
来自:http://blog.youkuaiyun.com/nutian/article/details/1351691 //在工程属性中设置“允许不安全代码”为true using System;using System.Net;using System.Net.Sockets;using System.Threading;//需要的命名空间不用解释了吧 namesp转载 2013-01-21 23:53:11 · 967 阅读 · 0 评论 -
c#如何检测文本文件的编码
来自:http://outofmemory.cn/code-snippet/1232/c-how-detect-wenbenwenjian-codingusing System;using System.Text;using System.Text.RegularExpressions;using System.IO;namespace KlerksSoft{ public转载 2013-02-04 17:46:16 · 1234 阅读 · 0 评论 -
http协议详解
来自:http://blog.youkuaiyun.com/l_serein/article/details/6272821引言 HTTP 是一个属于应用层的面向对象的协议,由于其简捷、快速的方式,适用于分布式超媒体信息系统。它于1990年提出,经过几年的使用与发展,得到不断地完善和扩展。目前在WWW中使用的是HTT转载 2013-01-19 07:02:23 · 532 阅读 · 0 评论 -
正则表达式替换---lamda表达式(UniCode编码)
using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Text.RegularExpressions;namespace RegexReplaceTest{ class Program { static void Ma原创 2013-02-01 09:59:07 · 1494 阅读 · 0 评论 -
HTTP协议漫谈
来自:http://www.cnblogs.com/CareySon/archive/2012/04/27/HTTP-Protocol.html 简介 园子里已经有不少介绍HTTP的的好文章。对HTTP的一些细节介绍的比较好,所以本篇文章不会对HTTP的细节进行深究,而是从够高和更结构化的角度将HTTP协议的元素进行分类讲解。 HTTP的定义和历史 在一个网络中。传转载 2013-01-16 17:48:52 · 477 阅读 · 0 评论 -
C# 唯一进程(Mutex)
using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Threading;namespace ProcessMutex{ class Program { static void Main(string[] args)原创 2013-01-30 12:09:39 · 1905 阅读 · 0 评论 -
用c#实现通用守护进程
来自:http://www.cnblogs.com/tianzhiliang/archive/2011/02/12/1952221.html 1. 下载 源码下载:http://files.cnblogs.com/tianzhiliang/CocoWatcher.rar 安装包下载:http://files.cnblogs.com/tianzhiliang/CocoWatcher_转载 2013-01-30 11:32:41 · 1845 阅读 · 1 评论 -
在C#用HttpWebRequest中发送GET/HTTP/HTTPS请求
来自:http://blog.youkuaiyun.com/zhoufoxcn/article/details/6404236 这个需求来自于我最近练手的一个项目,在项目中我需要将一些自己发表的和收藏整理的网文集中到一个地方存放,如果全部采用手工操作工作量大而且繁琐,因此周公决定利用C#来实现。在很多地方都需要验证用户身份才可以进行下一步操作,这就免不了POST请求来登录,在实际过程中发现有些转载 2013-01-26 19:18:58 · 728 阅读 · 0 评论 -
C#获得本机的公网IP地址
using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Net;using System.IO;namespace ConsoleApplication1{ class Program { static void转载 2013-01-05 14:58:28 · 1229 阅读 · 0 评论 -
去除截取对象中的html代码
#region 去除截取对象中的html代码 public static string NoHTML(string Htmlstring) //去除HTML标记 { //删除脚本 Htmlstring = Regex.Replace(Htmlstring, @"]*?>.*?", "", RegexOptions.IgnoreCase);转载 2012-12-19 09:20:50 · 912 阅读 · 0 评论 -
人人抓取DEMO
using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Net;using System.IO;using System.Text.RegularExpressions;namespace renrenApp{ class Program原创 2012-12-11 12:22:37 · 1051 阅读 · 0 评论 -
discuz论坛的抓取
discuz论坛通用URL地址:URL+?mod=my&q=关键字(关键字的编码gb2312)例如: 'http://bbs.anzhi.com/search.php?mod=my&q=htc+%CA%D6%BB%FA';而真实的sId的值是存储在head里面的location中的。例如:location=http://search.bbs.hiapk.com/f/search?q原创 2012-12-11 12:11:38 · 5384 阅读 · 0 评论 -
c#抓取网页截屏代码
来自:http://outofmemory.cn/code-snippet/1050/c-zhuaqu-wangye-jieping-codeusing System.Drawing;using System.Drawing.Imaging;using System.IO;using System.Threading;using System.Windows.Forms;publi转载 2013-03-07 16:46:47 · 1097 阅读 · 0 评论 -
C# 网站静态页面生成器 for 多线程版
来自:http://www.cnblogs.com/keke/archive/2010/09/07/1820871.html#2454265摘要:该生成器是用于放置于服务器上的一个小程序,用于生成站点中需要静态化的页面生成。我写c/s程序不多,所以本程序可能会有些小的bug。还望高手多多指教!内容:首先让大家看看该程序的几个流程界面1.登陆界面:说明: 此程序转载 2013-03-15 17:51:33 · 857 阅读 · 0 评论 -
编码转换
static string UNICODE_ToChinese(string content) { string GBK_Code = ""; string GBK_Value = ""; try { string pattern = @"\\u([A-F原创 2013-05-28 16:31:33 · 694 阅读 · 0 评论 -
C#用HttpWebRequest通过代理服务器验证后抓取网页内容
来自:http://www.cnblogs.com/wenanry/archive/2009/02/13/1390160.html内网用户或代理上网的用户使用using System.IO; using System.Net;public string get_html(){string urlStr = "http://www.domain.com";转载 2013-06-27 14:00:46 · 2713 阅读 · 0 评论 -
C# 禁止 Webbrowser 控件的弹出脚本错误对话框
来自:http://blog.youkuaiyun.com/davidhsing/article/details/5321700当IE浏览器遇到脚本错误时浏览器,左下角会出现一个黄色图标,点击可以查看脚本错误的详细信息,并不会有弹出的错误信息框。当我们使用 WebBrowser控件时有错误信息框弹出,这样程序显的很不友好,而且会让一些自动执行的程序暂停。我看到有人采取的解决方案是做一个窗体杀手程序来关闭弹转载 2013-06-26 16:43:07 · 928 阅读 · 0 评论 -
WebBrowser控件使用详解
来自:http://www.cnblogs.com/lemony/archive/2007/11/04/948886.html方法说明GoBack相当于IE的“后退”按钮,使你在当前历史列表中后退一项GoForward相当于IE的“前进”按钮,使你在当前历史列表中前进一项GoHome相当于IE的转载 2013-07-11 15:14:39 · 1701 阅读 · 0 评论 -
抓取正则DEMO
private void GetItemList(int task_ID, List arrayList, string group_url) { MatchCollection matchList; MatchCollection tempMatch; DownWebFile df = new DownWeb原创 2013-07-10 15:07:22 · 730 阅读 · 0 评论 -
C#重写WebBrowser组件,禁止跳转到IE新窗口、脚本错误
来自:http://blog.chinaunix.net/uid-16242888-id-146885.html刚从delphi转到c#,一切重头开始。上来先做个myBrowser,结果发现无法解决跳转到新窗口问题。从网上找到奇客力大侠的《C# webBrowser禁止在新窗口打开,强制在本窗口打开》文章(http://blog.163.com/da7_1@126/blog/static/10转载 2013-07-10 16:15:40 · 994 阅读 · 0 评论 -
启发式提取一个网页的主体内容
http://www.smallqiao.com/124099.html对于一个网页来说,一般都会有非常丰富的边框或导航条信息,但是用户往往比较专注于主题内容,边框内容可以说是没有太大价值的。尤其是对于手持设备来说,显示大量的边框信息将变得非常讨厌。在搜索引擎中,其实只要搜索引网页的主题内容,对于边框内容的索引意义不大。上面说了一下提取一个网页主体内容的作用,下面来讨论一下方法。如果真要准转载 2013-06-07 10:18:32 · 1538 阅读 · 0 评论 -
twitter crawler POST GET
using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Net;using System.IO;using System.Text.RegularExpressions;namespace Twitter_Login_Crawler{ cl原创 2013-05-29 11:44:34 · 1773 阅读 · 2 评论 -
下载
public static void Download_2(string url, string encoding) { HttpWebRequest request = null; HttpWebResponse response = null; CookieContainer _cc = new Cooki原创 2013-05-27 14:32:21 · 643 阅读 · 0 评论 -
GET和POST有什么区别?及为什么网上的多数答案都是错的。
来自:http://www.cnblogs.com/nankezhishi/archive/2012/06/09/getandpost.html我的经历 前几天有人问我这个问题。我说GET是用于获取数据的,POST,一般用于将数据发给服务器之用。 这个答案好像并不是他想要的。于是他继续追问有没有别的区别?我说这就是个名字而已,如果服务器支持,他完全可以把GET转载 2013-05-08 20:24:15 · 725 阅读 · 0 评论 -
C#导出csv文件 防止中文乱码的解决方案
来自:http://blog.youkuaiyun.com/dannywj1371/article/details/8603701 #region 导出CSV下载 string exportFileName = "Export" + DateTime.Now.ToString("yyyyMMddHHmmss"); System.Web.HttpContext转载 2013-05-09 09:58:15 · 2727 阅读 · 0 评论 -
Java网络爬虫的实现
来自:http://developer.51cto.com/art/201103/248141.htm记得在刚找工作时,隔壁的一位同学在面试时豪言壮语曾实现过网络爬虫,当时的景仰之情犹如滔滔江水连绵不绝。后来,在做图片搜索时,需要大量的测试图片,因此萌生了从Amazon中爬取图书封面图片的想法,从网上也吸取了一些前人的经验,实现了一个简单但足够用的爬虫系统。AD:2013大数据全球技术转载 2013-05-21 09:27:37 · 1572 阅读 · 1 评论 -
在C#中获取如PHP函数time()一样的时间戳[原创]
来自:http://www.cnblogs.com/locoy/archive/2006/08/10/473105.htmlc#中没有象PHP一样的time()时间戳函数,但有DateTime.Now.Ticks用来计算时间差。 此属性的值为自 0001 年 1 月 1 日午夜 12:00 以来所经过时间以 100 毫微秒为间隔表示时的数字。dotnet下用DateTime转载 2013-05-02 11:12:18 · 913 阅读 · 0 评论 -
多线程环境下调用 HttpWebRequest 并发连接限制
来自:http://www.cnblogs.com/eaglet/archive/2012/05/18/2507179.html.net 的 HttpWebRequest 或者 WebClient 在多线程情况下存在并发连接限制,这个限制在桌面操作系统如 windows xp , windows 7 下默认是2,在服务器操作系统上默认为10. 如果不修改这个并发连接限制,那么客户端同转载 2013-04-11 17:48:28 · 785 阅读 · 0 评论 -
C#验证码下载
using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Net;using System.IO;using System.Text.RegularExpressions;namespace renrenApp{ class Program原创 2013-03-18 17:06:56 · 1148 阅读 · 0 评论 -
协议模拟编程之ADSL模式下IP自动换
来自:http://www.cnblogs.com/uu102/archive/2012/09/10/2679293.html转载 2012-11-22 11:59:34 · 597 阅读 · 0 评论 -
通过HtmlAgilityPack实现网页信息抓取
来自:http://www.189works.com/article-40082-1.html摘要: 1. 下载Html Agility Pack,解压保存到本地 下载地址:http://htmlagilitypack.codeplex.com/ 1 void caijisoufun() 2 { 3 try 4 { 5 6 HtmlAgilityPack.HtmlDocument doc =转载 2012-11-22 11:09:37 · 1293 阅读 · 0 评论 -
玩玩小爬虫——抓取时的几个小细节
来自:http://www.cnblogs.com/huangxincheng/archive/2012/11/08/2759752.html 这一篇我们聊聊在页面抓取时应该注意到的几个问题。一:网页更新 我们知道,一般网页中的信息是不断翻新的,这也要求我们定期的去抓这些新信息,但是这个“定期”该怎么理解,也就是多长时间需要抓一次该页面,其实这个转载 2012-11-22 14:25:11 · 1171 阅读 · 0 评论 -
post抓取小例
using System;using System.Collections.Generic;using System.Text;using System.Threading;using System.Text.RegularExpressions;using IWOMWebCrawlerDbLayer.Model;using IWOMWebCrawlerDbLayer.Common;原创 2012-08-21 12:03:52 · 1152 阅读 · 0 评论 -
Asp.Net 编码和解码
转自:http://www.cnblogs.com/xbf321/archive/2008/04/16/asp_net_char_convert_to_unicode.html最近因为项目需要,做了一个投票的页面(Html,比如A 页面),要把它Post到一个Aspx页面(比如B页面),在这个Aspx页面上,需要确认一下,在提交到数据库,可是问题出来了,用户在A页面上点击Submit,Post转载 2012-07-09 10:58:10 · 928 阅读 · 0 评论 -
sina-open-api-for-dot-net-40-sdk
转自: http://code.google.com/p/sina-open-api-for-dot-net-40-sdk/downloads/detail?name=SinaWeiboSDK.zip&can=2&q=转载 2012-05-23 16:12:36 · 464 阅读 · 0 评论