
技术心得交流
迷路神码
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
.net抓取数据C#和PHP的结合(续)
摘要:运用php对网页内容获取便利专业的特点,采用php站点访问目标站点,获取数据后,把变量输出为json格式。再通过C#访问php站点获得json格式文件,进行解析,入库。示例:将要截取的table部分通过php解析,并生成json格式字符串;(代码1)C#程序获取网页字符串,并解析json内容,使用SQLHelper,可以到我的资源那里下载使用,入库。代码:原创 2012-09-06 11:00:50 · 630 阅读 · 0 评论 -
互联网数据ETL-实用攻略
提取1.数据获取方式:post和get2.登陆,获取访问权限3.解析get方式的链接地址的内容,从网页中找到链接地址参数,并确定参数的定义域和含义功能4.获取网页数据,简单处理5.根据所要捕获内容进行方法选取:正则表达式截取指定格式部分;变量解析;6.存储捕获数据,按照设计好的数据结构存储到缓存数据库或文件中。转换1.格式标准化,比如时间,姓名,年龄,邮箱,原创 2012-09-19 09:51:29 · 321 阅读 · 0 评论 -
浅谈正则表达式在.net的运用-C#程序抓取网页信息
引:在计算机科学中,是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。在很多文本编辑器或其他工具里,正则表达式通常被用来检索和/或替换那些符合某个模式的文本内容。许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的。正则表达式通常缩写成“regex原创 2012-09-05 15:20:21 · 473 阅读 · 0 评论 -
再续抓数据经验谈--找到数据来源的方法
说一些小技巧,分享给需要在互联网上,找数据,然后接收的。往往一个网页上面呈现的内容,来源有很多个,浏览器会根据脚本的调用,访问很多个服务器地址,所以我们要抓取数据,最好知道数据的源头, 直接从源头获取再进行解析。比如我用的chrome浏览器,火狐也更好。1.右击页面,从菜单中选择“审查元素”;2.选择Network,功能栏,然后再F5,就可以看到整个页面内容的数据来源。3.可以原创 2013-01-10 11:36:08 · 1390 阅读 · 0 评论