
数据收集
李元乐
山高李维峰
展开
-
连接物理和数字世界,以数据驱动企业持续增长
数字化转型变得重要且紧急 数据驱动型企业的概念 以数据生产要素驱动经营管理,实现持续增长和创新发展 从农业经济到工业经济,生产要素经历了由土地、劳动力向资本、技术及管理等的演进。数字经济时代催生了以大数据为代表的新型生产要素,企业的经营管理离不开海量数据的支撑。相较于传统生产要素的有限增长和供给,数据具有可复制、可共享、无限增长和供给的特性,可以通过连接物理世界和数字世界,驱动企业向数字化转型升级,进而实现持续增长和创新发展。需要注意的是,数字化转型强调的是运用数字技术,而数据驱动强调是以数据作为关键生产要转载 2020-07-18 16:30:37 · 1411 阅读 · 0 评论 -
数据收集---web访问日志收集与统计
话说web访问日志,很多同学对百度统计,谷歌统计(google analytics)很熟悉,就是加点js代码埋点,然后很方便可以从百度等获得网站的访问情况统计。这种方式的确是很方便,自己可以不用管日志的数据,对系统的影响也很小,还可以增加网站排名(?),哈哈,总之,是很方便。如果想了解其原理?如果想自己来收集保存这个数据呢?我们一起来看看这个过程吧,做一个自己的统计工具。下面我们来说说整个步骤原创 2015-12-25 17:33:01 · 5947 阅读 · 1 评论 -
数据提取----httpclient,htmlparser,xpath
网页数据提取的方法很多,从其基本原理来说很多就是通过模拟http请求,发送给服务器,然后接收响应,解析响应的结果。整个过程说简单也简单,说复杂也复杂。这里来整理下做过的一些事,走过的路,遇到的坑。 1,基本思路 这里举一个java下载的例子,说明简单的思路。 public void downPDF(String urlString, String filename, String p原创 2016-04-24 22:53:12 · 1963 阅读 · 0 评论 -
数据提取-Selenium专治各种顽固性客户端
说起Selenium,很多人想到的是Selenium用在自动化web测试上,的确,Selenium是一个很好的自动化测试工具,能够实现很多便利的测试功能。其实Selenium也是一款数据抽取的神器。我们知道现在很多网站使用了很多javascript,ajax,cookie,session等等,或者人为设置了很多规则来防止/限制爬虫,有过提取数据的都知道在提取数据的过程中,会遇到各种顽固性问题,想上原创 2016-04-26 22:32:53 · 2510 阅读 · 0 评论