
Web数据挖掘
文章平均质量分 74
才 神
探索人工智能在心理健康中的应用
展开
-
MYSQL索引使用技巧及注意事项
一、索引的作用一般的应用系统,读写比例在10:1左右,而且插入操作和一般的更新操作很少出现性能问题,遇到最多的,也是最容易出问题的,还是一些复杂的查询操作,所以查询语句的优化显然是重中之重。 在数据量和访问量不大的情况下,mysql访问是非常快的,是否加索引对访问影响不大。但是当数据量和访问量剧增的时候,就会发现mysql变慢,甚至down掉,这就必须要考虑优化sql了,给数据库建立正确合理的索引,是mysql优化的一个重要手段。 索引的目的在于提高查...转载 2022-04-03 22:09:11 · 1028 阅读 · 0 评论 -
个性化推荐系统,必须关注的五大研究热点
“猜你喜欢”、“购买过此商品的用户还购买过……”对于离不开社交平台、电商、新闻阅读、生活服务的现代互联网用户来说,个性化推荐已经不是什么新鲜事儿。随着信息技术和互联网行业的发展,信息过载成了人们处理信息的挑战。对于用户而言,如何在以指数增长的资源中快速、准确地定位到自己需要的内容是一个非常重要且极具挑战的事情。对于商家而言,如何把恰当的物品及时呈现给用户,从而促进交易量和经济增长,也是一件颇具难度的事情。推荐系统的诞生极大地缓解了这个困难。推荐系统是一种信息过滤系统,能根据用户的档案或者历史行为记录转载 2020-09-24 23:01:59 · 2316 阅读 · 0 评论 -
揭秘可解释推荐系统:知其然,知其所以然
【导读】单纯的推荐结果和推荐结果+理由的组合,哪个更让你信服?长篇累牍的推荐语和言简意赅的关键词,你更愿意看哪个?这是人们每天都会面对的场景,也是可解释推荐系统研究需要不断优化的问题。近几年,人工智能的可解释性问题受到了来自政府、工业界和学术界的广泛关注。美国国防部先进研究项目局DARPA资助了可解释性人工智能项目XAI(Explainable AI);中国国务院在《新一代人工智能规划》中提出的“实现具备高可解释性、强泛化能力的人工智能”目标,得到了各个公司的积极响应;ICML 2017年的最佳论文《U转载 2020-09-24 22:55:35 · 846 阅读 · 0 评论 -
PHP性能优化:51个小细节,让你提升PHP代码的运行效率
1、用单引号代替双引号来包含字符串,这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量,单引号则不会,注意:只有echo能这么做,它是一种可以把多个字符串当作参数的"函数"(译注:PHP手册中说echo是语言结构,不是真正的函数,故把函数加上了双引号)。2、如果能将类的方法定义成static,就尽量定义成static,它的速度会提升将近4倍。3、$row['id'] 的速度是$row[id]的7倍。4、echo 比 print 快,并且使用echo输出时用逗号而不是句点代替..转载 2020-05-13 21:04:47 · 9340 阅读 · 0 评论 -
关于moodle登录处理的自定义开发
登录页面为:moodle/login/index.php实现登录的关键函数://moodle使用password_hash加密方式,这种方式不能通过select 用户名+密码 方式进行验证,鉴定用户账号密码是否正确函数如下:// lib/moodlelib.php 4401authenticate_user_login( $username, $password );//完成...原创 2020-04-14 09:47:09 · 2765 阅读 · 0 评论 -
序列标注两种模式BIO和BIOES
BIO标注模式(B-begin,I-inside,O-outside)BIOES标注模式(B-begin,I-inside,O-outside,E-end,S-single)也有一些其他的标注模式以下转自https://blog.youkuaiyun.com/liangjiubujiu/article/details/79710508标签说明标签方案中通常都使用一些简短的英文字符[串]来...转载 2020-01-10 10:33:55 · 3829 阅读 · 0 评论 -
命名实体识别(NER)发展简史
近几年来,基于神经网络的深度学习方法在计算机视觉、语音识别等领域取得了巨大成功,另外在自然语言处理领域也取得了不少进展。在NLP的关键性基础任务—命名实体识别(Named Entity Recognition,NER)的研究中,深度学习也获得了不错的效果。最近,笔者阅读了一系列基于深度学习的NER研究的相关论文,并将其应用到达观的NER基础模块中,在此进行一下总结,与大家一起分享学习。1、NE...转载 2020-01-10 09:55:48 · 5484 阅读 · 0 评论 -
如何在scrapy中捕获并处理各种异常
前言使用scrapy进行大型爬取任务的时候(爬取耗时以天为单位),无论主机网速多好,爬完之后总会发现scrapy日志中“item_scraped_count”不等于预先的种子数量,总有一部分种子爬取失败,失败的类型可能有如下图两种(下图为scrapy爬取结束完成时的日志):scrapy中常见的异常包括但不限于:download error(蓝色区域), http code 403/5...转载 2019-12-09 08:53:03 · 3158 阅读 · 0 评论 -
Scrapy设置广度优先,爬取最新数据
# 爬虫允许的最大深度,可以通过meta查看当前深度;0表示无深度DEPTH_LIMIT = 3# 爬取时,0表示深度优先Lifo(默认);1表示广度优先FiFo# 后进先出,深度优先# DEPTH_PRIORITY = 0# SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleLifoDiskQueue'# SCHEDULER_MEMORY_...原创 2019-11-28 11:45:27 · 3032 阅读 · 0 评论 -
错误“AttributeError: 'MemoryUsage' object has no attribute 'tasks'”
def __init__(self, crawler): if not crawler.settings.getbool('MEMUSAGE_ENABLED'): raise NotConfigured try: # stdlib's resource module is only available on ...原创 2019-11-27 20:55:16 · 2114 阅读 · 0 评论 -
关于错误”AttributeError: module 'resource' has no attribute 'getrusage'”
windows平台下,scrapy1.8.0运行会出现“AttributeError: module 'resource' has no attribute 'getrusage'”错误提示,查找File "..\python37\lib\site-packages\scrapy\extensions\memusage.py"发现,已经有明确注释: try: ...原创 2019-11-27 20:35:57 · 4244 阅读 · 3 评论 -
主题抽取的核心——主题词表
一.主题词和主题词表主题词表又称叙词表,是将文献标引人员或用户的自然语言转换成规范化语言的一种术语控制工具;它是概括各门或某一门专业学科领域并由语义相关,族性相关的术语组成的可不断扩充的规范化词表。主题词表通常包括标题表、元词表等不同类型。它是编制主题标引和文献信息检索系统的主要依据。中国图书情报学界习惯上又常把叙词称为主题词。主题词表是文献机构进行信息处理的工作规范和技术标准。它是对重复...转载 2020-04-20 19:57:31 · 8735 阅读 · 2 评论 -
scrapy爬虫代理crawlera的使用感受
二、部署到srcapy项目1、安装scarpy-crawlerapip install 、easy_install 随便你采用什么安装方式都可以pipinstallscrapy-crawlera 2、修改settings.py如果你之前设置过代理ip,那么请注释掉,加入crawlera的代理DOWNLOADER_MIDDLEWA...原创 2019-11-26 12:17:40 · 3108 阅读 · 0 评论 -
用XPath精确定位节点元素&selenium使用Xpath定位之完整篇
在利用XSL进行转换的过程中,匹配的概念非常重要。在模板声明语句 xsl:template match = ""和模板应用语句xsl:apply-templates select = "" 中,用引号括起来的部分必须能够精确地定位节点。具体的定位方法则在XPath中给出。之所以要在XSL中引入XPath的概念,目的就是为了在匹配XML文档结构树时能够准确地找到某一个节点元素。可以把XPath比...转载 2019-11-25 16:23:21 · 2176 阅读 · 0 评论 -
我们从爬取1000亿个网页中学到了什么?
Scrapinghub 成立于 2010 年,是一家领先的数据公司,当今最强大、更受欢迎的网络爬取框架 Scrapy 就是由它开发的。目前,Scrapinghub 每个月为全球很多大型的电子商务公司爬取 80 亿个网页(其中有 30 亿个是产品页面)。在进行大规模爬取时哪些东西是最重要的?与标准的爬虫应用程序不同,大规模爬取电子商务产品数据需要面临一系列独特的挑战,这些挑战让爬取网页...转载 2019-11-25 12:14:09 · 1760 阅读 · 0 评论 -
lxml提取html标签内容, tostring()不能显示中文 解决方案
from lxml import etreeimport requestsresponse = requests.get('https://www.baisu.com/).texttree = etree.HTML(response)strs = tree.xpath( "//body")strs = strs[0] strs = (etree.tostring(strs)...原创 2019-11-20 18:53:27 · 2323 阅读 · 0 评论 -
python3中字符串分为 str 和 bytes
unicode、utf-8、gbk、gb2312之间的暧昧关系unicode编码: unicode编码为世界上所有字符都分配了一个唯一编号, 为十六进制, 如中文简体汉字 “渣” 的 Unicode编号就是 6E23, 在 python2就是 "\u6e23", 但是unicode仅仅定义了每个字符的编号,并没有定义如何将这个编号进行存储的方式,所以后来出现了utf-8, gbk等编码格式, ...原创 2019-11-20 18:06:58 · 1622 阅读 · 0 评论 -
python爬虫编码问题详解 (requests)
具体参见:https://blog.youkuaiyun.com/Likianta/article/details/101293915import requestsdef get_text(resp): # 优先使用 chardet 预测的 encoding, 其次使用 http header 提供的 encoding source_encoding = resp.apparent_...原创 2019-11-20 15:42:20 · 1801 阅读 · 0 评论 -
html解析器对比
原创 2019-11-19 15:18:26 · 1575 阅读 · 0 评论 -
XML样式表XSL初学教材,入门经典
第一个XML文档 随着Internet的发展,越来越多的信息进入互联网,信息的交换、检索、保存及再利用等迫切的需求使HTML这种最常用的标记语言已越来越捉襟见肘。HTML将数据内容与表现融为一体,可修改性、数据可检索性差,而XML借鉴了HTML与数据库、程序语言的优点,将内容与表现分开,不仅使检索更为方便,更主要的是用户之间数据的交换更加方便,可重用性更强。 XML是一种元标记转载 2012-01-07 12:40:51 · 3246 阅读 · 1 评论 -
如何全网智能识别文章页,识别正文和标题
一、神箭手对这个问题的处理先说说神箭手的情况吧,这个问题我们很久之前就开始研究了,一直期待能做到一个优秀的效果,就像友商@Jerry黄大仙 说的一样,新闻场景中的正文标题识别确实是相对好做的,可以直接hard coding一些特征。因为新闻标题在页面中出现的地方是很有特点的,比如在title标签中大概率出现,比如在正文上面大概率有h1,h2等标签,比如下面大概率有作者,发布时间等部分。显然可以...转载 2019-09-24 09:21:22 · 4430 阅读 · 0 评论 -
还在一个个写规则?来了解下爬虫的智能化解析吧!
爬虫是做什么的?是帮助我们来快速获取有效信息的。然而做过爬虫的人都知道,解析是个麻烦事。比如一篇新闻吧,链接是这个:https://news.ifeng.com/c/7kQcQG2peWU,页面预览图如下:我们需要从页面中提取出标题、发布人、发布时间、发布内容、图片等内容。一般情况下我们需要怎么办?写规则。那么规则都有什么呢?怼正则,怼 CSS 选择器,怼 XPath。我们需要对标...转载 2019-09-24 09:36:20 · 1823 阅读 · 0 评论 -
关于BoilerpipeExtractor解析html乱码问题
网上给出的方案基于jsoup来获取body的byte流,但是写出的东西压根没有用到jsoup,getEmptyConnection(url)?private String extractContent(String url) throws Exception { InputStream inputStream = new ByteArrayInputStream(getEmptyConne...原创 2019-09-28 18:48:30 · 1591 阅读 · 0 评论 -
支持中文的deepdive:斯坦福大学的开源知识抽取工具(三元组抽取)
一、DeepDive简介deepdive帮助你从更少的结构化数据和统计推断中提取结构化的知识而无需编写任何复杂的机器学习代码。deepdive是一种新的数据管理系统,能够解决提取、整合型,并在一个单一的系统预测问题,它允许用户快速构建复杂的端到端的数据管道。二、DeepDive优势deepdive让开发者只需要关心实体特征,不需要在乎算法。相比之下,其他机器学习系统需要开发者认为,聚类算法...转载 2019-09-28 19:15:35 · 6577 阅读 · 0 评论 -
介绍一些比较方便好用的爬虫工具和服务
在之前介绍过很多爬虫库的使用,其中大多数也是 Python 相关的,当然这些库很多都是给开发者来用的。但这对一个对爬虫没有什么开发经验的小白来说,还是有一定的上手难度的。现在市面上其实也出现了非常多的爬虫服务,如果你仅仅是想爬取一些简单的数据的话,或者懒得写代码的话,其实利用这些工具还是可以非常方便地完成爬取的,那么本文就来总结一下一些比较实用的爬取服务和工具,希望在一定程度上能够帮助你摆脱数据爬...转载 2019-09-28 19:30:48 · 7720 阅读 · 0 评论 -
python递归爬取整站链接,广度优先,主要用于监控网站是否发布了新的文章
除了js脚本跳转之外,无论是绝对链接,相对链接,还是有层级的相对链接(如../../xxx.htm),都可以很好的整理成完整的URL,其中leve是定义页面层级深度的。要想真正使用,还有好多路要走,比如:过滤页面类型,数据去重,多线程,批处理爬取多个网站等。# coding:utf-8# 网页url采集爬虫,给定网址,以及存储文件,将该网页内全部网址采集下,可指定文件存储方式import...原创 2019-09-30 02:32:06 · 2824 阅读 · 0 评论 -
Scrapy笔记-保存到数据库
Scrapy使用Python语言编写,如果你对这门语言还不熟,请先去学习下基本知识。创建Scrapy工程在任何你喜欢的目录执行如下命令scrapy startproject coolscrapyCopy将会创建coolscrapy文件夹,其目录结构如下:coolscrapy/ scrapy.cfg # 部署配置文件 coolsc...原创 2019-10-11 20:05:28 · 1674 阅读 · 0 评论 -
中国工程院院士高文ICTC演讲《国家新一代人工智能发展规划》
2018年10月24-26日,以“创新发展模式深化媒体融合”为主题的第二十六届媒体融合技术研讨会(ICTC2018)在杭州黄龙饭店举行。在24日举办的主题报告会上,中国工程院院士高文做了《国家新一代人工智能发展规划》为主题的演讲。ICTC由国家广播电视总局批准、中国广播电影电视社会组织联合会技术委员会、浙江省广播电影电视产业协会和华数数字电视传媒集团有限公司等单位共同举办,是广电领域最具影响力的国...转载 2019-09-20 09:17:38 · 2440 阅读 · 0 评论 -
FOR E-COMMERCE DATA SCIENTISTS: LESSONS LEARNED SCRAPING 100 BILLION PRODUCTS PAGES
Web scraping can look deceptively easy these days. There are numerous open-source libraries/frameworks, visual scraping tools and data extraction tools that make it very easy to scrape data from a web...转载 2019-07-08 14:26:08 · 1918 阅读 · 0 评论 -
2018上半年互联网恶意爬虫分析:从全景视角看爬虫与反爬虫
本篇报告主要聚焦于「恶意爬虫」,不讨论搜索引擎爬虫及合法爬虫等。爬虫的分类按爬虫功能,可以分为网页爬虫和接口爬虫。网页爬虫:以搜索引擎爬虫为主,根据网页上的超链接进行遍历爬取。接口爬虫:通过精准构造特定API接口的请求数据,而获得大量数据信息。按授权情况,可以分为合法爬虫和恶意爬虫。合法爬虫:以符合Robots协议规范的行为爬取网页,或爬取网络公开接口,或购买接口授权进行爬...转载 2019-05-08 07:13:34 · 2842 阅读 · 1 评论 -
使用“create spfile from pfile”命令注意问题
自从9i版本开始,Oracle数据库开始引进另外一种初始化参数文件,spfile.简单说明一点:①该参数是一个二进制文件,不可以用文本编辑器直接编辑修改;②一般驻留在Database server端;③对参数的修改在数据库重新启动后仍然生效;④可以通过RMAN工具进行备份。Oracle现在已经不推荐使用PFILE了。数据库在启动的过程当中默认读取参数文件的原创 2013-02-19 09:41:05 · 20282 阅读 · 1 评论 -
Oracle中:已请求写入 SPFILE, 但是在启动时未指定 SPFILE
“已请求写入SPFILE,但是在启动时未指定SPFILE”的错误。应该如何解决呢?由于在做操作之前已经将SPFILE进行了备份,备份命令采用了create pfile from spfile;出现这个错误时,执行了一下show parameter spfile;结果发现value字段值为空或者如下:SQL> show parameters spfile;NAME原创 2013-02-19 09:52:57 · 1804 阅读 · 0 评论 -
nutch在win下的安装
1、下载安装CYGWIN;2、通过“cd /cygdrive/盘符/nutch解压地址”命令进入解压目录;3、运行 “bin/nutch”。原创 2011-12-31 12:08:20 · 1424 阅读 · 0 评论 -
nutch1.4中“Nutch Fetcher: No agents listed in ‘http.agent.name’ property”错误解决方法
网络上大多解释是:在{nutch}/conf下找到nutch-default.xml如果一开始的属性设置为:> > http.agent.name> > > >则可能会抛出Fetcher: No agents listed in ‘http.agent.name’ property的错误提示。原因在于中的值为空,自己加上一些东西(我想原创 2012-01-07 13:06:27 · 3585 阅读 · 2 评论 -
nutch1.4整合solr3.5,搜索输出xml数据配置问题
1,指定样式表 在地址最后面加上“&wt=xslt&tr=example.xsl”。 wt,指定输出格式为xslt te,指定匹配的样式文件,样式表文件位置在“{solr}/example/solr/conf”目录下。 通过样式表,可以定制你想要的输出界面,例如百度、谷歌的搜索效果。详细xslt入门教程,请参见http://blog.youkuaiyun.com/c原创 2012-01-07 12:50:52 · 2515 阅读 · 0 评论 -
Nutch-1.3中没了自带的搜索war文件,Nutch爬取与Solr搜索结合
不知道为什么在Nutch-1.3中没了Nutch自带的搜索war文件,而且在Nutch-1.3中,抓取文件后,生成的目录只有crawldb,linkdb,segments,而没有了indexs和index目录查了一下官网Wiki,上面是把Nutch的索引映射到solr,用solr来提供搜索功能,详见官网Wiki说明:http://wiki.apache.org/nutch/RunningNut转载 2012-01-07 12:42:49 · 5012 阅读 · 0 评论 -
PostGreSql 手动安装
一、基本安装1、下载postgresql-8.3.3-2-binaries-no-installer.zip2、解压postgresql-8.3.3-2-binaries-no-installer.zip到C:/3、详细安装步骤如下:(在超级用户权限下执行命令)C:/>cd pgsqlC:/pgsql>dir 驱动器 C 中的卷是 winxp 卷的序列号是 382E-2B62 C:/pgsql 的目录2008-09-18 18:48 .2008-09-18 18:48原创 2011-02-28 15:32:00 · 2222 阅读 · 0 评论 -
C#中读取记事本内容,替换所有的空白,换行及回车
<br /><br />using System;<br />using System.Text;<br />using System.Text.RegularExpressions;<br /> <br />namespace TxtCosDist<br />{<br /> public sealed class PreProcessUtility<br /> {<br /> private PreProcessUtility()<br /> {<br />原创 2010-10-18 11:49:00 · 9460 阅读 · 0 评论 -
文本相似度计算--余弦定理和广义Jaccard系数
<br />在7.9余弦定理+空间向量--我的数学3 中简单地说了一下利用余弦定理来计算文本相似度。下面是利用余弦定理和广义Jaccard系数来计算文本相似度。<br /><br />简单介绍一下Jaccard系数:广义Jaccard系数可以用于文档数据,并在二元属性情况下归约为Jaccard系数。广义Jaccard系数又称Tanimoto系数。(有另一种系数也称为Tanimoto系数)。该系数用EJ表示,由下式定义:<br />EJ(x,y)=(x*y)/(||x|*||x||+||y||*||y||-x转载 2010-10-12 22:35:00 · 3854 阅读 · 0 评论 -
PageRank算法的实现源代码和原理
<br />最后面是源代码,前面是简单的原理介绍<br /> 曾经在网上找了很多关于PageRank的论文,基本上都是介绍原理的,没有找到计算过程的具体实现的源代码,前一阵公司有需要于是写了一个,比 <br />较简单(没有反作弊,Blog链接的处理,黑洞的处理都没有管),就是用极限编程的思想用最快的速度实现了一个个人感觉计算效率还不错,(没分块,其实 <br />前期分块后对后续的计算过程也是一样的了P4 3.0,512M),1700万网页迭代一次需要25秒钟的样子.<br /> SortMap转载 2010-10-12 22:56:00 · 14472 阅读 · 2 评论