
人工智能
浮生梦浮生
后台服务架构,有多年分布式、高并发架构项目实施经验,对人工智能-推荐引擎、神经网络与深度学习有深入理解
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
用户画像
1.1 什么是用户画像?用户画像通常包含定性画像与定量画像;定性画像是描述用户的基本属性、行为刻画、兴趣模型等,定量画像主要包括用户基础变量、兴趣偏好等可量化的数据特征。一般情况,定量画像主要通过...原创 2018-06-05 18:59:15 · 1593 阅读 · 0 评论 -
linux下python程序后台运行,并将打印信息保存文件
在跑比较时间比较长的程序,或者是打印信息比较多的程序时,一般都会后台运行程序,然后把打印信息保存在文件中,等程序运行结束后再检查输出日志。完成该功能可以用如下命令:nohup python -u test.py > test.log 2>&1 &其中,1. 最后一个“&”表示后台运行程序2. “nohup” 表示程序不被挂起3. “pytho...转载 2018-10-05 21:38:42 · 5078 阅读 · 2 评论 -
linux selenium chrome chromedriver及无浏览器界面运行方式
1. 安装chrome我使用的是Centos7,使用如下安装方式配置yum下载源:在目录 /etc/yum.repos.d/ 下新建文件 google-chrome.repo, 并且在该文件中添加如下内容:[google-chrome]name=google-chromebaseurl=http://dl.google.com/linux/chrome/rpm/stable/$b...原创 2018-10-06 00:28:41 · 13028 阅读 · 0 评论 -
Webmagic源码分析之运行流程
Webmagic是Java中的一个爬虫开源框架,主要有四大核心组件,分别是:Downloader、PageProcessor、Scheduler、Pipeline,并有Spider进行管理。这四个组件分别对应了爬虫生命周期中的下载、处理、管理、持久化。同时还支持XPath、Jsoup、CSS选择器,方便我们对抓取的页面进行解析。 Webmagic的源码可以从github上pull下来:h...转载 2018-09-29 11:28:09 · 577 阅读 · 0 评论 -
python3 日志检索异常raise KeyError(key),KeyError: 'formatters'
Trse KeyError(key)aceback (most recent call last): File "/root/pyrun/wechat_crawl/articles_update_exec.py", line 3, in <module> from articles_update import * File "/root/pyrun/wechat_cra...原创 2018-10-15 22:27:10 · 51257 阅读 · 11 评论 -
python selenium selector 循环选择
Select提供了三种选择方法:# 通过选项的顺序,第一个为 0 select_by_index(index)# 通过value属性 select_by_value(value) # 通过选项可见文本select_by_visible_text(text) Select提供了四种方法取消选择:deselect_by_index(index) deselect_by_va...转载 2018-10-09 15:04:28 · 4100 阅读 · 0 评论 -
python3 selenium ActionChains用法
下面介绍一下ActionChains:用selenium做自动化,有时候会遇到需要模拟鼠标操作才能进行的情况,比如单击、双击、点击鼠标右键、拖拽等等。而selenium给我们提供了一个类来处理这类事件——ActionChains selenium.webdriver.common.action_chains.ActionChains(driver)这个类基本能够满足我们所有对鼠标...转载 2018-10-09 23:37:07 · 14268 阅读 · 1 评论 -
python3 selenium Select用法及Alert对话框处理
上一张介绍了selenium ActionChains用法selenium提供了更高级的玩法,Select模块。直接根据属性或索引定位。导入包 from selenium.webdriver.support.select import Select1. 通过select选项的索引来定位选择对应选项(从0开始计数),如选择第三个选项:select_by_index(2) r...原创 2018-10-10 00:21:51 · 1567 阅读 · 0 评论 -
Python3 selenium 网页table数据抓爬
项目介绍本项目是对一些复杂的报表解析爬取列表数据,以国家网为例(大家最好换一个网站),会自动根据数据库配置text(数据库为字典方式),进行点击树形结构,然后input下拉框内时间,并选择省(时间和省由配置文件配置),但下拉列表的xpath没有数据库化,现阶段是写死在代码中项目开始由递归进行判定是否为最后一层,字典表可配置N层,看你网站的复杂度加入QQ群:943841699源码地址...原创 2018-10-31 23:41:18 · 1202 阅读 · 0 评论 -
python3.6 微信公众号抓爬
项目介绍本项目针对微信公众号文章爬取,通过微信公众号名称或微信号,爬取发布的文章,并对文章进行去重操作若有其他问题请加群943841699,共同探讨技术本项目借鉴很多其他项目,就不一一列出 源码地址https://gitee.com/xywdy/wechat_creeper若对项目有帮助,记得捐赠打赏偶使用说明1. 请安装python3.X环境,安装教程可参考 ...原创 2018-10-30 23:39:15 · 606 阅读 · 0 评论 -
spark性能优化指南-基础篇
前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行...转载 2018-12-10 16:33:42 · 253 阅读 · 0 评论 -
python中selenium操作下拉滚动条方法汇总
UI自动化中经常会遇到元素识别不到,找不到的问题,原因有很多,比如不在iframe里,xpath或id写错了等等;但有一种是在当前显示的页面元素不可见,拖动下拉条后元素就出来了。在python中有几种方法解决这种问题,简单介绍下,给需要的人:方法一)使用js脚本直接操作,方法如下:js="var q=document.getElementById('id').scrollTop=100...转载 2018-10-05 21:11:57 · 1431 阅读 · 0 评论 -
linux 安装 python环境
1. 安装python依赖环境# yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel上述可根据具体情况安装,不需要所有插件可能会提示:Loaded...原创 2018-10-05 16:04:50 · 368 阅读 · 0 评论 -
Consul与euerka对比
最大的区别是Eureka保证AP, Consul为CP。Consul强一致性(C)带来的是:服务注册相比Eureka会稍慢一些。因为Consul的raft协议要求必须过半数的节点都写入成功才认为注册成功 Leader挂掉时,重新选举期间整个consul不可用。保证了强一致性但牺牲了可用性。Eureka保证高可用(A)和最终一致性:服务注册相对要快,因为不需要等注册信息replica...转载 2018-10-11 12:31:34 · 778 阅读 · 0 评论 -
用户唯一化设计
根据现有的能力设计一个模型,如果大家有更优的办法,欢迎指正与交流。本设计是建立在已有用户中心系统的基础上,各个系统账号统一,并且也是针对hbase数据库的一个设计(若没有统一账号,建议先统一各个系统账号,想一步到位,也不是不可,需要花费的代价……) 根据推荐引擎业务来说明。用户行为采集。离线job清洗转化行为数据推荐计算(此处包含较多,不单独介绍,后续有时间会整理出来其架构及实施方案)实时读取历史...原创 2018-06-05 19:01:50 · 1101 阅读 · 0 评论 -
深入浅出神经网络与深度学习-深度学习(四)
现在IT界人工智能、深度学习、机器学习很火,都能说出个123来,但真正知道他们的关系的我想只有真正去我们先来看下深度学习是个什么东东。他和人工智能,神经网络有什么关系?l 深度神经网络是一种具备至少一个隐层的神经网络。深度神经网络通常都是前馈神经网络。l 前馈型神经网络我们在之前章节也提到过,特征是至少有一个隐层。也就是说,多层前馈神经网络都是深度神经网络,但深度神经网络不一定是多层前馈神经网...原创 2018-06-05 19:05:22 · 2687 阅读 · 0 评论 -
梯度下降算法
在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。1. 梯度 在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。比如函数f(x,y), 分别对x,y求偏导数,求得的梯度向量就是(∂f/∂x, ∂f/∂y)T,简称gr...转载 2018-06-06 18:50:27 · 8254 阅读 · 1 评论 -
深入浅出神经网络与深度学习-算法函数(二)
1.1常用传递函数 函数名称 映射关系 缩写 说明 阶梯函数 n<=0; a=0 n>0; a=1 step 大于0,输出1 符号函数 n<0; a=-1...原创 2018-05-31 18:52:55 · 901 阅读 · 0 评论 -
深入浅出神经网络与深度学习(三)-neuroph介绍
1.1 Neuroph如果你是神经网络的初学者,你只是想尝试一下他们如何工作而不需要复杂的理论和实施,或者你需要他们快速的为你的研究项目,neuroph是很好的选择。它是小型的,文档化的,易于使用,并且非常灵活的神经网络框架.1.1.1 下载2.9版本下载地址:https://sourceforge.net/projects/neuroph/files/neuroph2.94/neuroph-...原创 2018-05-31 18:55:46 · 3193 阅读 · 0 评论 -
深度学习与神经网络-压缩感知(Compressive Sensing)学习(五)
压缩感知(压缩传感,Compressive Sensing)理论是近年来信号处理领域诞生的一种新的信号处理理论,由D. Donoho(美国科学院院士)、E. Candes(Ridgelet, Curvelet创始人)及华裔科学家T. Tao(2006年菲尔兹奖获得者)等人提出,自诞生之日起便极大地吸引了相关研究人员的关注。网站http://dsp.rice.edu/cs上可以获取大量相关的论文。 ...转载 2018-06-08 16:46:03 · 16171 阅读 · 0 评论 -
Xpath的高级用法
xpath速度比较快,是爬虫在网页定位中的较优选择,但是很多网页前端代码混乱难以定位,而学习定位也较为不易(主要是全面的教程较少),这里列出一点编程过程中可能有用的东西,欢迎共同学习批评指正。试验环境:Python环境,lxml.etree试验所使用的html代码<!DOCTYPE html><html><head> <title&g...转载 2018-08-30 18:36:16 · 1935 阅读 · 0 评论 -
windows10安装TensorFlow并集成到idea
安装Python查看https://mp.youkuaiyun.com/postedit/82353224测试pip版本:pip -v 如果已经安装了Python,则进入Python scripts文件夹下,运行pip -v更新pip : python -m pip install -U pip安装TensorFlow(CPU环境)pip3 install --ignore-insta...原创 2018-09-04 02:14:44 · 1492 阅读 · 0 评论 -
安装Python,运行PIP出现LookupError: unknown encoding: cp65001
安装Python27后,配置好环境变量,运行pip list出现如下错误Traceback (most recent call last): File "d:\app\python\python27\lib\runpy.py", line 174, in _run_module_as_main "__main__", fname, loader, pkg_name) File ...原创 2018-09-18 18:15:24 · 4610 阅读 · 0 评论 -
python3 webdriver.Chrome(),'chromedriver' executable needs to be in PATH,unknown error: cannot find
当运行webdriver.Chrome(),出现如下错误:selenium.common.exceptions.WebDriverException: Message: unknown error: cannot find Chrome binary原因是没有找到chrome运行路径,也就是说你的chrome不是默认安装地址修改如下:增加binary_options:opti...原创 2018-09-23 16:33:44 · 801 阅读 · 0 评论 -
spark性能优化指南-高级篇
前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问...转载 2018-12-10 16:38:43 · 270 阅读 · 0 评论