自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 用Python+StanfordCoreNLP做中文命名实体分析

最近遇到一个中文实体分析的问题,之前也接触了一些关于中文文本处理的方法和工具,如jieba分词,分词用着还行,但是这次遇到实体分析就有点懵逼了!!!还好找到了斯坦福的一个开源工具包StanfordCoreNLP。下面就来介绍怎么玩,只针对中文,如果对其它的用法感兴趣,开源访问这里。开始安装:首先要下载两个包,这个应该是斯坦福大学训练好的关于处理中文自然语言处理的模型,两个文件1G左

2017-10-21 01:07:07 13183 6

原创 Python opencv处理图像时文件名含有中文问题

都知道Python2.7版本中文显示问题,在Python3以后就没有这个问题了,但不知道为什么Python3下opencv在打开带有中文名的图片时就有问题。测试环境:Python3.5、opencv错误例子:file = 'C:/测试.jpg'import cv2img = cv2.imread(file)cv2.imshow('test',img)OpenCV Err

2017-10-20 14:01:57 5308

原创 tensorflow的tf.in_top_k()错误

我在TensorFlow图像识别学习中,遇到的困难!!!错误:Traceback (most recent call last):  File "as1_train.py", line 199, in     main()  File "as1_train.py", line 174, in main    run_training()  File "as1_t

2017-10-10 11:12:52 1271

原创 np.newaxis的用法

参考博客:http://blog.youkuaiyun.com/zjm750617105/article/details/53376257突然看到np.newaxis,,但并不知其用法,一脸懵逼!!np.newaxis的作用:增加矩阵维度1、一维a = np.array([1,2,3,4,5])aarray([1, 2, 3, 4, 5])b = a[np.newaxis]b

2017-09-29 17:33:39 1860

原创 Python 财经数据接口包TuShare的基本使用

TuShare是一个免费、开源的python财经数据接口包。主要实现对股票等金融数据从数据采集、清洗加工 到 数据存储的过程,能够为金融分析人员提供快速、整洁、和多样的便于分析的数据,为他们在数据获取方面极大地减轻工作量,使他们更加专注于策略和模型的研究与实现上。考虑到Python pandas包在金融量化分析中体现出的优势,TuShare返回的绝大部分的数据格式都是pandas DataFr

2017-09-24 22:14:28 781

转载 Python 命名规范

转载:http://www.cnblogs.com/wangcp-2014/p/4608265.html官方文档:https://www.python.org/dev/peps/pep-0008/#naming-conventions文件名全小写,可使用下划线包应该是简短的、小写的名字。如果下划线可以改善可读性可以加入。如mypackage。

2017-09-24 22:06:32 279

原创 python爬虫进阶(十二):自动摘要及正文抽取

一、文本长度分析1、HTML中的换行在HTML源码中,所有的换行都是依赖行级元素、块级元素以及来实现的。一般大量使用标签来封装正文。2、去除JavaScript及CSS利用lxml的clean类,能删除HTML里所包含CSS及script>>> from lxml.html import clean>>> cleaner = cle

2017-09-01 16:33:02 1736

转载 python爬虫进阶(十一):分布式数据库架构分析、优化及要点

说明:本篇主要是概念性的东西,主要是课程内容。一、数据库常见概念1、锁(1)表级锁:表锁是开销最小的锁策略,会锁定整张被访问到的表。写之前要获得写锁,会阻塞其它所有的读写操作;读锁属于共享锁,读互相之间不阻塞;写锁的优先级高于读锁,也就是说在排队序列中,写的操作会被插入到读之前。(2)行级锁:行锁可以最大程度支持并发处理,但同时增大了锁开销。行级锁只在存储层

2017-08-31 20:36:32 2013

原创 python爬虫进阶(十):日志系统、守护线程以及验证码处理

一、日志系统首先,关日志系统的设计参考这篇博客。1、日志系统基本用途(1)多线程情况下,debug调试非常困难(2)错误出现可能有一些随机性(3)性能分析(4)错误记录与分析(5)运行状态的实时监测2、日志系统设计(1)错误级别:Debug,Info,Warning,Error,Fatal错误级别逐渐增强,  logging.

2017-08-26 22:24:37 1343

原创 python爬虫进阶(九):基于Page Rank的顺序调整

一、背景二、基本思想1、数量假设:在Web图模型中,如果一个页面节点接收到的其他网页指向的入链数量越多,那么这个页面越重要。2、质量假设:指向页面A的入链质量不同,质量高的页面会通过链接向其他页面传递更多的权重。所以越是质量高的页面指向页面A,则页面A越重要。三、与爬虫的联系确定一个待抓取网页的优先级,优先抓谁,优先显示谁。四

2017-08-23 17:45:51 1503

转载 python爬虫进阶(八):分布式系统的高可用与高并发处理

一、应对高并发的基本思路1、加快单机的速度,例如使用Redis,提高数据访问频率;增加CPU的内核数,增大内存;2、增加服务器的数量,利用集群。

2017-08-22 16:38:29 4521

原创 python爬虫进阶(七):应对反爬虫的策略

在之前的学习中也了解到一些反爬与应对反爬的策略,见这篇博客 。一、服务器处理web请求流程client     >>   DNS(运营商)   >>  CDN   >>   proxy  >>  host   >>  Apach  >>   PHP二、网站反爬虫1、网站如何发现爬虫?      (1)单一IP非常规的访问频

2017-08-21 01:05:57 1946

原创 python爬虫进阶(六):分布式系统设计

一、分布式爬虫系统设计图主线程:检查状态、创建任务(给爬虫线程)爬虫线程:爬取内容HeartBeat(心跳):维护连接、获取命令 (给主线程检查)二、Master-Slave结构三、protocol(协议)常用的协议设定:protocol_constants.py# msg ty

2017-08-17 16:25:20 593

转载 python爬虫进阶(五):数据的存储

一、mysql之前已经掌握:主要参考教程什么是 PyMySQL?PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库,Python2中则使用mysqldb。PyMySQL 遵循 Python 数据库 API v2.0 规范,并包含了 pure-Python MySQL 客户端库。PyMySQL 安装在使用 Py

2017-08-15 10:56:48 2169

原创 python爬虫进阶(四):多线程与多进程

一、多线程多线程基础知识:主要参考以下两篇文章http://www.cnblogs.com/qq1207501666/p/6709902.htmlhttp://python.jobbole.com/81546/(一)、多线程的复杂性1、资源、数据是安全性:锁保护2、原子性:数据操作是天然互斥的3、同步等待:wait() notify() noti

2017-08-12 16:25:38 726

原创 python爬虫进阶(三):微博的抓取

说明:仅做学习之用下面用常用的两种方法来爬取微博:使用selenium+phantomjs和API解析一、使用selenium+phantomjs最重要的是设置user_agent,否则无法跳转链接当然,还可以设置其它更多参数from selenium import webdriverfrom selenium.webdriver.common.des

2017-08-05 16:40:40 1297

原创 python爬虫进阶(二):动态网页爬取

一、分析动态网页1、分析工具用Beyond Compare分析网页是否含有动态部分。2、直接python解析判断找到你锁需的内容,用常规方式爬取测验,如果不能爬取,则应该考虑是否有动态网页了!!二、常用方案1、找到JS文件我之前已经掌握一种方案,找到动态网页的js文件,而且还非常简单,但是美中不足的是要找到加载出来的js文件,并找到这些动

2017-07-31 22:51:12 940

原创 python爬虫之XPath与lxml的使用

一、文章说明由于之前学习过程中没有使用过lxml+XPath的组合,本篇主要是学习lxml+XPath+python的过程。主要参考了该教程。二、XPath语法规则在w3school上有详细的教程,不懂之处可以查看三、lxml基本用法pip install lxml一般来说,我们在解析网页时仅用到这两种用法就行了。1、补全代码>>> from lxm

2017-07-30 22:15:33 700

原创 python爬虫进阶(一):静态网页爬取

一、文章说明本文是在学习过程中的笔记分享,开发环境是win7,Python3,编辑器pycharm,文章中若有错误欢迎指出、积极讨论。另外,推荐一个比较好的爬虫教程二、课程基础1、HTML和CSS爬虫和网页内容处处打交道,首先要掌握一部分前端内容。参考教程:W3school在线教程2、xpath解析网页掌握了上面的知识,下面就可以开始下一步学习了。如何解析网页?这里我推

2017-07-29 17:19:49 3769

转载 决策树基本知识

感谢分享!!本人只会用于学习!!本文转账自http://www.cnblogs.com/bourneli/archive/2013/03/15/2961568.html本文目的最近一段时间在Coursera上学习Data Analysis,里面有个assignment涉及到了决策树,所以参考了一些决策树方面的资料,现在将学习过程的笔记整理记录于此,作为备忘。 

2017-03-27 20:37:51 645

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除