- 博客(62)
- 资源 (16)
- 收藏
- 关注
原创 python 读文件 decode error ‘utf8‘ ‘GBK‘ 问题
1. 读取日文txt,出现gbk解码错误问题。line.encode('gb18030') 解决2.读英文csv,出现utf8解码错误问题。with open(jp_data_total_path,'r',encoding='gb18030')as f_jp encoding='utf8'改为encoding='gb18030'解决
2020-12-02 12:47:05
418
原创 liunx pytroch安装(离线安装)
liunx pytroch安装(离线安装)#pip3 --default-timeout=100 --no-cache-dir install torch==1.4.0 加--default-timeout=10无法解决timeout问题选择离线安装https://pypi.tuna.tsinghua.edu.cn/packages/47/69/7a1291b74a3af0043db9048606daeb8b57cd9dea90b9df740485f3843878/torch-1.4.0...
2020-11-30 09:50:00
267
原创 工作中常用的liunx 命令
1.批量杀死包含某个程序或端口的进程PID(经常碰到端口占用的情况)lsof -i:8000 | awk '{print $2}'| xargs sudo kill or kill -9 $(lsof -i tcp:8080 -t)2.查看某个文件夹下各文件的大小/占用内存(因为是爬虫工程师磁盘空间经常不够,根据情况需要删除占用空间大的文件)du -sh * d...
2019-06-26 13:17:06
226
原创 ubuntu python 版本升级后 No module named 'apt_pkg' No module named 'pip._internal'
1.解决No module named 'apt_pkg'sudo apt-get remove python3-aptsudo apt-get install python3-apt2.解决No module named 'pip._internal'curl https://bootstrap.pypa.io/get-pip.py -o get-pip.pypyt...
2019-06-24 15:15:24
844
1
原创 Python---爬虫---清洗---unicode编码转成中文显示问题
unicodestr = '\u4f60\u597d'eval("u"+"\'"+unicodestr+"\'")
2019-03-14 13:52:10
892
原创 python安装tensorflow出现No matching distribution found for tensorflow
pip install -ihttps://pypi.tuna.tsinghua.edu.cn/simple/--upgrade tensorflow
2019-03-12 17:23:05
6109
2
原创 Python---爬虫---Save---CSV
csv写入:import csv# 文件写入with open('data.csv', 'w') as csvfile: # 初始化写入对象f_csv_wt = csv.writer(csvfile) # writerow 写入f_csv_wt.writerow(['id', 'name', 'age']) # writerow...
2019-03-09 11:17:27
859
原创 Python---爬虫---Save---Execel
Execel读取:1、导入模块 import xlrd2、打开Excel文件读取数据 data = xlrd.open_workbook('excel.xls')3、获取一个工作表1 table = data.sheets()[0] #通过索引顺序获取2 table = data.sheet_by_index(0) #通过索引...
2019-03-09 10:56:41
209
原创 Python---爬虫---速---aiomultiprocess
# -*- coding: utf-8 -*-## Imports#import asyncioimport hashlibimport timeimport datetimeimport jsonfrom aiomultiprocess import Poolfrom redis import *from pybloom_live import BloomFilt...
2019-03-09 10:32:09
1394
原创 Python---爬虫---速---asyncio
import asyncioimport timeimport reimport multiprocessing as mpimport osimport aiohttpfrom scrapy import Selectorimport xlwt# from apscheduler.schedulers.asyncio import AsyncIOScheduler# fro...
2019-03-09 10:25:36
337
原创 Python---爬虫---速---multiprocessing
import requestsimport timeimport multiprocessingimport osfrom lxml import etreestart = time.time()def request(url): headers = { 'Accept': 'text/html,application/xhtml+xml,applicat...
2019-03-09 10:19:17
240
原创 Python---爬虫---速---gevent
import gevent.monkeygevent.monkey.patch_all()# 补丁 修改了低层 scoket模块; 非阻塞from gevent.pool import Poolfrom queue import Queueimport timeimport reimport csvimport requestslist = []list_url = [...
2019-03-09 10:15:21
283
原创 Python---爬虫---反反爬---execjs(python执行js库)
1.pip3 installPyExecJS2.需要安装一个JS运行环境:Node.js 或 PhantomJS。import execjs# Init environmentnode = execjs.get()# Compile javascript(自己需要调用方法的js文件)file = 'open_id.js'ctx = node.compile(open...
2019-03-09 09:59:51
1262
3
原创 Python---爬虫---清洗---NLTK
安装语料库:import nltk nltk.download()NLTK自带语料库:>>> from nltk.corpus import brown>>> brown.categories()['adventure', 'belles_lettres', 'editorial','fiction', 'government', 'ho...
2019-03-08 22:54:34
458
原创 Python---爬虫---清洗---SnowNLP(基础NLP处理库)
安装:pip3 install snownlpfrom snownlp import SnowNLPs = SnowNLP(data)1.# 分词s.words2.# 词语标注s.tags3.# 情感分析s.sentiments4.# 转换拼音s.pinyin5.# 转换简体s.han6.# 提取关键字s.keywor...
2019-03-08 20:26:12
945
原创 Python---爬虫---清洗---Levenshtein(计算字符串相似度,编辑距离等)
安装:pip install python-Levenshtein1.Levenshtein.hamming(str1, str2) ,计算汉明距离。要求str1和str2必须长度一致。是描述两个等长字串之间对应位置上不同字符的个数。2.Levenshtein.distance(str1, str2),计算编辑距离(也成Levenshtein距离)。是描述由一个字串转化成另一个字串最少的操...
2019-03-08 19:42:00
1139
原创 Python---爬虫---清洗---phonenumbers(电话号码解析)
安装:pip3 installphonenumbers1.把看似不一样的号码规范到同一个号码>>> import phonenumbers>>> x = phonenumbers.parse("+442083661177", None)>>> y = phonenumbers.parse("020 8366 1177", ...
2019-03-08 18:11:39
2082
原创 Python---爬虫---清洗---jieba分词
jieba中文处理和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。jieba就是这样一个非常好用的中文工具,是以分词起家的,但是功能比分词要强大很多。1.基本分词函数与用法jieba.cut 以及 jieba.cut_for_search 返回...
2019-03-08 15:40:05
2522
原创 爬虫智能解析浅谈
智能解析的深度学习切入方向 标题,一般它的字号是比较大的,而且长度不长,位置一般都在页面上方,而且大部分情况下它应该和 title 标签里的内容是一致的 正文,它的内容一般是最多的,而且会包含多个段落 p 或者图片 img 标签,另外它的宽度一般可能会占用到页面的三分之二区域,并且密度(字数除以标签数量)会比较大。 时间,不同语言的页面可能不同,但时间的格式...
2019-03-08 14:19:38
263
原创 mac 终端 安装及运行 jupyter notebook
pipinstall jupyter notebook 输入 jupyter notebook ,ok!
2019-03-05 22:58:03
3066
原创 深度学习入门—基于python的理论与实现笔记
感知机感知机的例子:x1、x2是输入信号,y是输出信号,w1、w2是权重(w是 weight 的首字母)。图中的○称为“神经元”或者“节点”。输入信号被送往神经元时,会被分别乘以固定的权重(w1x1、w2x2)。神经元会计算传送过来的信号的总和,只有当这个总和超过了某个界限值时,才会输出 1。这也称为“神经元被激活”。这里将这个界限值称为阈值,用符号θ表示。 w1和w2是控...
2019-03-05 16:04:46
1731
原创 吴恩达机器学习笔记
机器学习定义:一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,有个经验E后,经过P的评判,程序在处理T时的性能有所提高。经验E是机器上万次的自我练习的经验,任务T是下棋,性能度量值是P回归问题是通过之前数据来推出一个连续的输出,分类问题是推出一组离散的结果。单变量线性回归函数:只含有一个特征/输入变量建模误差:模型所预测的智与训练集中的实际值之间的差距,目标是选出使建模误...
2019-02-27 11:56:40
220
原创 Python lambda函数
1.列表中嵌套字典进行排序:列表.sort(key=lambda x : x[age]),key赋值匿名函数,接受列表传参,通过键获取值,进行比较。2.函数实参传匿名函数给形参,赋值运算,进行匿名函数的调用,返回值,得到函数的最后的值。3. input匿名函数,用eval()将字符串转换成匿名函数,python解释性语言相较于编译性语言,不代表会按程序编写的走,可以给程序输入一个东西,这个...
2019-02-22 00:13:37
341
原创 Python 中文乱码问题
可以采用编码忽略非法字符的方式来处理,strs = strs.decode("UTF-8","ignore").encode("UTF-8"),decode的第二个参数表示遇到非法字符时所采取的方式
2019-02-22 00:12:26
107
原创 Python list , tuple ,dict,set 的用法和特点
tuple 1.元祖,固定长度不可变的顺序容器,访问效率高, 适合存储一些常量数据,可以作为字典的键使用(因为元组不可变),元组对不需要改变的数据进行“写保护”将使得代码更加安全2.如何让元组内部可变:元组内部 每个元素 存 列表 或者字典 可以修改内部的列表 和字典 里面的内容list 列表,是长度可变有序的数据存储容器,可以通过下标索引取到相应的数据,有序的,list随着数量...
2019-02-22 00:12:07
1069
原创 爬虫---反反爬---User-Agent
User-Agent1、用户代理,浏览器身份识别2、通过它判断是谁在发送请求,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等3、代码中添加User-Agent实现模拟浏览器4.某大牛写了个库,fake-useragent,本质其实也是个爬虫。可随机生成UA。pip install fake-useragent...
2019-02-20 09:58:03
634
原创 爬虫---反反爬---IP
IPip反爬不用说了,入门级的解决:git上开源的proxy_pool很多,找那个most star的,缺点用的人多,响应速度慢,可用率低。 公司有预算的话,购买付费代理,常用的几家:芝麻代理,阿布云,多贝云,大象,曾打电话给代理公司,貌似都是在全国各地拉网线,建机房,ADSL拨号,质量差不太多,详细参考崔庆才博客,有自测12家付费代理文章。 ip封的不是太厉害的,在家庭网状态下,...
2019-02-20 09:57:47
273
原创 爬虫---反反爬---Cookie
服务端通过cookie判断是否为一个爬虫程序,爬虫通过添加cookie获取登录后的页面 cookie一般开始的时候先不要携带,如果不确定反爬的防线,尝试先从UA,ip入手,开始的时候携带cookie有可能服务器通过识别cookie发现爬虫。 cookie反反爬的解决 直接粘贴复制chrome开发者中找到的cookie,根据网站情况不同,请求速度不是太快的话,可以使用 更换账...
2019-02-20 09:57:06
2212
原创 爬虫---反反爬---验证码
尝试手机版,相对来说反爬较弱。 图形验证码 OCR二值化,去灰度,识别率低。 打码平台(超级鹰,云打码) 深度学习训练,成本高,适用范围小 OpenCV,SimpleCV 算数验证码 OCR 打码平台 滑动验证码 selenium 破解加密算法 深度学习训练,标注缺口,识别缺口 点触验证码 OCR + 图像匹配(百度识图) 打码平台 ...
2019-02-20 09:55:42
872
原创 爬虫---反反爬---headers
1.一般可直接全复制进去2.部分网站放入部分参数才可以,全部放进去反而获取不到理想页面,比较重要的3个:UA,Cookie,Referer。3:可用pycharm正则处理复制过来的headers,也可写脚本处理。其他参数的解释: Connection:链接类型 keep-alive 支持使用长连接,复用上次连接,因为有三次握手,四次挥手消耗时间,不断开连接,直接使用上次的连...
2019-02-20 09:54:49
1012
原创 爬虫---反反爬---前端
前端js生成formdata中的参数,普通例如:生成16位随机字符串,高级点的加密字符串:网易音乐 font-face拼凑式,woff字体文件,猫眼电影:相对来说简单,找到字体对应的正确数值,替换就可以。 background拼凑式,与font的策略类似,美团里用到的是background拼凑。数字其实是图片,根据不同的background偏移,显示出不同的字符,并且不同页面,图片的字符排序也...
2019-02-19 09:41:11
371
原创 爬虫---请求错误后重试---retrying
pip3 install retryingfrom retrying import retry在代码上添加@retry(添加错误次数)@retry(stop_max_attempt_number=10)
2019-02-19 09:39:56
520
原创 Python---爬虫请求库---requests
使用request的优势 requests的底层实现就是urllib(更加简单,方便。) requests在python2 和python3中通用,方法完全一样 requests简单易用 Requests能够自动帮助我们解压(gzip压缩的等)网页内容(urllib需要自动解压)response.status_code (状态码) response的常用方...
2019-02-19 09:38:02
232
原创 Python pprint 美化
作用:美观打印数据结构pprint 包含一个“美观打印机”,用于生成数据结构的一个美观视图。格式化工具会生成数据结构的一些表示,不仅可以由解释器正确地解析,而且便于人类阅读。输出尽可能放在一行上,分解为多行时则需要缩进。data = [(1,{'a':'A','b':'B','c':'C','d':'D'}), (2,{'e':'E','f':'F','g':'G','h':'...
2019-02-19 09:37:39
187
原创 Python---爬虫---清洗---json 和 demjson
json json.load,json.dump是实现类文件对象(具有read和write方法的对象,比如一个file)和python类型的转化 json.loads 将josn转换成字符串,josn.dumps将字符 串转换成josn json.dumps(ret,ensure_ascii = Flase,indent=2(进行可视化操作,往后退2个)),添加ensu...
2019-02-19 09:37:19
393
原创 Python---爬虫---解析---xpath
重要语法 / 根节点选取 //当前目录下所有该节点 .当前节点 ..当前节点的父节点 节点选择语法 /a/b[1], 选取a节点下的第一个b节点 /a/b[last()], 选取a节点下的最后一个b节点 /a/b[last()-1], 选取a节点下的倒数2个b节点 /a/b[position()...
2019-02-19 09:36:41
241
原创 Python---爬虫---解析---lxml
解析习惯用lxml + xpath1.from lxml import etree2.使用etree.HTML()将bytes类型和html类型的字符串转换为element对象,然后使用 xpath处理element对象3.etree.tostring把element对象转换为字符串,自动补全代码 ...
2019-02-19 09:31:55
150
原创 Python---爬虫---解析---正则表达式(re)
预定义字符集 \d[0,9],\D取反 \s[空格\r\f\t\n\v](空白字符),\S取反 \w[A-Za-z0-9_],\W取反 字符re.findall(".","\n",re.DOTALL(可以匹配换行符)/re.S(DOTALL的缩写)),在DOTALL模式中 . 可以匹配换行符。 \ 反斜杠转义 , a[a,b,c]z或者| (或者abc|ac...
2019-02-19 09:31:21
296
精通正则表达式(第3版) epub格式 带目录 精排极致版 猫头鹰的那本
2019-07-21
自然语言处理综论 第2版_2018.03_784_14391789.pdf
2019-07-21
百面机器学习 算法工程师带你去面试.pdf.zip
2019-06-20
《我的第一本算法书》高清PDF.pdf.zip
2019-06-20
《Python深度学习》2018中文版pdf+英文版pdf+源代码.zip
2019-06-20
美团机器学习实践.美团算法团队(详带细书签)--2019.04.20.pdf.zip
2019-06-20
斯科特扬思维习惯高效全能套系( 共4册).epub.zip
2019-05-16
深度学习.epub.zip
2019-05-16
Python密码学编程.pdf
2019-03-11
python绝技:运用python成为顶级黑客(精排+目录)
2019-03-11
程序员的数学(日-平冈和幸)三部曲打包(精排带目录)
2019-03-11
改善Python程序的91个建议+编写高质量Python代码的59个有效方法+流畅的Python(精排+目录)
2019-03-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人