agsddd-优快云博客

原创 python 读文件 decode error ‘utf8‘ ‘GBK‘ 问题

1. 读取日文txt，出现gbk解码错误问题。line.encode('gb18030') 解决2.读英文csv，出现utf8解码错误问题。with open(jp_data_total_path,'r',encoding='gb18030')as f_jp encoding='utf8'改为encoding='gb18030'解决

2020-12-02 12:47:05 418

原创 liunx pytroch安装（离线安装）

liunx pytroch安装（离线安装）#pip3 --default-timeout=100 --no-cache-dir install torch==1.4.0 加--default-timeout=10无法解决timeout问题选择离线安装https://pypi.tuna.tsinghua.edu.cn/packages/47/69/7a1291b74a3af0043db9048606daeb8b57cd9dea90b9df740485f3843878/torch-1.4.0...

2020-11-30 09:50:00 267

原创工作中常用的liunx 命令

1.批量杀死包含某个程序或端口的进程PID(经常碰到端口占用的情况)lsof -i:8000 | awk '{print $2}'| xargs sudo kill or kill -9 $(lsof -i tcp:8080 -t)2.查看某个文件夹下各文件的大小/占用内存(因为是爬虫工程师磁盘空间经常不够,根据情况需要删除占用空间大的文件)du -sh * d...

2019-06-26 13:17:06 226

原创 ubuntu python 版本升级后 No module named 'apt_pkg' No module named 'pip._internal'

1.解决No module named 'apt_pkg'sudo apt-get remove python3-aptsudo apt-get install python3-apt2.解决No module named 'pip._internal'curl https://bootstrap.pypa.io/get-pip.py -o get-pip.pypyt...

2019-06-24 15:15:24 844 1

原创 Python---爬虫---清洗---unicode编码转成中文显示问题

unicodestr = '\u4f60\u597d'eval("u"+"\'"+unicodestr+"\'")

2019-03-14 13:52:10 892

原创 python安装tensorflow出现No matching distribution found for tensorflow

pip install -ihttps://pypi.tuna.tsinghua.edu.cn/simple/--upgrade tensorflow

2019-03-12 17:23:05 6109 2

原创 Python---爬虫---Save---CSV

csv写入：import csv# 文件写入with open('data.csv', 'w') as csvfile: # 初始化写入对象f_csv_wt = csv.writer(csvfile) # writerow 写入f_csv_wt.writerow(['id', 'name', 'age']) # writerow...

2019-03-09 11:17:27 859

原创 Python---爬虫---Save---Execel

Execel读取：1、导入模块 import xlrd2、打开Excel文件读取数据 data = xlrd.open_workbook('excel.xls')3、获取一个工作表1 table = data.sheets()[0] #通过索引顺序获取2 table = data.sheet_by_index(0) #通过索引...

2019-03-09 10:56:41 209

原创 Python---爬虫---速---aiomultiprocess

# -*- coding: utf-8 -*-## Imports#import asyncioimport hashlibimport timeimport datetimeimport jsonfrom aiomultiprocess import Poolfrom redis import *from pybloom_live import BloomFilt...

2019-03-09 10:32:09 1394

原创 Python---爬虫---速---asyncio

import asyncioimport timeimport reimport multiprocessing as mpimport osimport aiohttpfrom scrapy import Selectorimport xlwt# from apscheduler.schedulers.asyncio import AsyncIOScheduler# fro...

2019-03-09 10:25:36 337

原创 Python---爬虫---速---multiprocessing

import requestsimport timeimport multiprocessingimport osfrom lxml import etreestart = time.time()def request(url): headers = { 'Accept': 'text/html,application/xhtml+xml,applicat...

2019-03-09 10:19:17 240

原创 Python---爬虫---速---gevent

import gevent.monkeygevent.monkey.patch_all()# 补丁修改了低层 scoket模块; 非阻塞from gevent.pool import Poolfrom queue import Queueimport timeimport reimport csvimport requestslist = []list_url = [...

2019-03-09 10:15:21 283

原创 Python---爬虫---反反爬---execjs(python执行js库)

1.pip3 installPyExecJS2.需要安装一个JS运行环境:Node.js 或 PhantomJS。import execjs# Init environmentnode = execjs.get()# Compile javascript(自己需要调用方法的js文件)file = 'open_id.js'ctx = node.compile(open...

2019-03-09 09:59:51 1262 3

原创 Python---爬虫---清洗---NLTK

安装语料库:import nltk nltk.download()NLTK自带语料库:>>> from nltk.corpus import brown>>> brown.categories()['adventure', 'belles_lettres', 'editorial','fiction', 'government', 'ho...

2019-03-08 22:54:34 458

原创 Python---爬虫---清洗---SnowNLP(基础NLP处理库)

安装：pip3 install snownlpfrom snownlp import SnowNLPs = SnowNLP(data)1.# 分词s.words2.# 词语标注s.tags3.# 情感分析s.sentiments4.# 转换拼音s.pinyin5.# 转换简体s.han6.# 提取关键字s.keywor...

2019-03-08 20:26:12 945

原创 Python---爬虫---清洗---Levenshtein(计算字符串相似度，编辑距离等)

安装：pip install python-Levenshtein1.Levenshtein.hamming(str1, str2) ，计算汉明距离。要求str1和str2必须长度一致。是描述两个等长字串之间对应位置上不同字符的个数。2.Levenshtein.distance(str1, str2)，计算编辑距离（也成Levenshtein距离）。是描述由一个字串转化成另一个字串最少的操...

2019-03-08 19:42:00 1139

原创 Python---爬虫---清洗---phonenumbers(电话号码解析)

安装：pip3 installphonenumbers1.把看似不一样的号码规范到同一个号码>>> import phonenumbers>>> x = phonenumbers.parse("+442083661177", None)>>> y = phonenumbers.parse("020 8366 1177", ...

2019-03-08 18:11:39 2082

原创 Python---爬虫---清洗---jieba分词

jieba中文处理和拉丁语系不同，亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候，大部分情况下，词汇是我们对句子和文章理解的基础，因此需要一个工具去把完整的文本中分解成粒度更细的词。jieba就是这样一个非常好用的中文工具，是以分词起家的，但是功能比分词要强大很多。1.基本分词函数与用法jieba.cut 以及 jieba.cut_for_search 返回...

2019-03-08 15:40:05 2522

原创爬虫智能解析浅谈

智能解析的深度学习切入方向标题，一般它的字号是比较大的，而且长度不长，位置一般都在页面上方，而且大部分情况下它应该和 title 标签里的内容是一致的正文，它的内容一般是最多的，而且会包含多个段落 p 或者图片 img 标签，另外它的宽度一般可能会占用到页面的三分之二区域，并且密度（字数除以标签数量）会比较大。时间，不同语言的页面可能不同，但时间的格式...

2019-03-08 14:19:38 263

原创 mac 终端安装及运行 jupyter notebook

pipinstall jupyter notebook 输入 jupyter notebook ，ok！

2019-03-05 22:58:03 3066

原创深度学习入门—基于python的理论与实现笔记

感知机感知机的例子：x1、x2是输入信号，y是输出信号，w1、w2是权重（w是 weight 的首字母）。图中的○称为“神经元”或者“节点”。输入信号被送往神经元时，会被分别乘以固定的权重（w1x1、w2x2）。神经元会计算传送过来的信号的总和，只有当这个总和超过了某个界限值时，才会输出 1。这也称为“神经元被激活”。这里将这个界限值称为阈值，用符号θ表示。 w1和w2是控...

2019-03-05 16:04:46 1731

原创吴恩达机器学习笔记

机器学习定义：一个程序被认为能从经验E中学习，解决任务T，达到性能度量值P，有个经验E后，经过P的评判，程序在处理T时的性能有所提高。经验E是机器上万次的自我练习的经验，任务T是下棋，性能度量值是P回归问题是通过之前数据来推出一个连续的输出，分类问题是推出一组离散的结果。单变量线性回归函数：只含有一个特征/输入变量建模误差：模型所预测的智与训练集中的实际值之间的差距，目标是选出使建模误...

2019-02-27 11:56:40 220

原创网络编程---HTTP中的重定向和请求转发的区别

转发是服务器行为，重定向是客户端行为重定向，其实是两次request

2019-02-23 14:10:13 186

原创 Python lambda函数

1.列表中嵌套字典进行排序：列表.sort(key=lambda x : x[age]),key赋值匿名函数，接受列表传参，通过键获取值，进行比较。2.函数实参传匿名函数给形参，赋值运算，进行匿名函数的调用，返回值，得到函数的最后的值。3. input匿名函数，用eval（）将字符串转换成匿名函数，python解释性语言相较于编译性语言，不代表会按程序编写的走，可以给程序输入一个东西，这个...

2019-02-22 00:13:37 341

原创 Python 中文乱码问题

可以采用编码忽略非法字符的方式来处理，strs = strs.decode("UTF-8","ignore").encode("UTF-8")，decode的第二个参数表示遇到非法字符时所采取的方式

2019-02-22 00:12:26 107

原创 Python list , tuple ,dict，set 的用法和特点

tuple 1.元祖，固定长度不可变的顺序容器，访问效率高，适合存储一些常量数据，可以作为字典的键使用（因为元组不可变），元组对不需要改变的数据进行“写保护”将使得代码更加安全2.如何让元组内部可变：元组内部每个元素存列表或者字典可以修改内部的列表和字典里面的内容list 列表，是长度可变有序的数据存储容器，可以通过下标索引取到相应的数据，有序的，list随着数量...

2019-02-22 00:12:07 1069

原创爬虫---反反爬---User-Agent

User-Agent1、用户代理，浏览器身份识别2、通过它判断是谁在发送请求，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等3、代码中添加User-Agent实现模拟浏览器4.某大牛写了个库，fake-useragent，本质其实也是个爬虫。可随机生成UA。pip install fake-useragent...

2019-02-20 09:58:03 634

原创爬虫---反反爬---IP

IPip反爬不用说了，入门级的解决：git上开源的proxy_pool很多，找那个most star的，缺点用的人多，响应速度慢，可用率低。公司有预算的话，购买付费代理，常用的几家：芝麻代理，阿布云，多贝云，大象，曾打电话给代理公司，貌似都是在全国各地拉网线，建机房，ADSL拨号,质量差不太多，详细参考崔庆才博客，有自测12家付费代理文章。 ip封的不是太厉害的，在家庭网状态下，...

2019-02-20 09:57:47 273

原创爬虫---反反爬---Cookie

服务端通过cookie判断是否为一个爬虫程序，爬虫通过添加cookie获取登录后的页面 cookie一般开始的时候先不要携带，如果不确定反爬的防线，尝试先从UA，ip入手，开始的时候携带cookie有可能服务器通过识别cookie发现爬虫。 cookie反反爬的解决直接粘贴复制chrome开发者中找到的cookie，根据网站情况不同，请求速度不是太快的话，可以使用更换账...

2019-02-20 09:57:06 2212

原创爬虫---反反爬---验证码

尝试手机版，相对来说反爬较弱。图形验证码 OCR二值化，去灰度，识别率低。打码平台(超级鹰，云打码) 深度学习训练，成本高，适用范围小 OpenCV,SimpleCV 算数验证码 OCR 打码平台滑动验证码 selenium 破解加密算法深度学习训练，标注缺口，识别缺口点触验证码 OCR + 图像匹配（百度识图）打码平台 ...

2019-02-20 09:55:42 872

原创爬虫---反反爬---headers

1.一般可直接全复制进去2.部分网站放入部分参数才可以，全部放进去反而获取不到理想页面,比较重要的3个:UA,Cookie,Referer。3：可用pycharm正则处理复制过来的headers,也可写脚本处理。其他参数的解释： Connection：链接类型 keep-alive 支持使用长连接，复用上次连接，因为有三次握手，四次挥手消耗时间，不断开连接，直接使用上次的连...

2019-02-20 09:54:49 1012

原创爬虫---反反爬---前端

前端js生成formdata中的参数，普通例如：生成16位随机字符串，高级点的加密字符串：网易音乐 font-face拼凑式，woff字体文件，猫眼电影:相对来说简单，找到字体对应的正确数值，替换就可以。 background拼凑式，与font的策略类似，美团里用到的是background拼凑。数字其实是图片，根据不同的background偏移，显示出不同的字符，并且不同页面，图片的字符排序也...

2019-02-19 09:41:11 371

原创爬虫---请求错误后重试---retrying

pip3 install retryingfrom retrying import retry在代码上添加@retry（添加错误次数）@retry(stop_max_attempt_number=10)

2019-02-19 09:39:56 520

原创 Python---爬虫请求库---requests

使用request的优势 requests的底层实现就是urllib（更加简单，方便。） requests在python2 和python3中通用，方法完全一样 requests简单易用 Requests能够自动帮助我们解压(gzip压缩的等)网页内容（urllib需要自动解压）response.status_code （状态码） response的常用方...

2019-02-19 09:38:02 232

原创 Python pprint 美化

作用：美观打印数据结构pprint 包含一个“美观打印机”，用于生成数据结构的一个美观视图。格式化工具会生成数据结构的一些表示，不仅可以由解释器正确地解析，而且便于人类阅读。输出尽可能放在一行上，分解为多行时则需要缩进。data = [(1,{'a':'A','b':'B','c':'C','d':'D'}), (2,{'e':'E','f':'F','g':'G','h':'...

2019-02-19 09:37:39 187

原创 Python---爬虫---清洗---json 和 demjson

json json.load,json.dump是实现类文件对象（具有read和write方法的对象，比如一个file）和python类型的转化 json.loads 将josn转换成字符串，josn.dumps将字符串转换成josn json.dumps（ret,ensure_ascii = Flase,indent=2(进行可视化操作，往后退2个)）,添加ensu...

2019-02-19 09:37:19 393

原创 Python---爬虫---解析---xpath

重要语法 / 根节点选取 //当前目录下所有该节点 .当前节点 ..当前节点的父节点节点选择语法 /a/b[1], 选取a节点下的第一个b节点 /a/b[last()], 选取a节点下的最后一个b节点 /a/b[last()-1], 选取a节点下的倒数2个b节点 /a/b[position()...

2019-02-19 09:36:41 241

原创 Python---爬虫---解析---CSS选择器

2019-02-19 09:32:24 434

原创 Python---爬虫---解析---lxml

解析习惯用lxml + xpath1.from lxml import etree2.使用etree.HTML（）将bytes类型和html类型的字符串转换为element对象,然后使用 xpath处理element对象3.etree.tostring把element对象转换为字符串，自动补全代码 ...

2019-02-19 09:31:55 150

原创 Python---爬虫---解析---正则表达式(re)

预定义字符集 \d[0,9],\D取反 \s[空格\r\f\t\n\v](空白字符)，\S取反 \w[A-Za-z0-9_],\W取反字符re.findall(".","\n",re.DOTALL(可以匹配换行符)/re.S（DOTALL的缩写）)，在DOTALL模式中 . 可以匹配换行符。 \ 反斜杠转义 , a[a,b,c]z或者| （或者abc|ac...

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

精通正则表达式(第3版) epub格式 带目录 精排极致版 猫头鹰的那本

自然语言处理综论 第2版_2018.03_784_14391789.pdf

百面机器学习 算法工程师带你去面试.pdf.zip

使用Python解决算法与数据结构问题 第2版 极清 pdf.pdf.zip

《我的第一本算法书》高清PDF.pdf.zip

《Python深度学习》2018中文版pdf+英文版pdf+源代码.zip

美团机器学习实践.美团算法团队(详带细书签)--2019.04.20.pdf.zip

斯科特扬思维习惯高效全能套系( 共4册).epub.zip

深度学习.epub.zip

Python密码学编程.pdf

SELENIUM2+自动化测试实战+基于PYTHON语言.pdf

python绝技：运用python成为顶级黑客(精排+目录)

程序员的数学(日-平冈和幸)三部曲打包(精排带目录)

改善Python程序的91个建议+编写高质量Python代码的59个有效方法+流畅的Python(精排+目录)

空空如也

精通正则表达式(第3版) epub格式带目录精排极致版猫头鹰的那本

自然语言处理综论第2版_2018.03_784_14391789.pdf

百面机器学习算法工程师带你去面试.pdf.zip

使用Python解决算法与数据结构问题第2版极清 pdf.pdf.zip