笔记
young_kp
爱学习的我
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python爬虫获取有道翻译结果(2021年3月3日亲测有效)
import requestsimport randomimport hashlibimport timeimport jsonclass YouDao: def __init__(self, word): self.url = url self.headers={ } self.word = word self.formdata=None def generate_formdata原创 2021-03-03 14:51:40 · 702 阅读 · 6 评论 -
爬虫中需要用到的一些去重思路
对需要爬取的url去重1.比较少,百八十条的,可以用set集合2.多一点的,成千上万了,可以用redis3.如果url很长,还可以先对其做hash处理,可以节省空间4.要是数量更大,百万千万级别了,可以考虑布隆过滤器对需要去重的文本内容1.首先,文本内容,可能只是某个标点符号,某几个字稍微改动下,利用hash后的值做比较,就算是不同的了。但实际上,我们认为这种对文本内容做了微小的改动,仍然算作一样的文本。2.此时,就要考虑更复杂的算法,例如simhash等3.此场景是否很熟悉?论文查重?.原创 2021-03-03 11:37:57 · 175 阅读 · 0 评论 -
透过源码,分析json的四个方法
json.dump(obj,fp)serialize ‘obj’ as a JSON formatted stream to ‘fp’ (a ‘.write()’-supporting file-like objects).序列化。源码里有一个方法是 fp.write() ,把一个json格式的obj对象,写入到一个流文件fp里。常见的支持write()方法的类型有open(file,‘w’)。简单理解就是将obj经过json.dumps()处理成str后,写入到file文件中。json.d..原创 2020-11-18 16:41:09 · 306 阅读 · 0 评论 -
一文带你入门MySQL 8 (上)
1. 下载安装,设置登录密码******(自己定的),设置服务器名称MySQLykp(自己定的),配置环境变量2. 启动MySQL服务器:net start MySQLykp (默认是自动开启状态) 关闭: net stop MySQLykp 查看数据库版本:mysql -V3. 连接MySQL: 直接CMD进入,需要输入命令行 mysql -h hostname|hostip -P port -u username -p [databasename] -e 's...原创 2020-11-14 00:52:14 · 422 阅读 · 0 评论 -
在写爬虫中遇到的几个问题和几点收获
1.使用requests进行网络请求时,遇到https开头的url,可设置参数varify=False。但是会在终端提示InsecureRequestWarning,很是烦人+丑。这时可以在requests发出请求之前加一行requests.packages.urllib3.disable_warnings(),亲测有效。(其实紧挨着import requests下放这一行代码也是可以的)。2.当出现报错"urllib3(×.×.×)or chardet(×.×.×)doesn’t match a s原创 2020-10-29 11:41:32 · 388 阅读 · 0 评论
分享