
Python
「已注销」
本博客现只用于学习用,可能会转载他人的知识,若有涉及到您的版权问题,请与我联系。
展开
-
pip3 list Abort trap: 6的解决方案
openssl的错误。brew update && brew upgrade && brew install openssl##note: some people report that the dylib files needed in #3 are in the 1.0.2t folder, rather than the lib folder. adju...原创 2020-03-29 22:02:23 · 639 阅读 · 0 评论 -
【机器学习】安装并使用 graphviz 包生成决策树图形可视化的 pdf 文件
安装graphvizconda install -c anaconda graphviz # -c 选择源(channel)pip install pydotconda install python-graphviz生成决策树图形的 pdf 文件from sklearn.datasets import load_irisfrom sklearn import treefrom s...原创 2020-03-28 21:54:25 · 1451 阅读 · 0 评论 -
HMAC Keyed-Hashing for Message Authentication
hmac的原理计算HMAC需要一个散列函数hash(可以是md5或者sha-1)和一个密钥key。用L 表示hash函数输出字符串长(md5是16),用B表示数据块的长度(md5和sha-1的分割数据块长都是64)。密钥key的长度可以小于等于数据 块长B,如果大于数据块长度,可以使用hash函数对key进行转换,结果就是一个L长的key。根据RFC 2316(Report of the IA...原创 2020-03-27 17:56:54 · 981 阅读 · 0 评论 -
协程 Coroutine
协程 CoroutineA coroutine is a function that can suspend its execution (yield) until the given given YieldInstruction finishes.感觉意思就是用户定义的伪多线程(同多线程对业务逻辑所需的功能特点)。操作系统只规定了进程和线程。就是说,我一个线程的任务理应业务逻辑是一条线,但是...原创 2020-03-18 12:28:06 · 483 阅读 · 0 评论 -
Python的垃圾回收机制
垃圾回收算法引用计数(自动)- 不能解决循环引用标记清除 - 解决循环引用( 调用gc.collect() )分代收集(三代)del objectgc.collect()内存池机制Python提供了对内存的垃圾收集机制,但是它将不用的内存放到内存池而不是返回给操作系统。Python中所有小于256个字节的对象都使用pymalloc实现的分配器,而大的对象则使用系统的 mall...原创 2020-03-17 22:44:18 · 390 阅读 · 0 评论 -
【网页正文识别及提取算法】提取网络正文的实践
Python的newspaper安装:pip3 install newspaper3kgithub:https://github.com/codelucas/newspaper什么是网络正文?简单介绍什么是网络正文。例子参考官方的例子,进行如下尝试:博客>>> from newspaper import Article>>> url = ...原创 2020-03-15 13:13:26 · 1340 阅读 · 1 评论 -
【自然语言处理】 常见的文本相似度计算方法
引言在自然语言处理中,我们经常需要判定两个东西是否相似。比如,在微博的热点话题推荐那里,我们需要比较微博之间的相似度,让相似度高的微博聚集在一起形成一个簇,提出一个主题。在问答系统中,比如说人工客服,我们需要提前准备好问题和一些答案,让用户输入的问题与题库中的问题进行相似度的比较,最后输出答案。在推荐系统中,我们需要提取一个用户的所有物品,在根据这个物品找到对应的用户群,比较两个用户之间的...原创 2020-03-14 20:02:00 · 1811 阅读 · 0 评论 -
解决Python库Requests中文乱码
当使用Python库requests进行网络请求的时候:r = requests.get(url)1使用r.text返回的是Unicode型的数据。r.content返回的是bytes型的数据。如果你想取文本,使用r.text。如果想取图片,文件,则可以通过r.content。2Requests库的自身编码为: r.encoding = ‘ISO-8859-1’修改编码:r...原创 2020-03-14 14:04:26 · 701 阅读 · 0 评论 -
使用readability-lxml 提取网页标题和主体内容 - 尝试
python-readabilityGiven a html document, it pulls out the main body text and cleans it up.This is a python port of a ruby port of arc90’s readability project.python-readability可以获取一个HTML文献的主体内容:...原创 2020-03-14 13:51:04 · 1006 阅读 · 0 评论 -
Python 爬虫框架Scrapy ITEM PIPELINE
ITEM PIPELINE作用:清理HTML数据验证爬取的数据(检查item包含某些字段)去重(并丢弃)【预防数据去重,真正去重是在url,即请求阶段做】将爬取结果保存到数据库或文件中ITEM PIPELINE核心方法:open_spider(spider):该方法非必需,在Spider开启时被调用,主要做一些初始化操作,如连接数据库等close_spider(spider):...原创 2020-03-09 16:55:31 · 439 阅读 · 0 评论 -
简单说一下Timsort排序算法(Python,Java的官方排序算法)
学过编程的人都学过排序算法,学过排序算法的人肯定都听说过归并排序。Timsort排序算法就是归并排序的改进算法。它改进了哪里?回想下归并排序的特点:排序过程需要将原数列一分为二,先将子序列排序好后在归并。整个排序过程接近于一颗完全二叉树。它的比较次数相对稳定。如果对于已经有序(顺序或逆序)的结构依然花费比较比较高的时间。Timsort就是对归并排序存在的缺点进行了改进。归并排序其...原创 2020-03-09 14:02:56 · 663 阅读 · 0 评论 -
Python 爬虫框架Scrapy Spiders学习
Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。对spider来说,爬取的循环类似下文:以初始的URL初始化Request,并设置回调函数。 当该request下载完毕并返回时,将生成response,并作为参数传给该...原创 2020-03-04 02:29:00 · 481 阅读 · 0 评论 -
Python 爬虫框架 Items学习
Items爬取的主要目标就是从非结构性的数据源提取结构性数据,例如网页。 Scrapy提供 Item 类来满足这样的需求。Item 对象是种简单的容器,保存了爬取到得数据。 其提供了 类似于词典(dictionary-like) 的API以及用于声明可用字段的简单语法。声明ItemItem使用简单的class定义语法以及 Field 对象来声明。例如:import scrapycla...原创 2020-03-04 01:26:07 · 379 阅读 · 0 评论 -
Python 爬虫框架Scrapy的安装与基本使用(入门)
什么是爬虫网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。简单来说,就是通过程序从web网页上获取自己想要的数据,即自动抓取数据。爬虫的本质模拟浏览器发送请求从而获取我们想要的数据。浏览器打开网页的过程:当你在浏览器中输入地址后,通过D...原创 2020-02-29 22:13:34 · 876 阅读 · 0 评论