- 博客(143)
- 收藏
- 关注

原创 下载360图片(二)
编码实现接下来,我们按照以下3步完成该项目: (1)创建Scrapy项目,并使用scrapy genspider命令创建Spider。 (2)在配置文件中启用ImagesPipeline,并指定图片下载目录。 (3)实现ImagesSpider。1)首先创建Scrapy项目,取名为so_image,再使用scrapy g...
2018-06-11 23:24:00
571

原创 下载360图片(一)
我们来完成一个使用ImagesPipeline下载图片的实战项目。360图片是一个知名的图片搜索网站,在浏览器打开http://image.so.com,其中,页面分类下有大量字画图片,我们可以编写爬虫爬取这些图片。1、项目需求: 下载360图片网站中艺术分类下的所有图片到本地。2、页面分析: 在下图所示的页面中向下滚动鼠标滚轮,便会有更多的图片加载出来,图片加载是由JavaS...
2018-06-09 11:15:40
1333

原创 爬取matplotlib例子源码文件(二)
接下来,我们按以下四步完成该项目:(1)创建Scrapy项目,并使用scrapy genspider命令创建Spider。(2)在配置文件中启用FilePipeline,并指文件下载目录。(3)实现ExampleItem(可选)。(4)实现ExampleSpider。①首先创建Scrapy项目,取名为matplotlib_exmaples。在使用scrapy genspider命令创建Spider...
2018-06-07 16:10:42
801
5

原创 爬取matplotlib例子源码文件(一)
一、项目需求:下载http://matplotlib.org网站中所有例子的源码文件到本地。二、页面分析:首先在例子列表页面http://matplotlib.org/examples/index.html中获取所有例子页面的链接,使用scrapy shell命令下载页面,然后调用view函数在浏览器中查看该页面,如下所示:然后显示出浏览器页面如下:用右键审查第一个例子元素,简单的发现页面链接,如...
2018-05-28 23:16:12
479

原创 Scrapy爬虫爬取书籍网站信息(三)
爬虫程序到这里虽说已经成功,但也有让人不满意的地方,比如csv中各列的顺序是随机的,看起来比较混乱,可在配置文件settings.py中使用FEED_EXPORT_FIELDS指定各列的次序:FEED_EXPORT_FIELDS=['upc','name','price','stock','review_rating','review_num']另外,结果中评价等级字段的值是One、Two、Thr...
2018-05-28 23:15:27
443
2

原创 Scrapy爬虫爬取书籍网站信息(二)
上文中我们了解到了如何在网页中的源代码中查找到相关信息,接下来进行页面爬取工作:1、首先创建一个Scrapy项目,取名为toscrape_book,接下来创建Spider文件以及Spider类,步骤如下:整个Scrapy框架建于D盘下的pycodes文件夹中,并在文件夹下的Spider文件中建立一个名为books的爬虫文件。2、在实现Spider之前,先定义封装书籍信息的Item类,在toscra...
2018-05-23 20:10:13
1323

原创 Scrapy爬虫爬取书籍网站信息(一)
本文运用了Scrapy爬虫的知识,爬取了点击打开链接网站中的书籍信息,可以了解到基本Scrapy爬虫框架的使用方法。一、项目需求: 1、其中每本书的信息包括:书名、价格、评价等级、产品编码、库存量、评价数量。 2、将爬取的结果保存到csv文件中。二、在前期分析网页页面时,可以用Chrome开发者工具,也可以用scrapy shell<URL>命令,如下:Chrome开发...
2018-05-12 22:56:18
2207
原创 python中的位运算
其中,输入为十进制数,3<<1表示将二进制数11整体向左移动1位,缺位补0,得到二进制110,即6。也可表示位3*2**13>>1表示将二进制数11整体向右移动1位,低0位去掉,得到二进制1,即1。也可表示为3//2**1...
2019-11-19 16:14:05
1407
原创 移除链表元素
删除链表中等于给定值val的所有节点。示例:输入: 1->2->6->3->4->5->6, val = 6输出: 1->2->3->4->5解法1:迭代# Definition for singly-linked list.# class ListNode:# def __init__(sel...
2019-10-31 14:57:37
298
原创 删除排序数组中的重复项
给定一个排序数组,你需要在原地删除重复出现的元素,使得每个元素最多出现两次,返回移除后数组的新长度。不要使用额外的数组空间,你必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成。示例1:给定 nums = [1,1,1,2,2,3],函数应返回新长度 length = 5, 并且原数组的前五个元素被修改为 1, 1, 2, 2, 3 。你不需要考虑数组中超出新长度...
2019-10-23 16:26:13
242
原创 矩阵置零
题目描述:给定一个mxn的矩阵,如果一个元素为 0,则将其所在行和列的所有元素都设为 0。请使用原地算法。示例1:输入:[[1,1,1],[1,0,1],[1,1,1]]输出:[[1,0,1],[0,0,0],[1,0,1]]示例2:输入:[[0,1,2,0],[3,4,5,2],[1,3...
2019-10-21 21:25:44
400
原创 加一
题目描述:给定一个由整数组成的非空数组所表示的非负整数,在该数的基础上加一。最高位数字存放在数组的首位, 数组中每个元素只存储单个数字。你可以假设除了整数 0 之外,这个整数不会以零开头。示例1:输入: [1,2,3]输出: [1,2,4]解释: 输入数组表示数字 123。示例2:输入: [4,3,2,1]输出: [4,3,2,2]解释: 输入数组表示数...
2019-10-21 14:54:22
144
转载 Django的models.py在外部独立使用
原文链接https://blog.youkuaiyun.com/cloudmq/article/details/51798645说明这里说说的在外部独立使用,指的是可以单独写一个脚本,直接运行,操作使用django-models.py的已经组建好的数据库.因为models.py使用起来特别方便,省去了各种繁琐的sql语法,提高工作效率.但是这里要注意的是,此处的"独立",并非完全的不把相关的setti...
2019-09-18 10:43:14
326
原创 Django中Form表单在添加一张表的信息时如何关联上另一张表
现有两个表:患者(patient)表和样本(sample)表,其关系为一对多。首先向患者表添加患者的基本信息,接下来向样本表中添加样本信息。此时,在样本信息中需要选择患者表中已经有的患者信息(比如患者姓名),这里需要用form表单关联上令一张表。做法:class PatientForm(forms.Form): patient_id = forms.CharField() ...
2019-09-06 19:40:03
1705
转载 Python进程、线程、协程概念
一、进程1.进程是一个实体。每个进程都有自己的地址空间(CPU分配)。实体空间包括三部分:* 文本区域:存储处理器执行的代码。* 数据区域:存储变量或进程执行期间使用的动态分配的内存。* 堆栈:进程执行时调用的指令和本地变量。2.进程是一个“执行中的程序”:程序是指令与数据的有序集合,程序本身是没有生命的,只有CPU赋予程序生命时(CPU执行程序),它才能成为一个活动的实体...
2019-08-23 09:10:39
231
原创 将图片转化为data:image/格式(base64编码)
https://tool.css-js.com/base64.html在线工具
2019-07-01 20:26:19
11473
1
原创 将一行js文件转化为格式化(转为多行)
进入http://tool.chinaz.com/Tools/JsFormat.aspx将一行js文件格式化为多行。
2019-07-01 18:35:46
5888
转载 将python环境打包成.txt文件
导出Python环境安装包[root@cf ~]# pip freeze > packages.txt这将会创建一个 packages.txt文件,其中包含了当前环境中所有包及各自的版本的简单列表(即pip list 所列出的包列表)安装导入Python环境包[root@cf ~]# pip install -r packages.txt...
2019-06-25 18:16:33
952
转载 linux命令大全
系统信息arch 显示机器的处理器架构(1)uname -m 显示机器的处理器架构(2)uname -r 显示正在使用的内核版本dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI)hdparm -i /dev/hda 罗列一个磁盘的架构特性hdparm -tT /dev/sda 在磁盘上执行测试性读取操作cat /proc/cpuinfo 显示C...
2019-06-24 16:14:01
308
转载 django使用jquery中ajax提交表单数据报403错误的解决办法
在$.ajax({})表单提交之前加$.ajaxSetup({data: {csrfmiddlewaretoken: '{{ csrf_token }}' },});即可提交成功。
2019-06-19 21:07:14
448
1
原创 关于django路由分发函数中的变量无法取到socketserver中数据的解决方法
套接字(socket)中tcp通信里的服务器端server.py中收到客户端发来的数据,服务器端需要将数据转发到django后端并传到前端显示。此时,需要在django后端取到server.py中的数据,使用redis非关系型数据库进行信息的传递可以解决变量之间地址不同而无法取到想要的值的问题。...
2019-05-17 20:03:09
189
转载 windows使用pyecharts报错 No module named 'pyecharts_snapshot'解决方法
进入https://pypi.org/project/pyecharts-snapshot/#files之后,在下载文件中下载所需文件,如下图:在文件路径下cmd中运行pip install pyecharts_snapshot-0.1.10-py2.py3-none-any.whl,安装成功后问题就解决了。...
2019-03-18 20:22:14
9042
转载 填槽与多轮对话
对于一个对话系统而言,上图中的 DST(对话状态维护)以及 Policy(动作候选排序),或者统一的称其为 DM(Dialogue Mannagement,对话管理)。也即,当接收到 NLU 模块的输出、其他场景及用户特征信息之后,判断系统应该跳转到什么状态,以及执行什么样的动作。产品角度,DM 是对话机器人封闭域多轮对话体验的核心,正是一次次 DST + Policy 形成了人机间的多轮...
2019-01-21 20:27:18
2608
转载 TypeError: 'cmp' is an invalid keyword argument for this function
问题描述:先举个简单的例子:nums = [4, 3, 2, 1]sorted(nums,cmp=lambda a, b: a - b)之后再python3下报错了:提示找不到cmp参数。原因分析:在官方文档中可以发现,在python2中的sort()函数:sort(cmp=None, key=None, reverse=False)python3中的so...
2019-01-18 16:59:06
6047
转载 有监督学习、无监督学习与半监督学习
这个问题可以回答得很简单:是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没标签则为无监督学习。但根据知乎惯例,答案还是要继续扩展的。首先看什么是学习(learning)?一个成语就可概括:举一反三。此处以高考为例,高考的题目在上考场前我们未必做过,但在高中三年我们做过很多很多题目,懂解题方法,因此考场上面对陌生问题也可以算出答案。...
2019-01-11 15:16:04
653
原创 AttributeError: 'itertools.cycle' object has no attribute 'next'
上面程序在运行时遇到AttributeError: 'itertools.cycle' object has no attribute 'next'错误,原因是版本问题,只需要将indexer1.next()改为next(indexer1)即可。
2019-01-11 11:33:45
1127
原创 文本分类过程概述
传统的文本分类过程通常包括训练模块和分类模块如下图所示:一般来讲文本分类过程包括预处理、文本表示、特征降维、训练分类器和分类性能评估。 文本分类过程图1、文本分类预处理 由于计算机很难直接处...
2019-01-09 19:15:11
8757
转载 准确率(P值)、召回率(R值)、及F值
准确率(P值)是针对我们预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。召回率(R值)是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。假如我此时想吃香蕉,实验室每天都会安排10个水果,分别是6个香蕉,3个橘子,1个菠萝。我在看不见的情况下从中选出5个水果,选出了2个香蕉,2个橘子,1个菠萝。分别求出P值,R值,F值。1、准确率(P值):...
2019-01-07 18:40:19
17185
1
原创 (PAT)写出这个数
读入一个自然数n,计算其各位数字之和,用汉语拼音写出和的每一位数字。输入格式:每个测试输入包含1个测试用例,即给出自然数n的值。这里保证n小于10^100^。输出格式:在一行内输出n的各位数字之和的每一位,拼音数字间有1 空格,但一行中最后一个拼音数字后没有空格。输入样例:1234567890987654321123456789输出样例:yi san wu代码如下:...
2018-08-23 17:19:22
334
原创 (PAT)害死人不偿命的(3n+1)猜想
卡拉兹(Callatz)猜想:对任何一个自然数n,如果它是偶数,那么把它砍掉一半;如果它是奇数,那么把(3n+1)砍掉一半。这样一直反复砍下去,最后一定在某一步得到n=1。卡拉兹在1950年的世界数学家大会上公布了这个猜想,传说当时耶鲁大学师生齐动员,拼命想证明这个貌似很傻很天真的命题,结果闹得学生们无心学业,一心只证(3n+1),以至于有人说这是一个阴谋,卡拉兹是在蓄意延缓美国数学界教...
2018-08-22 17:08:56
302
原创 密码强度等级
题目描述密码按如下规则进行计分,并根据不同的得分为密码进行安全等级划分。 一、密码长度: 5 分: 小于等于4 个字符 10 分: 5 到7 字符 25 分: 大于等于8 个字符 二、字母: 0 分: 没有字母 10 分: 全都是小(大)写字母 20 分: 大小写混合...
2018-08-22 17:04:40
5190
1
原创 求最大连续bit数
题目描述功能: 求一个byte数字对应的二进制数字中1的最大连续数,例如3的二进制为00000011,最大连续2个1 输入: 一个byte型的数字 输出: 无 返回: 对应的二进制数字中1的最大连续数输入描述:输入一个byte数字输出描述:输出转成二进制之后连续1的个数输入:3输出:2代码如下:while True: ...
2018-08-22 17:04:31
288
原创 字符串运用-密码截取
题目描述Catcher 是MCA国的情报员,他工作时发现敌国会用一些对称的密码进行通信,比如像这些ABBA,ABA,A,123321,但是他们有时会在开始或结束时加入一些无关的字符以防止别国破解。比如进行下列变化 ABBA->12ABBA,ABA->ABAKK,123321->51233214 。因为截获的串太长了,而且存在多种可能的情况(abaaab可看作是aba,或baa...
2018-08-22 17:04:24
340
原创 统计大写字母个数
题目描述找出给定字符串中大写字符(即'A'-'Z')的个数输入描述:输入一个String数据输出描述:输出string中大写字母的个数输入:add123#$%#%#O输出:1import syswhile True: try: s = input() count = 0 for x in s: ...
2018-08-22 17:04:16
1736
原创 二维数组操作
题目描述 有一个数据表格为二维数组(数组元素为int类型),行长度为ROW_LENGTH,列长度为COLUMN_LENGTH。对该表格中数据的操作可以在单个单元内,也可以对一个整行或整列进行操作,操作包括交换两个单元中的数据;插入某些行或列。 请编写程序,实现对表格的各种操作,并跟踪表格中数据在进行各种操作时,初始数据在表格中位置的变化轨迹。详细要求:1.数据表规格的...
2018-08-22 17:04:07
721
原创 将真分数分解为埃及分数
题目描述分子为1的分数称为埃及分数。现输入一个真分数(分子比分母小的分数,叫做真分数),请将该分数分解为埃及分数。如:8/11 = 1/2+1/5+1/55+1/110。输入描述:输入一个真分数,String型输出描述:输出分解后的string输入:8/11输出:1/2+1/5+1/55+1/110代码如下:while True: try: ...
2018-08-22 17:03:58
1882
原创 字符串匹配
题目描述题目标题:判断短字符串中的所有字符是否在长字符串中全部出现输入描述:输入两个字符串。第一个为短字符,第二个为长字符。输出描述:返回值:输入:bcabc输出:true代码如下:while True: try: a,b=set(input()),set(input()) print ("true" if...
2018-08-22 17:02:25
179
原创 整形数组合并
题目描述题目标题:将两个整型数组按照升序合并,并且过滤掉重复数组元素[注: 题目更新了。输出之后有换行]输入描述:输入说明,按下列顺序输入:1 输入第一个数组的个数2 输入第一个数组的数值3 输入第二个数组的个数4 输入第二个数组的数值输出描述:输出合并之后的数组输入:31 2 54-1 0 3 2输出:-101235代码如下:whi...
2018-08-22 17:01:42
697
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人