
python
weixin_44274975
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
ubuntu下mongodb启动命令
在终端输入命令:sudo apt-get install mongodb,如果出现找不到的问题,请输入以下命令更新软件库:sudo apt-get updateubuntu环境下使用apt-get命令安装MongoDB在安装完成后,可以通过以下命令来查看是否已经启动mongodb:pgrep mongo -l。ubuntu环境下使用apt-get命令安装MongoDB启动MongoDB命...原创 2019-02-27 17:29:36 · 9025 阅读 · 0 评论 -
VIM中的保存和退出
退出命令是,按ESC键 跳到命令模式,然后输入:q(不保存)或者:wq(保存) 退出。:w 保存文件但不退出vi:w file 将修改另外保存到file中,不退出vi:w! 强制保存,不推出vi:wq 保存文件并退出vi:wq! 强制保存文件,并退出vi:q 不保存文件,退出vi:q! 不保存文件,强制退出vi:e! 放弃所有修改,从上次保存文件开始再编辑命令历史...原创 2019-02-27 17:34:50 · 286 阅读 · 0 评论 -
集中常见的爬虫问题
#可配置爬虫1.爬虫的启动停止(os.system)2.爬虫基本爬取数据的设置(起始网页,解析规则,停止条件等)3.爬虫的进度指示4.爬虫的数据存储#增量爬虫1.怎么知道爬取过的网页发生了改变#分布式爬虫#反爬虫...原创 2019-02-28 10:41:12 · 206 阅读 · 0 评论 -
淘宝数据魔方技术架构
淘宝网拥有国内最具商业价值的海量数据。截至当前,每天有超过30亿的店铺、商品浏览记录,10亿在线商品数,上千万的成交、收藏和评价数据。如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝、商家进行企业的数据化运营,帮助消费者进行理性的购物决策,是淘宝数据平台与产品部的使命。 为此,我们进行了一系列数据产品的研发,比如为大家所熟知的量子统计、数据魔方和淘宝指数等。尽管从业务层面来讲,数据产品的研发...原创 2019-02-28 10:50:53 · 297 阅读 · 0 评论 -
为什么字典可以写成 a["name"] = 123
#原因class MyCache(object):def init(self):passdef setitem(self,key,value):passdef getitem(self,item):m_cache = MyChe()print(m_cache[“dndjfasjdf”])#m_cache.getitem(“dndjfasjdf”)原创 2019-02-28 11:09:42 · 214 阅读 · 0 评论 -
python中做加法的时候实现的是减法例:10 + 5 = 5
class CustomPlus(object):def init(self,value):self.add_number = valuedef add(self,other):result = self.add_number - other.add_numberreturn CustomPlus(result)a = CustomPlus(20)b = CustomPlus(10)...原创 2019-02-28 14:25:04 · 1455 阅读 · 0 评论 -
#检查运行时类型,保证运算正确性
print(type(10) == int)print(isinstance(10,CustomPlus))#检查10是否是CustomPlus类型原创 2019-02-28 14:40:09 · 125 阅读 · 0 评论 -
mongo一些基本的操作和命令
import pymongo#连接数据库实例(连接数据库)—>获取相应数据库—>获取相应collection(表)client = pymongo.MongoClient(host=‘localhost’, port=27017)db = client.testcollection = db.students #数据库表本质是一个字典student1 = {‘id’: ‘2...原创 2019-02-28 15:58:40 · 275 阅读 · 0 评论 -
mongodb启动的命令打开mongo以及操作mongodb中的表
1.启动mongodb的命令sudo service mongodb start2.打开mongodbmongod3.展示数据库show databases 或者 show dbs4.应用哪个数据库use #数据库的名5.展示表show collections6.展示表中的数据db.system.indexes.find()...原创 2019-02-28 16:49:39 · 887 阅读 · 0 评论 -
python中常见字符串中去除空格的方法
1:strip()方法,去除字符串开头或者结尾的空格a = " a b c "a.strip()‘a b c’2:lstrip()方法,去除字符串开头的空格a = " a b c "a.lstrip()'a b c ’3:rstrip()方法,去除字符串结尾的空格a = " a b c "a.rstrip()...原创 2019-02-28 20:33:45 · 9222 阅读 · 0 评论 -
对把解析出来的文档写入文件当中
import requests#下载百度首页,requests库将下载结果封装为response类response = requests.get(“http://www.baidu.com”)#dir可以查看类的内部结构#暴力调试就是一个一个试,可以了解类的内部方法行为print(dir(response))#text会使用默认的编码方式转换成字符串text = response.t...转载 2019-02-25 11:25:31 · 148 阅读 · 0 评论 -
pymongo的基本操作
import pymongo#连接数据库实例(连接数据库)—>获取相应数据库—>获取相应collection(表)client = pymongo.MongoClient(host=‘localhost’, port=27017)db = client.testcollection = db.students #数据库表本质是一个字典student1 = {‘id’: ‘2...原创 2019-03-01 09:14:21 · 315 阅读 · 0 评论 -
去重方法
set是一个简单的去重方法a = [“a”,“d”,“a”,“c”]set(a){“a”,“cc”,“d”}原创 2019-03-01 10:18:16 · 364 阅读 · 0 评论 -
进程和线程的区别
名称 | 资源占用 | 数据通信 | 上下文切换 (Context)-----|---------|------------------------------|------------------ 进程 | 大 | 不方便 (网络、共享内存、管道等) | 操作系统按时间片切换, 不够灵活, 慢 线程 | 小 | ...原创 2019-03-01 14:48:03 · 94 阅读 · 0 评论 -
爬虫中的隐式休眠和显示休眠
from selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as EC#隐式休眠#显式休眠#隐式休眠是全局的,如果找不到等待设置的秒数,...原创 2019-03-05 09:53:20 · 1072 阅读 · 0 评论 -
正则表达式
import re#1.匹配某个字符串,从开始进行匹配,匹配单个字符串:#text= “hello”#ret = re.match(“he”,text)#print(ret.group())#2.点:匹配任意的字符,不能匹配换行符#text = “\n”#ret = re.match(".",text)#print(ret.group())#3. \d:匹配任意的数字(0-9)...原创 2019-03-01 20:43:33 · 132 阅读 · 0 评论 -
智联的相关信息的获取
from queue import Queueimport requestsfrom selenium import webdriverimport timeimport lxml.htmlimport reclass ZhiLianSpider(object):‘’’下载贴吧某页的内容,把下载的内容保存‘’’def __init__(self,name,pages): ...原创 2019-03-05 19:50:03 · 234 阅读 · 0 评论 -
lunix中把抓取的数据导入到sqlit3数据库
1.首先安装sqlit3sudo apt install sqlite32.进入sqlit3sqlit32.查看所有的命令介绍(英文).help3.显示当前打开的数据库文件的位置.database4.在当前的数据库文件中创建一张新表(语句) [注:以;结尾,<>中是我们可变的内容]create table <table_name>(表头信息1,表头信息2,...原创 2019-03-05 21:40:22 · 170 阅读 · 0 评论 -
scrapy中如何使用中间件进行模拟
1.在middlewares.py添加如下代码class SeleniumMiddleware(object):‘’’selenium‘’’def init(self):self.browser = webdriver.Chrome(executable_path="/cdrom/chromedriver")def process_request(self,request,spide...原创 2019-03-08 16:52:57 · 209 阅读 · 0 评论 -
xpath选择器中的语法
“”"/ 从根标签开始 必须具有严格的父子关系// 从当前标签 后续节点含有即可选出通配符,选择所有//div/book[1]/title 选择div下第一个book标签的title元素//div/book/title[@lang=“zh”]选择title属性含有lang且内容是zh的title元素//div/book/title //book/title //title //di...原创 2019-02-27 11:50:12 · 351 阅读 · 0 评论 -
爬虫当中代理的使用
使用西刺代理网站proxies = {“http”:“http://61.135.217.7:80”}requests.get(“http://www.baidu.com”,proxies=proxies)原创 2019-02-27 11:51:53 · 145 阅读 · 0 评论 -
回调函数的简化代码
‘’’url_list = []for i in range(self.tieba_pages):urls = self.base_url.format(self.tieba_name,i50)url_list.append(urls)return url_list‘’’#[self.base_url.format(self.tieba_name,i50)for i in range...原创 2019-02-27 11:54:03 · 193 阅读 · 0 评论 -
scrapy中middlewars中间件的使用,中间件相当于使用浏览器进行解析
import timeclass SeleniumMiddleware(object):‘’’selenium‘’’def init(self):self.browser = webdriver.Chrome(executable_path="/cdrom/chromedriver")def process_request(self,request,spider): self...原创 2019-03-08 20:41:42 · 378 阅读 · 0 评论 -
scrapy中的items是进行数据中的清洗
import scrapyfrom scrapy.loader import ItemLoaderfrom scrapy.loader.processors import TakeFirst,MapCompose注释:求最低工资和最高工资的平均值def chage_salary(s_value):注释:如果-不在s_value中就说明是工资面议if “-” not in s_value...原创 2019-03-08 20:49:04 · 1097 阅读 · 0 评论 -
以智联为例,scrapy中的主爬虫为zhilian.py
import scrapyfrom simulatorspider import itemsclass ZhilianSpider(scrapy.Spider):name = ‘zhilian’allowed_domains = [‘zhaopin.com’]start_urls = [‘https://sou.zhaopin.com/?jl=489&kw=python&...原创 2019-03-08 20:54:48 · 228 阅读 · 0 评论 -
scrapy中打印的结果只显示打印的结果所以在settings中
1.在setting中ROBOTSTXT_OBEY = False的下面添加LOG_LEVEL=“WARNING”2.运行scrapy之后只显示想要打印的结果原创 2019-03-09 10:22:45 · 3123 阅读 · 0 评论 -
把mongodb当中的数据导入到MySQL
1.首先把mongodb当中的数据导入到csv文件当中mongoexport -d job -c job -f job_detail,address,education,work_years,company_name,city,min_salary,max_salary --csv -o ~/new.csv2./usr/local/mongodb/bin/mongoexport -h ip(...原创 2019-03-13 21:38:58 · 1498 阅读 · 0 评论 -
range的语法
range函数原型:range (start, end, scan)参数含义: start:计数的开始位置,默认是从0开始。 end: 计数的结束位置 scan:每次跳跃的间距,默认为1。for i in range(5,0,-1):print(i)答案:5 4 3 2 1...原创 2019-03-14 08:22:13 · 437 阅读 · 0 评论 -
scrapy中如果出现这个错误Module 'job.middlewares' doesn't define any object named 'JobMiddleware'
1.解决的方法是类的方法没有顶格写原创 2019-03-09 11:55:20 · 2156 阅读 · 0 评论 -
scrapy中出现'Request' object has no attribute 'detail_url'原因
1.其中的request点的属性来源于爬虫当中yield后面的Request封装好的属性,其中有个属性就是url原创 2019-03-09 14:14:07 · 1594 阅读 · 0 评论 -
开始一个项目建立一个虚拟环境的操作
1.首先找到python3的路径whereis python32其次是创建一个虚拟环境mkvirtualenv spider -p /user/bin/python3.5原创 2019-03-06 21:32:46 · 556 阅读 · 0 评论 -
出现这种错误Redeclared 'JobItem' defined above without usage
1原因是因为一个页面当中出现了两个相同的函数或者类原创 2019-03-09 15:15:16 · 12622 阅读 · 0 评论 -
计算余弦的夹角
A = np.array([1,3])B = np.array([3,1])A.dot(B)/(np.linalg.norm(A)*np.linalg.norm(B))np.arccos(0.5999999999999999)np.rad2deg(0.9272952180016124)原创 2019-03-14 11:50:41 · 1552 阅读 · 1 评论 -
scrapy的网址
1.方便简单的理解scrapy的使用,网址是下面的scrapyhttp://www.scrapyd.cn/doc/原创 2019-03-07 09:45:47 · 163 阅读 · 0 评论 -
numpy中的切片,以及一个字符串取反操作
a = np.array([[1,2,3],[4,5,6],[7,8,9]])切片都是左开右闭,第一个1:是代表行,第二个2是代表列a[1:,1:]array([[5, 6],[8, 9]])a[0::2,0::2,]array([[1, 3],[7, 9]])a = “abcd”取反操作a[::-1]...原创 2019-03-14 14:24:45 · 853 阅读 · 0 评论 -
三维数组
b = np.array([[[1,2,3],[2,3,4]],[[3,4,5],[6,7,8]],[[7,8,9],[5,9,0]]])In[18]: b.shapeOut[18]: (3, 2, 3)In[19]: b[1:,:,:]Out[19]:array([[[3, 4, 5],[6, 7, 8]], [[7, 8, 9], [5, 9, 0]]])In[2...原创 2019-03-14 14:39:28 · 1365 阅读 · 2 评论 -
显示图片
import matplotlib.pyplot as pltIn[22]: img = plt.imread(“ting.jpeg”)In[23]: img.shapeOut[23]: (334, 500, 3)In[24]: plt.imshow(img)Out[24]: <matplotlib.image.AxesImage at 0x7f7fab626a58>In[...原创 2019-03-14 14:59:16 · 182 阅读 · 0 评论 -
灰度图,都是灰的
https://blog.youkuaiyun.com/zhuimengshaonian66/article/details/81711691原创 2019-03-14 14:59:58 · 1128 阅读 · 0 评论 -
scrapy中出现这个错误twisted.web._newclient.ResponseNeverReceived
就是setting中的USER_AGENT需要一个代理,直接把百度的USER_AGENT粘过来就可以了原创 2019-03-09 21:13:22 · 3487 阅读 · 2 评论 -
scrapy中的各个模块的作用
a51job.py,是爬虫,主要是进行请求,把请求发送给中间件middlewares.py,middlewares.py通过class JobMiddleware(object):def init(self):#接受到来自a51job.py中的Request请求,模拟的浏览器自动打开self.browser = webdriver.Chrome(executable_path="/cd...原创 2019-03-09 21:26:30 · 1193 阅读 · 0 评论