
代码
勿忘心安lyy
萌新一枚
展开
-
数据库的创建以及查询1
数据完整性 一个数据库就是一个完整的业务单元,可以包含多张表,数据被存储在表中在表中为了更加准确的存储数据,保证数据的正确有效,可以在创建表的时候,为表添加一些强制性的验证,包括数据字段的类型、约束数据类型 可以通过查看帮助文档查阅所有支持的数据类型 使用数据类型的原则是:够用就行,尽量使用取值范围小的,而不用大的,这样可以更多的节省存储空间 常用数据类型如下:...原创 2018-08-26 21:10:50 · 2460 阅读 · 0 评论 -
15天学会爬虫 第四天
爬虫第四天正则表达式1.1 单个字符\d 数字0-9\s 空白字符 空格 \t \n\w 单词字符. 除了\n的任意字符[a-d0-9] 匹配a-d或者0-9中任意一个1.2 多个字符{m,n}前一个字符出现m-n次(包含m和n)* 匹配前一个字符任意次(0,1,多次)+ 匹配前一个字符至少一次(1或者多次)? 匹配前一个字符0次或1次1.3 re模块re....原创 2019-01-12 19:35:14 · 191 阅读 · 0 评论 -
15天学会爬虫 第十二天
爬虫第十二天分布式爬虫的实现创建爬虫类scrapy genspider itcast itcast.cn修改继承类为scrapy_reids中的RedisSpider删除原有的start_urls添加存在start_urls在redis数据库中的键from scrapy_redis.spiders import RedisSpiderclass Itcast...原创 2019-01-24 21:09:10 · 219 阅读 · 0 评论 -
15天学会爬虫 第五天
爬虫第五天多线程线程的创建和运行import multiprocessingdef task(num): passp1 = multiprocessing.Process(target = task)p1.start()守护线程一般情况下,主线程代码执行完毕后不会结束,会等待所有子线程任务结束后才结束如果将子线程设置为守护线程,意味着:主线程代码执行完毕,主线程和子...原创 2019-01-14 21:33:34 · 172 阅读 · 0 评论 -
15天学会爬虫 第六天
爬虫第六天selenium本次代码需要用到插件Chromedriver,安装方法selenium 入门pip install seleniumfrom selenium import webdirver# 创建一个Chrome的driver实例对象driver = webdriver.Chrome()# 访问人人登录页面driver.get(url = "http://w...原创 2019-01-20 13:41:42 · 178 阅读 · 0 评论 -
15天学会爬虫 第七天
爬虫第七天mongodbmongo 客户端连接dbdb 显示当前正在使用的数据库show dbs 显示所有数据use db(name) 使用指定数据库db.dropDatabase() 删除正在使用的数据库collectiondb.test 使用当前数据库下面的test集合进行操作,如果没有会自动创建show collecitons 显示当前数据库下的所有集合db...原创 2019-01-20 16:58:44 · 192 阅读 · 0 评论 -
15天学会爬虫 第八天
爬虫第八天scrapy框架流程其流程可以描述如下:调度器把requests–>引擎–>下载中间件—>下载器下载器发送请求,获取响应---->下载中间件---->引擎—>爬虫中间件—>爬虫爬虫提取数据,分为两类:提取的是url地址,组装成request对象---->爬虫中间件—>引擎—>调度器提取数据—...原创 2019-01-21 09:26:27 · 238 阅读 · 0 评论 -
15天学会爬虫 第九天
爬虫第九天scrapy debug信息2019-01-19 09:50:48 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: tencent)2019-01-19 09:50:48 [scrapy.utils.log] INFO: Versions: lxml 4.2.5.0, libxml2 2.9.5, cssselect 1.0...原创 2019-01-21 19:47:27 · 232 阅读 · 0 评论 -
15天学会爬虫 第十天
爬虫第十天crawlspider的使用scrapy genspider -t crawl spider_name allowed_domainclass GtSpider(CrawlSpider): name = 'gt' allowed_domains = ['guokr.com'] start_urls = ['https://www.guokr.com/...原创 2019-01-21 20:08:06 · 283 阅读 · 0 评论 -
15天学会爬虫 第三天
爬虫第三天1.三元运算符a = b if b else c # 如果b为真,a=b,否则a=cif b: a = belse: a = c2.requests处理cookies将cookie字符串直接放入headers中准备cookie字典,在requests请求实传入cookies参数中cookies_dict = {}requests.get(u...原创 2019-01-11 21:23:52 · 298 阅读 · 2 评论 -
数据库增删改的简单操作
数据库我的上一篇Blog简单列举了几种查询的方式方法等,写的很没有思路我觉得我需要重新梳理一下思路跟大家讨论下数据库数据库的操作归根结底是增删改查的操作那么再操作增删改查之前肯定的是我们需要有一个数据库供我们去操作,而且有相关的环境。我最早的那篇blog有关于mysql的软件下载并且没有积分要求需要的朋友可以移步https://blog.youkuaiyun.com/weixin_41950282...原创 2018-08-28 21:23:03 · 3636 阅读 · 0 评论 -
查询
emmmmmmm是时候聊聊查询了查询查询所有字段select * from 表名;例:select * from students;查询指定字段select 列1,列2,... from 表名;例:select name from students;使用 as 给字段起别名select id as 序号, name as 名字, ...原创 2018-08-29 13:40:15 · 424 阅读 · 0 评论 -
Linux常用命令,以及vim编译器的命令,初学者试用
我正式接触的第一门语言应该算是C,那会接触的一个开发工具就是Linux里的vim,那会就单纯的觉得Linux里的命令很神奇,其实是因为可以装x 好了闲话不多说,下面为大家列几个Linux中常用的命令或者说刚刚接触这个系统并打算做开发时老师会介绍的不多但是挺实用的首先是关机重启什么的 关机 (系统的关机、重启以及登出 ) shutdown -h now 关闭系统(1) init 0...转载 2018-08-29 14:08:30 · 513 阅读 · 0 评论 -
一部分可能会用到的正则,后期继续维护
邮箱正则 ^[a-zA-Z0-9_.-]+@[a-zA-Z0-9-]+(\.[a-zA-Z0-9-]+)*\.[a-zA-Z0-9]{2,6}$url正则 ^(?:([A-Za-z]+):)?(\/{0,3})([0-9.\-A-Za-z]+)(?::(\d+))?(?:\/([^?#]*))?(?:\?([^#]*))?(?:#(.*))?$手机号正则 ^((13[0-9])|(14[...原创 2018-10-14 19:04:12 · 148 阅读 · 0 评论 -
[转载]多继承(钻石继承)的问题和解决
大家都知道继承的目的是为了让子类可以使用父类的成员,实现代码的复用,但是在多继承中会出现各种问题:class Father(object): def __init__(self, name): self.name = name print("Im father")class Son_1(Father): def __init__(self, a...原创 2018-10-20 18:56:28 · 252 阅读 · 0 评论 -
[转载]Python使用进程池解决线程中遇到的GIL锁问题
由于Python中线程封锁机制(GIL锁),导致Python中的多线程并不是正真意义上的多线程。当我们有并行处理需求的时候,可以采用多进程迂回地解决。如果要在主进程中启动大量的子进程,可以用进程池的方式批量创建子进程。首先,创建一个进程池子,然后使用apply_async()方法将子进程加入到进程池中。import multiprocessingimport osimport time...原创 2018-10-20 19:36:29 · 357 阅读 · 0 评论 -
15天学会爬虫 第二天
爬虫第二天1.Response的常用属性response.headers 响应头response.request.headers 请求头response.status_code 状态码response.request.url 请求的urlresponse.url 响应的url2. 带headers的请求headers = {"User-Agent":"一般从浏览器复制"}...原创 2019-01-11 19:55:36 · 254 阅读 · 0 评论 -
15天学会爬虫 第一天
1. 爬虫的用途1.爬取数据用做网站展示2.爬取数据用来为大数据或者人工智能服务2. 什么是爬虫?模拟浏览器发送请求,获取相应的数据3. 爬虫的分类3.1 通用爬虫搜索引擎的爬虫,爬取整个互联网的数据3.2 聚焦爬虫针对特定网站专门写的抓取数据的程序聚焦爬虫的流程准备url列表拿到一个url发起请求,获取响应响应提取提取的是数据,数据保存提取的是URL,放入URL...原创 2019-01-08 21:08:13 · 320 阅读 · 0 评论 -
15天学会爬虫 第十一天
爬虫第十一天scrapy流程的新理解start_urls谁构造的请求? def start_requests(self): for url in self.start_urls: yield Request(url, dont_filter=True)当爬虫开始运行时,首先引擎会调用爬虫类的start_requests()方法将start_urls列...原创 2019-01-22 18:16:19 · 369 阅读 · 0 评论