
笔记
xiaobai_IT_learn
找到自己的目标,加油!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
记录html常用标签,css常用设置a,ul,video
1.a标签去除a标签下划线:text-decoration: none;2.ul中li标签去除li标签前面的点:list-style:none;3.video标签autoplay:"autoplay"----->自动播放controls:"controls"----->浏览器控件preload:"auto"----->页面加载后载入视频video标签一般和s...原创 2019-09-11 16:19:05 · 326 阅读 · 0 评论 -
python面试题1
1.列出 5 个常用 Python 标准库?os:提供了不少与操作系统相关联的函数sys:通常用于命令行参数 sys.argv[0]re:正则匹配math:数学运算datetime:处理日期时间time:时间random:随机queue:队列pymysql:连接数据库json:json函数处理json字符串loggin:日志urllib、urllib22.Python...原创 2019-09-23 10:10:46 · 290 阅读 · 0 评论 -
python中hashlib加密变量,md5,sha1
1.hashlib中md5,MD5是最常见的摘要算法,速度很快,生成结果是固定的128 bit字节,通常用一个32位的16进制字符串表示import hashlibmd5 = hashlib.md5()md5.update(b'hello world') # 需要传入字节类型数据print(md5.hexdigest()) # 5eb63bbbe01eeed093cb22bb8f5a...原创 2019-09-23 22:50:20 · 696 阅读 · 0 评论 -
python匿名函数lambda、map、filter、zip
1.匿名函数lambda x: x * x等价于def f(x): return x * x①冒号:前面的是函数的变量,后面的时候函数体②匿名函数有个限制,就是只能有一个表达式,不用写return,返回值就是该表达式的结果2.map(function, iterable, …),会根据提供的函数对指定序列做映射map(lambda x: x**2, [1, 2, 3, 4,...原创 2019-09-23 23:18:11 · 250 阅读 · 0 评论 -
python中os模块
import osos.path.abspath(__file__) # 获取当前文件的路径os.path.dirname(path) # path路径的上一级os.path.exists(path) # 文件或者文件夹是否存在,bool类型os.mkdir(path) # 创建文件夹os.path.join(path1, path2) # 将多个路径组合返回列子1:创建目...原创 2019-09-23 23:59:53 · 168 阅读 · 0 评论 -
BeautifulSoup笔记
1.安装pip install BeautifulSoup42.find和find_allfind_all() # 所有符合结果 <class 'bs4.element.ResultSet'>find() # 符合条件的第一个 <class 'bs4.element.Tag'>.get_text() # 获取文本内容>tag.find('span')...原创 2019-09-24 22:28:38 · 218 阅读 · 0 评论 -
xpath命令following-sibling用法
/a/following-sibling::* # a同级下所有标签/a/following-sibling::*[1] # a同级下第一个标签/a/following-sibling::ul[1] # a同级下第一个ul标签preceding-sibling # 选取当前节点之前的所有同级节点...原创 2019-09-26 18:13:30 · 7976 阅读 · 0 评论 -
python-阿里云oss怎么上传图片或者文件,怎么取得链接
python上传文件到阿里云oss步骤1.开通阿里云oss服务2.安装包pip install oss23.可以查看官方文档https://help.aliyun.com/document_detail/32026.html?spm=a2c4g.11186623.2.10.551c15cdpfUSev#concept-32026-zh4.例子import oss2access_ke...原创 2019-09-27 10:51:41 · 3920 阅读 · 3 评论 -
python爬虫中图片上传到阿里云,数据写入mysql
1.爬取到的数据上传到mysql数据库>>>mysql语法可以参照下面sql = "select count(*) from categoryMovieTable where title='{}'".format(item.get('title'))sql1 = "insert into categoryMovieTable(category, url, title, so...原创 2019-09-28 14:36:22 · 519 阅读 · 0 评论 -
mysql中floa类型数据和mysql命令
参照MySQL数据类型详解1.float(m,n),m是精度,为显示位数,n是标度,显示小数位数2.mysql语法创建表:create table 表名 charset=utf8;-------------------------------------添加数据:insert into 表名 values(数据);insert into f1 values(3,1.2);------...原创 2019-09-13 00:56:43 · 429 阅读 · 0 评论 -
python逐行读取文件,readline,readlines,for,read
参照:https://blog.youkuaiyun.com/enweitech/article/details/787908881.readline,优点:节省内存,不需要一次性把文件内容放入内存中缺点:速度相对较慢f = open("ip.txt", "r", encoding="utf-8")ret = f.readline()while ret: print(ret, end='')...原创 2019-09-22 16:34:10 · 8783 阅读 · 0 评论 -
线程池爬虫
# coding=utf-8import requestsfrom lxml import etreefrom queue import Queuefrom multiprocessing.dummy import Poolimport timeclass QiubaiSpider: def __init__(self): self.url_temp = "...原创 2019-09-22 12:48:44 · 312 阅读 · 0 评论 -
协程池爬虫
# -*- coding: utf-8 -*-import gevent.monkygevent.monky.path_all()from gevent.pool import Poolimport requestsfrom lxml import etreefrom queue import Queueimport timeclass QiubaiSpider: ...原创 2019-09-22 12:45:31 · 247 阅读 · 0 评论 -
jquery中html(),text(),val(),怎么获取a标签的href值
1.html()是获取所选标签内的所有文字2.text()是获取所选标签内的所有内容3.val()是获取所选标签内的value值(一般是input标签的值)4.attr()是获取和修改属性的值 <div class="div1">div1</div> <div class="div2">waimian<span>div2<...原创 2019-09-11 16:35:50 · 4531 阅读 · 0 评论 -
python中join,split,strip,eval,getattr,字典的值为列表,判断两个列表包含关系,python判断变量是否为int,str,list,tuple,dict
1.join(),可以对str、lsit、tuple、dict用,但是不能对int,str.join(sequence)t1 = ("a", "b", "c")s1 = "abc"l1 = ["a", "b", "c"]d1 = {"a": 1, "b": 2, "c": 3}n1 = 123456print(",".join(t1), type(",".join(t1)))p...原创 2019-09-11 16:53:32 · 383 阅读 · 0 评论 -
添加日志配置方法
def setup_log(config_name): """配置日志""" # 设置日志的记录等级 logging.basicConfig(level=config[config_name].LOG_LEVEL) # 调试debug级 # 创建日志记录器,指明日志保存的路径、每个日志文件的最大大小、保存的日志文件个数上限 file_log_h...原创 2019-09-08 11:37:21 · 456 阅读 · 0 评论 -
正则表达式sub,findall,split,match,re.compile()
1.sub(规则,替换成的变量, 所要替代的变量)ret = re.sub(r"\d+", '998', "python = 997") # 998s = re.sub('\d', "s", "123p") # sssp2.findall(规则,搜寻的变量)ret = re.findall(r"\d+", "python = 9999, c = 7890, c++ = 12345")...原创 2019-09-19 21:53:00 · 321 阅读 · 0 评论 -
爬虫模块scrapy框架命令,requests模块,retrying模块,requests中session,response常用属性,json.dumps,json.loads,json.load
1.scrapy框架创建项目:scrapy startproject 项目名创建爬虫:cd 项目名下 ,scrapy genspider 爬虫名 allowed_domains(网站)开启爬虫:scrapy crawl 爬虫名原创 2019-09-20 00:51:14 · 425 阅读 · 0 评论 -
爬虫笔记---构造随机User-Agent
import randomdef get_ua(): first_num = random.randint(55, 62) third_num = random.randint(0, 3200) fourth_num = random.randint(0, 140) os_type = [ '(Windows NT 6.1; WOW64)', '...原创 2019-09-20 10:47:01 · 231 阅读 · 0 评论 -
爬虫笔记---常见的反爬手段和解决思路
1.通过headers字段来反爬1.1 通过headers中的User-Agent字段来反爬1.2 通过referer字段或者是其他字段来反爬1.3 通过cookie来反爬2.通过js来反爬2.1 通过js实现跳转来反爬2.2 通过js生成了请求参数2.3 通过js实现了数据的加密3. 通过验证码来反爬4. 通过验证码来反爬5. 其他的反爬方式5.1 通过自定义字体来反爬5...原创 2019-09-20 10:52:12 · 397 阅读 · 0 评论 -
爬虫框架scrapy中setting文件
1.settingUSER_AGENT 设置uaROBOTSTXT_OBEY 是否遵守robots协议,默认是遵守CONCURRENT_REQUESTS 设置并发请求的数量,默认是16个DOWNLOAD_DELAY 下载延迟,默认无延迟COOKIES_ENABLED 是否开启cookie,即每次请求带上前一次的cookie,默认是开启的DEFAULT_REQUEST_HEADERS 设...原创 2019-09-21 20:16:21 · 206 阅读 · 0 评论 -
Mongodb笔记
官方文档:添加链接描述1.mongodb和python交互 from pymongo import MongoClient client = MongoClient(host,port) collection = client[db名][集合名]# 添加一条数据ret = collection.insert_one({"name":"test10010","age":33}) # d...原创 2019-09-22 12:10:37 · 158 阅读 · 0 评论 -
selenium爬虫加载网页,查看请求信息,定位元素命令,selenium爬虫使用代理
1.selenium基本命令加载网页from selenium import webdriver driver = webdriver.PhantomJS(“c:…/pantomjs.exe”)driver.get("http://www.baidu.com/")driver.save_screenshot("长城.png") # 保存截屏图片查看请求信息driver.page_...原创 2019-09-30 00:32:07 · 964 阅读 · 0 评论