
Python
张小竟
用我力所能及的事情,一步一步走向我期待的未来,交流QQ群:463175657
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python代理实现
这两天在看python代理IP实现,终于敲定了,哈哈,看代码from bs4 import BeautifulSoupimport requestsimport randomimport urllib2def get_ip_list(url, headers): web_data = requests.get(url, headers=headers) soup =原创 2017-03-09 10:55:00 · 1176 阅读 · 0 评论 -
spark提交python脚本并传参
脚本命令 这里第一个参数是python脚本名称,第二个参数是jsonspark-submit --master yarn --deploy-mode cluster --num-executors 20 --executor-memory 8g --executor-cores 2 --conf spark.yarn.executor.memoryoverhead=4096 $1...原创 2018-11-15 16:37:36 · 8645 阅读 · 0 评论 -
python3网络爬虫selenium应用
selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功...原创 2018-08-06 10:41:04 · 627 阅读 · 0 评论 -
爬虫出现Forbidden by robots.txt
说结论,关闭scrapy自带的ROBOTSTXT_OBEY功能,在setting找到这个变量,设置为False即可解决。 使用scrapy爬取淘宝页面的时候,在提交http请求时出现debug信息Forbidden by robots.txt,看来是请求被拒绝了。开始因为是淘宝页面有什么保密机制,防止爬虫来抓取页面,于是在spider中填入各种header信息,伪装成浏览器,结果还是不行。。。用原创 2017-06-22 16:26:10 · 577 阅读 · 0 评论 -
关于pymongo使用的一些笔记
from bson import ObjectId$push$addToSet$unset原创 2017-05-04 16:16:57 · 1107 阅读 · 0 评论 -
python日志管理
python日志管理 开发过程中日志管理是很重要的,Java中有 log4j插件,具体格式为时间、类型、日志内容,那么python中如何构建这个日志# -*- coding: utf-8 -*-import datetimeimport loggingimport logging.handlersimport os# import fileutildef log(log_messag原创 2017-04-12 18:12:36 · 766 阅读 · 0 评论 -
python scrapy 去重
1、Pipleline 加入如下代码:(在数据爬完后将URL塞入redis去重)class RedisInsert(object): def process_item(self,item,spider): set_redis_values_1(item['url']) return item2、Middleware加入如下代码:(在爬数据之前原创 2017-03-24 13:16:52 · 6822 阅读 · 0 评论 -
Python之Scrapy程序运用
本项目为Python爬取马蜂窝项目,使用scrapy项目作为框架,使用到代理,mongodb辅助存取爬取原创 2017-03-13 16:16:15 · 743 阅读 · 1 评论 -
python获取当前时间戳Long类型
python获取当前时间戳Long类型 怎么用python完成获取时间,并且转换成long类型原创 2017-04-07 11:21:04 · 7590 阅读 · 1 评论 -
解决Python的your data either using array.reshape(-1, 1) if your data has a single featur
今天写关于决策树的一些算法的时候,卧槽,mmp,竟然出现了红色的警示错误,oneRowX: [0. 0. 1. 0. 1. 1. 0. 0. 1. 0.]newRowX: [1. 0. 0. 0. 1. 1. 0. 0. 1. 0.]Traceback (most recent call last): File "D:/pythoncode/jqxi/tree/tree.py", l...原创 2018-12-11 15:48:30 · 5893 阅读 · 4 评论