- 博客(24)
- 收藏
- 关注
原创 爬取拉钩网 python有关的职位信息 存入mongo数据库
前一篇是把数据存入csv。本篇将把数据存入mongodb数据库,并结束对拉勾网内容的爬取,后面看情况再爬取其他招聘网站的信息。代码如下:import requestsimport jsonimport refrom bs4 import BeautifulSoupimport timeimport bs4from multiprocessing import Poolimport threadingfrom pymongo import MongoClienthead={"user
2020-05-14 12:50:12
414
原创 多进程、多线程 爬取拉勾网的职位信息和工作内容
import requestsimport jsonimport refrom bs4 import BeautifulSoupimport timeimport csvimport bs4from multiprocessing import Poolimport threadinghead={"user-agent": "Mozilla/5.0", "referer": "https://www.lagou.com/jobs/list_python?labelWords=
2020-05-12 10:41:45
487
1
原创 ajax异步,多进程爬取股票信息,写入csv文件,10s大约能爬4000条数据
import csvimport requestsimport jsonimport timefrom multiprocessing import Pool''' 1、4核cpu,多进程大约能快5倍。 '''def getHtml(url): try: html=requests.get(url) html.raise_for_status() html.encoding="utf-8" return html.
2020-05-09 14:28:36
490
原创 qq邮箱发送邮件到163邮箱
import smtplib #主要负责发送邮件#email 主要负责构造邮件from email.mime.multipart import MIMEMultipartfrom email.mime.text import MIMETextfrom email.mime.image import MIMEImage'''基本信息'''send_email='' #发送邮箱pa...
2020-03-25 08:49:05
915
原创 爬取百度搜索子网页的(文字、url、时间),爬取不了的截图——2
尝试了百度进行某关键词搜索(比如“和平精英”),并搜索前30页。发现百度搜索的优点和不足。优点:1、搜索面广,涉及不同的网页,如图中的知乎、搜狐、腾讯网、网易号、贴吧等等。2、能够让自己对不了解的东西有个较为全面的认识。缺点:存在很多重复的内容,爬取了30页共300条子网址,我发现有用的子网页就70条左右。(当然,不包括视频网址和文本网址,我是仅以截图内容进行判断)通过excel处理后的相关数据...
2020-03-24 08:42:39
620
转载 VBA将excel表格中关键字标红
转载Sub 将某一关键词标红()Dim Rng As Range, RngStart As Range, Str$, N%On Error GoTo skip '设置出错跳转Str = InputBox("请输入要查找的内容:", "输入") '利用输入框输入要查找的内容If Cells.Find(Str) Is Nothing Then '如果工作表未找到要查找的内容及提示 ...
2020-03-22 11:25:19
5346
原创 爬取百度搜索第一页子网页的(文章、时间和url),非文章的则截屏
为了方便快速从百度搜索找到自己想要的信息,开始尝试。第一步:爬取百度搜索第一页子网页的(文章、时间和url),非文章的则截屏后面研究后更新。import requestsfrom lxml import etreeimport csvimport refrom selenium import webdriverfrom selenium.webdriver.chrome.optio...
2020-03-21 15:24:19
741
转载 selenium+Headless Chrome实现不弹出浏览器自动化登录
转载from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsfrom PIL import Image,ImageEnhance path = 'E:/Cyou/chromedriver.exe' #打开浏览器chrome_options = Options()chr...
2020-03-21 14:55:31
1026
原创 查找word指定内容并输出到csv
word中存在非标准字符,如拉丁字母。在上一节讲到的替换word关键内容基础上,这节将找出没被替换的内容,自己在word上手动标记。135条查重内容中,有9条是没被识别的。#用python我们可以抓取网页,表格,JSON这种半结构化的数据,那么word文档中的内容这种非结构化的数据我们如何抓取呢。# check_13=re.findall("thetihuan13",file_text) #筛...
2020-03-18 13:15:36
659
原创 win32替换word指定内容
import csv# import osfrom win32com import client as clientfrom win32com.client import constants'''#打开csv文件 输入参数1'''csv_file=csv.reader(open('reportnew.csv','r'))print(csv_file) #可以先输出看一下该文件是什...
2020-03-18 13:11:41
287
原创 beaurifulsoup读取本地网页数据并存入csv
毕业穷狗采用了paperYY查重,查重内容是以html显示,为了方便修改论文里面重复的地方,只能先把网页内容爬出来,然后再说。直接上代码from bs4 import BeautifulSoupimport csv#读取本地网页with open('C:/Dsoftdisk/python/paper check/allreport.html', 'r',encoding='utf8')a...
2020-03-17 18:32:56
433
转载 爬虫初学8——cookie爬淘宝列表
转载——实测可用# //get_goods_from_taobao#现在淘宝只能登陆之后才能搜索,所以本次介绍的是登录获取cookie之后的操作。import requests #库import re #正则import xlsxwriter #写入excel#不要爬取太多,小心被封 发布的时候注释掉cok = '' # 此处写入登录之后自己的cookie'''# 获...
2020-03-17 10:47:02
678
原创 爬虫初学7——爬取小叶紫檀(价格、京东好店、评价数)
参考爬虫初学6本来就想爬一下京东和淘宝,选择有点保证的店铺来买小叶紫檀(水太深),现在初步通过爬京东找了下,也发现一些可信度比较高的店铺,奈何价格不太合我心意,我还是找我的几十块钱的手串吧import requestsfrom lxml import etreeimport timeimport csv# 定义函数抓取每页前30条商品信息def crow_first(n)...
2020-03-16 17:12:37
556
转载 爬虫初学6—爬取京东手机列表2(价格及评论)
转载:import requestsfrom lxml import etreeimport timeimport csv# 定义函数抓取每页前30条商品信息def crow_first(n): # 构造每一页的url变化 url = 'https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&...
2020-03-16 14:36:13
1193
转载 爬虫初学5-爬取京东手机列表1
转载import requestsfrom lxml import etree# 如果想通过xpath获取html源码中的内容,就要先将html源码转换成_Element对象,然后再使用xpath()方法进行解析。例如,这里有一段最简单的html源码:"<html><body><h1>This is a test</h1></body&...
2020-03-16 13:34:17
719
原创 爬虫初学4 解决“json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)”
京东爬取——json报错,及解决。先附上XVII丶B大神代码(网址https://blog.youkuaiyun.com/qq_34696236/article/details/80511940?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task):将E:\p...
2020-03-15 11:57:27
9922
6
转载 爬虫初学3
京东爬评论——找到目标网页的json,保存到本地import requestsimport urllib3 #urllib 侧重于 url 基本的请求构造,urllib2侧重于 http 协议请求的处理,而 urllib3是服务于升级的http 1.1标准,且拥有高效 http连接池管理及 http 代理服务的功能库import jsonimport urllibimport urll...
2020-03-15 11:22:12
234
原创 爬虫初学2
采用requests和parsel爬取美女图片#parsel 主要用来将请求后的字符串格式解析成re,xpath,css进行内容的匹配 本代码采用xpath#爬虫初学2 "设置请求头" "运用parsel"进行爬取美女图片import requestsimport parselfor page in range(1,6): #打印多页,添加的第一行 print('=====...
2020-03-14 12:46:47
253
转载 爬虫初学1
模仿代码,爬取新浪图片import urllib.requestimport reimport chardet'''#打开网页,读取网页,网页解码'''page = urllib.request.urlopen('http://photo.sina.com.cn/') # 打开网页htmlCode = page.read() # 获取网页源代码# print(chardet.de...
2020-03-13 11:42:59
181
原创 python pyautogui自动化点击
用pyautogui进行自动化点击,为了实现依次点击文件夹和文件夹里面的文件,编写个简单代码。import pyautoguiimport timex,y=pyautogui.size() #返回当前屏幕分辨率print(x,y)x,y=pyautogui.position() #返回当前鼠标位置print(x,y)# pyautogui.moveTo(x,y,du...
2020-03-12 21:01:26
8077
转载 python登录QQ 转载
每次登录qq写账号密码难受,借大神的代码实现各qq自动登录,以下直接上代码,须提前安装好pyhook和pyuserinput。#!/usr/bin/pythonimport osimport timeimport win32guiimport win32apiimport win32conimport pymouse, pykeyboardfrom pymouse import ...
2020-03-12 12:02:56
927
1
原创 在京东验证码基础上,写个简单的抢口罩脚本
在大神基础上,勉强通过京东验证,现在在之前代码基础上,写个简单的抢口罩脚本,代码如下import cv2import timeimport numpy as npfrom selenium import webdriverfrom urllib import requestfrom selenium.webdriver.common.action_chains import Actio...
2020-03-11 13:25:53
2192
原创 python 京东滑动验证码 2类代码,1类低概率通过
python 初学者一开始就挑战京东的滑动验证码的话,难度有点大,我也是研究了好久,不是图片问题就是代码问题,还有初学者遇到的各种问题(都能让人纠结半天),比如少打个括号、少打:、没有缩进等等。最后还是在大神的代码基础上稍微加了两行才能低概率通过(。。。。)废话不多说了,共两类代码,第一类采用的是完整原图,第二类采用的是缺口原图(进行灰度、二值化处理),最后结果是:第一类代码因为轨迹问题,始终通...
2020-03-10 16:52:32
1481
3
原创 Python 京东验证码 datadata:image/png转码保存为图片
Python 京东验证码 datadata:image/png转码保存为图片初学python,在研究京东的验证码,下边是得到图片的过程,后面的还在研究。。。from selenium import webdriverimport base64import timebrowser=webdriver.Firefox()browser.get("https://www.jd.com/"...
2020-03-08 18:43:33
2477
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人