mr_xinL-优快云博客

原创爬取拉钩网 python有关的职位信息存入mongo数据库

前一篇是把数据存入csv。本篇将把数据存入mongodb数据库，并结束对拉勾网内容的爬取，后面看情况再爬取其他招聘网站的信息。代码如下：import requestsimport jsonimport refrom bs4 import BeautifulSoupimport timeimport bs4from multiprocessing import Poolimport threadingfrom pymongo import MongoClienthead={"user

2020-05-14 12:50:12 461

原创多进程、多线程爬取拉勾网的职位信息和工作内容

import requestsimport jsonimport refrom bs4 import BeautifulSoupimport timeimport csvimport bs4from multiprocessing import Poolimport threadinghead={"user-agent": "Mozilla/5.0", "referer": "https://www.lagou.com/jobs/list_python?labelWords=

2020-05-12 10:41:45 521 1

原创 ajax异步，多进程爬取股票信息，写入csv文件，10s大约能爬4000条数据

import csvimport requestsimport jsonimport timefrom multiprocessing import Pool''' 1、4核cpu，多进程大约能快5倍。 '''def getHtml(url): try: html=requests.get(url) html.raise_for_status() html.encoding="utf-8" return html.

2020-05-09 14:28:36 539

原创 qq邮箱发送邮件到163邮箱

import smtplib #主要负责发送邮件#email 主要负责构造邮件from email.mime.multipart import MIMEMultipartfrom email.mime.text import MIMETextfrom email.mime.image import MIMEImage'''基本信息'''send_email='' #发送邮箱pa...

2020-03-25 08:49:05 1004

原创爬取百度搜索子网页的（文字、url、时间），爬取不了的截图——2

尝试了百度进行某关键词搜索（比如“和平精英”），并搜索前30页。发现百度搜索的优点和不足。优点：1、搜索面广，涉及不同的网页，如图中的知乎、搜狐、腾讯网、网易号、贴吧等等。2、能够让自己对不了解的东西有个较为全面的认识。缺点：存在很多重复的内容，爬取了30页共300条子网址，我发现有用的子网页就70条左右。（当然，不包括视频网址和文本网址，我是仅以截图内容进行判断）通过excel处理后的相关数据...

2020-03-24 08:42:39 649

转载 VBA将excel表格中关键字标红

转载Sub 将某一关键词标红()Dim Rng As Range, RngStart As Range, Str$, N%On Error GoTo skip '设置出错跳转Str = InputBox("请输入要查找的内容：", "输入") '利用输入框输入要查找的内容If Cells.Find(Str) Is Nothing Then '如果工作表未找到要查找的内容及提示 ...

2020-03-22 11:25:19 5650

原创爬取百度搜索第一页子网页的（文章、时间和url），非文章的则截屏

为了方便快速从百度搜索找到自己想要的信息，开始尝试。第一步：爬取百度搜索第一页子网页的（文章、时间和url），非文章的则截屏后面研究后更新。import requestsfrom lxml import etreeimport csvimport refrom selenium import webdriverfrom selenium.webdriver.chrome.optio...

2020-03-21 15:24:19 800

转载 selenium+Headless Chrome实现不弹出浏览器自动化登录

转载from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsfrom PIL import Image,ImageEnhance path = 'E:/Cyou/chromedriver.exe' #打开浏览器chrome_options = Options()chr...

2020-03-21 14:55:31 1090

原创查找word指定内容并输出到csv

word中存在非标准字符，如拉丁字母。在上一节讲到的替换word关键内容基础上，这节将找出没被替换的内容，自己在word上手动标记。135条查重内容中，有9条是没被识别的。#用python我们可以抓取网页，表格，JSON这种半结构化的数据，那么word文档中的内容这种非结构化的数据我们如何抓取呢。# check_13=re.findall("thetihuan13",file_text) #筛...

2020-03-18 13:15:36 702

原创 win32替换word指定内容

import csv# import osfrom win32com import client as clientfrom win32com.client import constants'''#打开csv文件输入参数1'''csv_file=csv.reader(open('reportnew.csv','r'))print(csv_file) #可以先输出看一下该文件是什...

2020-03-18 13:11:41 335

原创 beaurifulsoup读取本地网页数据并存入csv

毕业穷狗采用了paperYY查重，查重内容是以html显示，为了方便修改论文里面重复的地方，只能先把网页内容爬出来，然后再说。直接上代码from bs4 import BeautifulSoupimport csv#读取本地网页with open('C:/Dsoftdisk/python/paper check/allreport.html', 'r',encoding='utf8')a...

2020-03-17 18:32:56 473

转载爬虫初学8——cookie爬淘宝列表

转载——实测可用# //get_goods_from_taobao#现在淘宝只能登陆之后才能搜索，所以本次介绍的是登录获取cookie之后的操作。import requests #库import re #正则import xlsxwriter #写入excel#不要爬取太多，小心被封发布的时候注释掉cok = '' # 此处写入登录之后自己的cookie'''# 获...

2020-03-17 10:47:02 718

原创爬虫初学7——爬取小叶紫檀（价格、京东好店、评价数）

参考爬虫初学6本来就想爬一下京东和淘宝，选择有点保证的店铺来买小叶紫檀（水太深），现在初步通过爬京东找了下，也发现一些可信度比较高的店铺，奈何价格不太合我心意，我还是找我的几十块钱的手串吧import requestsfrom lxml import etreeimport timeimport csv# 定义函数抓取每页前30条商品信息def crow_first(n)...

2020-03-16 17:12:37 584

转载爬虫初学6—爬取京东手机列表2（价格及评论）

转载：import requestsfrom lxml import etreeimport timeimport csv# 定义函数抓取每页前30条商品信息def crow_first(n): # 构造每一页的url变化 url = 'https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&...

2020-03-16 14:36:13 1260

转载爬虫初学5-爬取京东手机列表1

转载import requestsfrom lxml import etree# 如果想通过xpath获取html源码中的内容，就要先将html源码转换成_Element对象，然后再使用xpath()方法进行解析。例如，这里有一段最简单的html源码："<html><body><h1>This is a test</h1></body&...

2020-03-16 13:34:17 758

原创爬虫初学4 解决“json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)”

京东爬取——json报错，及解决。先附上XVII丶B大神代码（网址https://blog.youkuaiyun.com/qq_34696236/article/details/80511940?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task）：将E:\p...

2020-03-15 11:57:27 10031 6

转载爬虫初学3

京东爬评论——找到目标网页的json，保存到本地import requestsimport urllib3 #urllib 侧重于 url 基本的请求构造，urllib2侧重于 http 协议请求的处理，而 urllib3是服务于升级的http 1.1标准，且拥有高效 http连接池管理及 http 代理服务的功能库import jsonimport urllibimport urll...

2020-03-15 11:22:12 268

原创爬虫初学2

采用requests和parsel爬取美女图片#parsel 主要用来将请求后的字符串格式解析成re,xpath,css进行内容的匹配本代码采用xpath#爬虫初学2 "设置请求头" "运用parsel"进行爬取美女图片import requestsimport parselfor page in range(1,6): #打印多页，添加的第一行 print('=====...

2020-03-14 12:46:47 280

转载爬虫初学1

模仿代码，爬取新浪图片import urllib.requestimport reimport chardet'''#打开网页，读取网页，网页解码'''page = urllib.request.urlopen('http://photo.sina.com.cn/') # 打开网页htmlCode = page.read() # 获取网页源代码# print(chardet.de...

2020-03-13 11:42:59 216

原创 python pyautogui自动化点击

用pyautogui进行自动化点击，为了实现依次点击文件夹和文件夹里面的文件，编写个简单代码。import pyautoguiimport timex,y=pyautogui.size() #返回当前屏幕分辨率print(x,y)x,y=pyautogui.position() #返回当前鼠标位置print(x,y)# pyautogui.moveTo(x,y,du...

2020-03-12 21:01:26 8177

转载 python登录QQ 转载

每次登录qq写账号密码难受，借大神的代码实现各qq自动登录，以下直接上代码，须提前安装好pyhook和pyuserinput。#!/usr/bin/pythonimport osimport timeimport win32guiimport win32apiimport win32conimport pymouse, pykeyboardfrom pymouse import ...

2020-03-12 12:02:56 1001 1

原创在京东验证码基础上，写个简单的抢口罩脚本

在大神基础上，勉强通过京东验证，现在在之前代码基础上，写个简单的抢口罩脚本，代码如下import cv2import timeimport numpy as npfrom selenium import webdriverfrom urllib import requestfrom selenium.webdriver.common.action_chains import Actio...

2020-03-11 13:25:53 2299

原创 python 京东滑动验证码 2类代码，1类低概率通过

python 初学者一开始就挑战京东的滑动验证码的话，难度有点大，我也是研究了好久，不是图片问题就是代码问题，还有初学者遇到的各种问题（都能让人纠结半天），比如少打个括号、少打：、没有缩进等等。最后还是在大神的代码基础上稍微加了两行才能低概率通过（。。。。）废话不多说了，共两类代码，第一类采用的是完整原图，第二类采用的是缺口原图（进行灰度、二值化处理），最后结果是：第一类代码因为轨迹问题，始终通...

2020-03-10 16:52:32 1559 3

原创 Python 京东验证码 datadata:image/png转码保存为图片

Python 京东验证码 datadata:image/png转码保存为图片初学python，在研究京东的验证码，下边是得到图片的过程，后面的还在研究。。。from selenium import webdriverimport base64import timebrowser=webdriver.Firefox()browser.get("https://www.jd.com/"...

2020-03-08 18:43:33 2603

mr_xinL的博客