
Python
evan心诺在
本博客供大家交流,欢迎各抒己见。博文中的内容禁止用 于任何商业目的。如需转载博文,请尊重版权,注明本博客网址。 收起
展开
-
数据库 用Python把数据写入到MySQL数据库/如何使用Python将数据写入到阿里云的RDS-MYSQL
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.youkuaiyun.com/weixin_42555401 需要解决的问题: 1.用Python把数据写入到MySQL数据库? 2.用Python将数据写入到阿里云的RDS-MySQL数据库内? 3.如何将爬取的数据写入到数据库? 4.如何将爬起的代理IP写入到阿里云RDS或者本地Mysql数据库内? 实际上这几个...原创 2019-04-26 23:38:02 · 16720 阅读 · 0 评论 -
数据抓取 --Beautiful Soup库的使用问题(3) - 使用find或者find_all的时候 非class 或者 id 的时候定位出现问题。
数据抓取 --Beautiful Soup库的使用问题(2) 使用 find_all,Tag 和 find 基本解决爬虫中的95%以上有难度的需求 在爬取数据的时候我们会使用find或者find_all 来定位tag标签的位置。 举例:通常使用 class_ 或者 id 都能找到对应的。 # 5.前台价格 retail_price = soup.find(id=...原创 2019-07-24 23:31:00 · 947 阅读 · 0 评论 -
数据抓取 --Beautiful Soup库的使用问题(2) 使用 find_all,Tag 和 find 基本解决爬虫中的95%以上有难度的需求
介绍 学习完爬虫后很多小朋友会发现,大部分单一的方法是爬不到想要的数据。必须要混合使用才能解决问题。就如同高考的难题如果只用一种公式和知识点的话,大部分是做不出来的。本人基本使用 find_all,Tag 和 find 基本解决爬虫中的95%以上的需求。剩下的需求,基本用正则也就能解决了。 解释 下面是爬取某个网站商品信息和库存的完整代码。(顺便说一下,这个网站可以给公司带来300多万的营...原创 2019-07-07 23:22:43 · 5299 阅读 · 1 评论 -
使用selenium+chrome 爬取数据时出现的版本不兼容导致网页打不开或者无法运行
代码如下: from selenium import webdriver import time chromeOptions = webdriver.ChromeOptions() browser = webdriver.Chrome(options=chromeOptions) browser.get('http://httpbin.org/ip') print(browser.pa...原创 2019-05-28 15:20:30 · 11882 阅读 · 4 评论 -
数据抓取 -- 使用代理IP爬取数据:(2):使用timeout 时要注意,防止数据加载不完整 ,导致爬取丢失(举例)
问题: 在使用代理IP爬取数据的时候,经常会出现爬取的网址信息不完整的现象。其中有个原因就是timeout设置问题。 代码如下: import requests from bs4 import BeautifulSoup import chardet import re import random import getIPa_from_rds from datetime import * ...原创 2019-05-10 17:10:45 · 9397 阅读 · 0 评论 -
Python-爬虫requests模块/beautisoup模块
1、requests模块 1、 pip install requests 2、 response = requests.get('http://www.baidu.com/ ') #获取指定url的网页内容 3、 response.text...原创 2019-05-15 11:40:14 · 7605 阅读 · 0 评论 -
数据抓取 -- 使用代理IP爬取数据:(1):即便代理IP只有1%的无效的情况下如何保证100%把数据爬取下来/while循环使用即便只有1%成功率的代理IP,也能确保爬下数据
为了防止反爬虫,我们一定会用到代理IP,但是代理IP是不稳定的,经常无效。这样会导致数据爬去失败。这里可以通过while,try,except 语句,制作个循环,确保数据爬取成功。 使用下面代码就可以完成: code = 0 while code <200: proxies = {'https': random.choice(proxies_list), ...原创 2019-05-10 10:36:34 · 8818 阅读 · 0 评论 -
PYTHON - while True的用法/while True在账户登陆的应用。
while True 是python中经常会被应用到。下面通过个例子进行解释: 下面是阿里云的子账户登陆界面,在输入账户时候会要求,账户名称内必须包含 ’ @ ‘,否者认为是无效账户,并提示要重新输入账户。 #方法一: name = input("请输入您的用户名:") if '@'not in name: print('您输入的用户名格式不正确,请重新输入') ...原创 2019-04-24 09:34:10 · 52576 阅读 · 1 评论 -
Python 内置函数 filter()
假设出现异常收到一个10万条类脏数据,类似底下: information = [158804023652,'evan','互联网行业','阿里巴巴',15625445635,15884236525.............] 现在我们需要把电话号码提取出来,并且写入到数据库内(其它客户的其它信息可以通过日志和表的关系提取出来。。。此处略 过.....)。 这里需要用到一个函数...原创 2019-04-27 23:13:34 · 12424 阅读 · 0 评论 -
数据抓取 --Beautiful Soup库的使用问题(4)使用 TRY EXCEPT 时的踩过的坑!
下面是try和except 的使用的基本逻辑图。(这边不多解释基础知识) 这里有个注意点: 使用try 和 except 的里面的 ‘’‘新 ’‘’ 定义的列表,元组,字符串 是不共享的。 新的变量在try 和except的语句里面是并列关系的。 举例: 最底下边是爬取一个网站商品的SKU的库存的部分代码,使用的逻辑是, 如果是多尺码,那么选...原创 2019-08-12 11:30:35 · 549 阅读 · 0 评论