
● Python数据获取/处理
文章平均质量分 62
Python数据获取/处理
LinJie98
开源 分享 快乐
展开
-
Python操作MySQL 1366错误解决方案
Python操作MySQL 1366错误解决方案说在前面场景一解决方案场景二解决办法说在前面笔者最近在写Python爬虫,在一次将数据存储到MySQL中的过程中突然报1366错误(error:1366, “Incorrect string value: )。通过查阅相关文档了解1366错误多数是字符编码前后不一致所造成,比如表的编码和插入的编码不一致。读者可以通过以下命令查阅相关字符集mysql的字符集:show variables where Variable_name like '%char%';原创 2020-06-12 20:53:43 · 5488 阅读 · 2 评论 -
Python 实现MySQL数据导入Excel
一、场景场景如题,将mysql中的表数据导入到excel二、场景实现1、创建mysql_util.py将对mysql的操作写在这个py文件下mysql_conf = { 'host': '主机host', 'user': '用户名', 'password': '密码', 'port': 端口, 'database': '库名', ...原创 2018-11-05 19:49:41 · 1558 阅读 · 0 评论 -
Python 解决地址栏中文编码问题
一、场景简述笔者发现在天猫搜索店铺页面,如果输入中文,在url中会进行转码,输入英文则不变,如下图url中的将男装进行了转码,本应q=男装具体url:https://list.tmall.com/search_product.htm?spm=a220m.1000858.1000724.7.1f281602JoXnuH&q=%C4%D0%D7%B0&sort=s&...原创 2018-10-22 10:39:11 · 1557 阅读 · 2 评论 -
Python中动态创建Mongodb集合
一、场景简述笔者最近在写相关爬虫数据存储,需要根据店铺名称来创建mongodb中的集合,以下就是笔者的解决办法二、解决方案#mongodb连接client = pymongo.MongoClient(mongo_util.mongo_conf['host'],mongo_util.mongo_conf['port'])#shopname自己动态定义shopname = "xx...原创 2018-10-18 15:42:18 · 2792 阅读 · 0 评论 -
Python爬虫(四)——模拟登录imooc实战(利用cookie)
该实战是模拟登录慕课网,并且进入个人课程页面一、思路1、获取登录cookie,并保存。2、进入个人课程页面二、代码#!/usr/bin/env python# -*- coding:utf-8 -*-# author: xulinjie time:2017/11/1import urllib2import urllibimport cookielibfilename='cookie.tx原创 2017-11-05 14:34:50 · 1190 阅读 · 0 评论 -
Python实现日期格式化与日期的天数运算
一、场景获取两个日期,其类型为datetime.datetime类型,例如该格式2018-05-31 15:52:03需求一:现在需要将该格式进行格式化为2018-05-31需求二:运算获取的两个时间之间的天数差值二、场景分析1、解决需求一需要对其类型转化+格式化 2、解决需求二需要使用相应的datetime的方法,并且做运算需要其类型为datetime....原创 2018-07-17 00:25:01 · 7975 阅读 · 0 评论 -
Python 利用正则获取json中不同的数据类型
一、场景简述笔者在写xx爬虫的时候,需要获取页面请求返回的json数据中的某些数据,遇见如下的"key":value("id":value)或者是"key":"value"("rateDate":"value")区别在于value是否带引号,并且需要获取相应的value值,笔者通过正则快速解决 二、场景实现1、"key":value("id原创 2018-08-28 21:53:11 · 6941 阅读 · 0 评论 -
Mac OS安装Scrapy报错error: command '/usr/bin/clang' failed with exit status 1解决方案
一、场景简述Mac OS系统下在terminal下安装Scrapy(pip3 install scrapy)报错如下error: command '/usr/bin/clang' failed with exit status 1二、场景分析因为Mac OS系统底层时C,编译器用Clang,所以需要安装xcode三、解决方案在terminal进行如下操作xcode-...原创 2018-09-14 18:26:04 · 9747 阅读 · 0 评论 -
Python的Cookie详解
一、介绍啥是cookie 当用户通过浏览器首次访问一个域名时,访问的web服务器会给客户端发送数据,以保持web服务器与客户端之间的状态保持,这些数据就是cookie,它是Internet站点创建的,为了辨别用户身份而储存在用户本地终端上的数据,cookie大部分都是加密的,cookie存在与缓存中或者硬盘中,在硬盘中的是一些文本文件,当你访问该网站时,就会读取对应的网站的cookie信息,co原创 2017-11-05 13:23:50 · 44903 阅读 · 0 评论 -
Python爬虫(三)——URLError和HTTPError异常处理
一、URLError造成原因本地网络未连接服务器不存在连接不到特点的服务器既然异常处理就会使用到try/except,下面简单介绍try/except捕获异常二、try/except异常捕获使用try/except来捕捉异常检测try语句块中的错误,从而让except语句捕获异常信息并且处理,当然如果不想在异常发生使结束程序,可以只用try来捕获三、简单的URLError比如下面是我在本机断原创 2017-11-01 12:07:22 · 22949 阅读 · 1 评论 -
Python入门(一)——IDE选择,输入输出,类型规范,转义序列,格式问题,标识符
一、IDE选择我推荐Pycharm,功能强大,操作简单。至于配置安装过程请百度。二、py版本我是py2.7和3.6一起混合使用,不过主要以3.6为主三、输入输出 输入:input输入数值,raw_input输入字符串#!/usr/bin/env python# -*- coding:utf-8 -*-# author: xulinjie time:2017/10/8# input和raw_原创 2017-10-09 22:02:56 · 1385 阅读 · 0 评论 -
Python解决抓取内容乱码问题(decode和encode解码)
一、乱码问题描述经常在爬虫或者一些操作的时候,经常会出现中文乱码等问题,如下 原因是源网页编码和爬取下来后的编码格式不一致二、利用encode与decode解决乱码问题字符串在Python内部的表示是unicode编码,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。 dec原创 2017-10-27 22:53:10 · 35179 阅读 · 1 评论 -
Python入门(二)——运算符,求值顺序,if/for/while语句,list,tuple,dict,seq,set
一、运算符 下面我举一些常见的,部分没有写#!/usr/bin/env python# -*- coding:utf-8 -*-# author: xulinjie time:2017/10/11print(1+3)#输出4print(13/3)#输出4.333333333333333#向下取整至最接近的整数print(13//3)#输出4#取模print(13%3)#输出原创 2017-10-11 20:28:12 · 2635 阅读 · 0 评论 -
Python爬虫(一)——了解爬虫
一、爬虫是什么 爬虫即网络爬虫,即将网上的资源抓取下来。比如在抓取一个网页,在这个网中发现一条道路,这个道路就是指向网页的超链接那就可以抓到该网的资源二、浏览网页过程浏览网页的过程其实就是用户输入网址之后,经过DNS服务器,找到服务器主机,向服务器发出一个请求,服务器经过解析之后,发送给用户的浏览器HTML,JS,CSS等文件,浏览器解析出来,便是用户看到的界面。所以说用户看到的网页实质是用h原创 2017-10-21 20:45:18 · 575 阅读 · 0 评论 -
Python入门(三)——函数,参数,参数默认值,可变参数,关键字参数,组合参数,递归函数
一、函数的定义 函数代码块以 def 关键词开头,后接函数标识符名称和圆括号()。 任何传入参数和自变量必须放在圆括号中间。圆括号之间可以用于定义参数。 函数的第一行语句可以选择性地使用文档字符串—用于存放函数说明。 函数内容以冒号起始,并且缩进。 return [表达式] 结束函数,选择性地返回一个值给调用方。不带表达式的return相当于返回 None。 例子#!原创 2017-10-13 16:27:26 · 3676 阅读 · 0 评论 -
Python入门(四)——模块,__name__属性,dir()函数,包的概念
一、模块 模块其实用自己的话说就是,你先创建一个test.py的文件(里面包含函数与变量等),然后再创建一个test2.py文件,在开头用import引入test.py,这样就可以在test2.py中使用test.py的函数了实例:先创建test.py:(以下是代码内容)#!/usr/bin/env python# -*- coding:utf-8 -*-# author: xulinji原创 2017-10-14 19:37:35 · 3035 阅读 · 3 评论 -
Python爬虫(二)——urllib库,Post与Get数据传送区别,设置Headers,urlopen方法,简单爬虫
一、urllib2概念 urllib2是一个Python模块,可以用来获取URL资源(fetching URLs),它定义了函数和类,用以协助URL操作(actions),如基本身份验证和摘要式身份验证(basic and digest authentication)、重定向、cookies等二、urllib2和urllib区别两个模块都是完成URL的请求,但还是有所区别1、urllin2可以原创 2017-10-23 21:06:45 · 7983 阅读 · 0 评论 -
Python入门(五)——备份文件全过程
一、安装压缩程序在win下无法使用zip命令,所以得自己下压缩程序,这里我推荐winRAR和7z-zip(下面我用7z-zip)二、将python版本和压缩程序添加到path1.先进入编辑环境位置控制面板->系统和安全->系统,选择高级系统设置,选择环境变量 2.在环境变量面板中找到系统变量中的path,选择编辑3.将刚刚下载的7z.zip中的7z.exe复制到C:\Windows下4.在系统变量原创 2017-10-15 13:44:22 · 1553 阅读 · 0 评论 -
Python入门(六)——self,类,方法,__init__,类对象,类变量,文件操作,判断回文,pickle模块用法
一、self参数类的方法与普通的函数只有一个特别的区别——它们必须有一个额外的第一个参数名称, 按照惯例它的名称是 self。虽然self可以改成其他名称,但是遵循惯例有利于程序的可读性 如果你的类方法中没有一个参数,你依旧必须拥有self参数!class Test: def prt(self): print(self) print(self.__cla原创 2017-10-17 20:35:40 · 852 阅读 · 0 评论