自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 MySQL转译escape_string

Mysql导入数据时经常会有特殊符号从而导入失败报错,之前用的都是正则表达式的方法在特殊符号前加’’。但是这种方法仅适用于自己知道有哪些特殊符号的情况,难免会考虑补全。这时候可以用escape_string来自动转义。 代码如下: # pymysql在1.0.0版本以上的导入方法 from pymysql.converters import escape_string import pymysql db_config = { 'host': '127.0.0.1', 'port': 3

2021-07-02 14:06:01 933

原创 UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\xf6‘ in position 115: illegal multibyte seq

**项目中需要获取接口中的关键词信息并存在字典中再导入数据库,某些数据中出现UnicodeEncodeError的报错,显示有些数据’gbk’无法编码。 之前遇到数据中有韩文也会这样报错的问题,但好像日文可以。这次查看了数据发现是因为数据包含如下字符ö 具体解决方法按照网上所说修改utf-8会造成原本正常的中文无法显示,gbk18030也无法识别这个字符。 最后发现其实这个错误只会在print才会出现,而直接加入字典是不会报错的。我print只是作为检查用,其实导入数据库只需要直接将字典INSERT IN

2021-06-23 14:03:14 711

原创 导入字典到数据库引号报错问题

项目需要将接口的部分信息保存到数据库,提高运行和推荐机制的效率。在得到想要的字典列表后导入数据库遇到了一些问题。 text = {'id': 'resourcetype_476_1333_44698', 'scholar': ['1145'], 'keywords': ['航空发动机', '[890463]叶片', '[3119081]侵彻', '[5650749]机匣', '[7400469]包容性', '数值仿真', '叶片', '侵彻', '机匣', '包容性', 'aeroengine', 'bl

2021-06-23 13:49:15 321

原创 糖尿病诊断模型训练与结果预测

数据来源:github ==>> diabetes.csv 第一步 导入数据 import pandas as pd from sklearn.preprocessing import StandardScaler from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import classification_report, confusion_matrix, accuracy_score from s

2021-03-12 17:19:07 3018 3

原创 Django-MySQL(单表格API)

在models.py中创建表格 from django.db import models # Create your models here. class Book(models.Model): id = models.AutoField(primary_key = True) title = models.CharField(max_length=32) pub_date = models.DateField() price = models.DecimalField

2021-03-11 15:14:57 123

原创 Python爬虫特训第三周作业(优快云站内搜索关键词,下载前10页热门文章HTML源码到本地)

import urllib.request import lxml.etree as xe import urllib.parse import re import json url1 = 'https://so.youkuaiyun.com/api/v2/search?' url2 = 't=all&p={page}&s=0&tm=0&lv=-1&ft=0&l=&u=&platform=pc' def get_response(url):

2021-03-11 11:51:04 711

原创 Python爬虫特训第三周作业(利用百度翻译接口制作一个中译英的翻译小程序)

打开百度翻译,随便输入翻译内容,打开F12找到翻译请求的URL地址 https://fanyi.baidu.com/sug import urllib.request import urllib.parse import json while True: print('|{:15}|{:15}|'.format('1.翻译', '2.退出')) key = input('请选择需要进行的操作') if key == '1': # 导入输入的中文

2021-03-11 11:45:19 225

原创 Python爬虫特训第三周作业(爬取csdn首页分类)

作业一 目标:将csdn首页的分类内容爬取下来 首先将csdn首页的网页源代码下载并保存到html文件中 import lxml.etree as xe import re with open('作业一.html', 'r', encoding='utf-8')as f: # 读取本地html文件 html = f.read() # 把换行符换成空字符串 html = re.sub('\n', '', html) # 把html转成XML对象 html_

2021-03-11 11:33:07 149

原创 Django自学(wsgiref)

WSGI接口定义非常简单,它只要求Web开发者实现一个函数,就可以响应HTTP请求。(廖雪峰老师的原话) from wsgiref.simple_server import make_server def appplication(environ, start_response): # 按着http协议解析数据:environ # 按着http协议组装数据:start_response print(environ) print(type(environ)) # 一

2021-03-09 15:49:01 157

原创 Django自学(请求/响应协议以及get/post请求)

import socket sock = socket.socket() # 创建本地服务器 sock.bind(("127.0.0.1", 8880)) sock.listen(5) while True: print("Server waiting") conn, addr = sock.accept() # 接收请求信息 data = conn.recv(1024) # 打印请求信息 print("data: ", data) # 可以将ht

2021-03-09 14:10:39 273

原创 Python爬虫特训第三周(Headers伪装策略,代理IP)

import urllib.request import urllib.parse #使用Request对比直接使用urlopen的好处是Request可以封装data和headers request = urllib.request.Request('https://tieba.baidu.com/f?kw=%E8%B5%9B%E5%8D%9A%E6%9C%8B%E5%85%8B2077') response = urllib.request.urlopen(request).read() print(r

2021-03-08 10:43:28 357

原创 Python爬虫特训第三周(Http、Urllib)

Http 请求协议 关键字 说明 Request URL 请求的URL地址 Request 请求方法 Status Code 状态码 Remote Address 远端地址 Connection 连接类型 Content-Encoding 数据压缩方式 常见压缩方式:Content-Encoding:gzip, Content-Encoding: compress, Content-Encoding: deflate, Content-Encoding: identity

2021-03-05 16:30:36 130

原创 Python爬虫特训第三周(JsonPath使用案例)

dumps 用于把Python对象转换成Json对象 import json team = [ { 'player': 'Reus', 'captain':True, }, { 'player': None, 'captain': False, }, ] json_data = json.dumps(team) print(json_data) print(type(json_data)) 运行结果如下

2021-03-05 13:17:43 119

原创 Python爬虫特训第三周(防爬策略)

首先右键检查找到需要爬取帖子标题,找到在div标签下的标签中 利用xpath help输入xpath格式找到所有的标签名,如下图 将书吧页面的源代码保存到本地,文件名为"shuba.html" import lxml.etree as le with open('shuba.html', 'r', encoding='utf-8') as f: html = f.read() html_x = le.HTML(html) title_s = html_x.xpath('//div.

2021-03-05 11:43:27 138

原创 Python爬虫特训第三周(Xpath)

Xpath语法 表达式 描述 / 根节点选取或下级 // 任意节点,不考虑位置 . 当前节点 . 当前节点的父节点 @ 选取属性 * 匹配任何节点 [nodename] 根据节点筛选 contains(@属性,“包含的内容”) 模糊查询 text() 文本内容 注意:xpath中索引从1开始 案例 利用xpath找到csdn首页游戏开发等文字 右键检查 发现在div下的ul下的li下的a中 两种方法都可以 # 准确定位 //ul[@class="

2021-03-03 15:08:20 130

原创 Python爬虫特训第三周(正则表达式)

正则表达式 表达式 说明 . 除了\n和\r的所有字符 \d 数字 \D 非数字 \w 字母和下划线 \W 非字母和下划线 \s 空格(包括制表符,换页符等) [a-z] 小写英文字母 [a-zA-Z0-9 大小写英文字母与数字 [123] 数字123 [^123] 不是数字123 * 出现字数≥0 + 出现次数≥1 {n} 出现次数=n {n,m} m≥出现次数≥n ^ 以开头 $ 以结尾 ? 关闭贪婪模式 () 用于获取

2021-03-02 21:02:38 158

原创 最初级的糖尿病数据

数据来源 中国糖尿病患者群体特征调查报告2020 from 糖护士 http://www.dn258.com/18178.html U.S. Department of Health and Human Services https://www.cdc.gov/diabetes/pdfs/data/statistics/national-diabetes-statistics-report.pdf # -*- coding: utf-8 -*- import pymysql # 使用的是MySQL本地数

2021-03-02 18:11:32 478

原创 Python爬虫特训第二周(python操作sql)

大体格式 import pymysql # 链接 ip 端口 用户名 密码 数据库 db_config = { 'host': '127.0.0.1', # 服务器ip地址 'port': 3306, 'user': 'root', 'password':'sacrifice1998', 'db': 'python', 'charset': 'utf8', } conn = pymysql.connect(**db_config) #获取

2021-03-02 11:57:16 164

原创 Python爬虫特训第二周(初识My SQL)

mysql库 操作文件夹(库) ; 英文分号结尾 增 create database mydb; 查 show databases; show create database mydb; 改 alter database mydb charset utf8; 删 drop database mydb; 操作文件(表) 增 create table csdn (id int, name varchar(20), age tinyint unsigned); 查 show cr

2021-03-01 16:22:22 164

原创 Python爬虫特训第二周(字符编码)

x = b'ABC' # 字节数组,byte数组 print(x) # 在byte中,无法显示ASCII字符的字节,用\x##来显示 print('在这种'.encode('utf-8')) print('ABC'.encode('utf-8')) print(b'\xe5\x9c\xa8\xe8\xbf\x99'.decode()) # 中文占用多少字节 print(len('普鲁士Dortmund')) print(len('多特蒙德'.encode('utf-8'))) print(len('

2021-03-01 09:22:49 139 1

原创 Python爬虫特训第二周(函数高级运用)

Python中函数即变量 变量可以指向函数 函数名也是变量 传入函数 函数本身也可以赋值给变量,即:变量可以指向函数 # abs(-10)函数调用,abs是函数本身 print(abs(-10)) f = abs print(f) print(f(-10)) 输出结果如下 # abs函数被覆盖掉 abs = 10 abs(-10) 输出结果如下 # 把函数当作参数传递给其他函数 def add(x, y, f): return f(x) + f(y) print(add(-5, -9

2021-02-26 09:51:45 153

原创 Python爬虫特训第二周(杨辉三角的实现)

def triangles(): a = [1] while True: yield a a = a + [0] a = [a[i-1] + a [i] for i in range(len(a))] if len(a) > 5: break n = 0 results = [] for t in triangles(): print(t) results.append(t)

2021-02-25 15:01:45 157

原创 Python爬虫特训第二周(常用设计模式)

生成器 循环过程中推选后续元素,而不必创建完整的list。这种一边循环一边计算的机制称为生成器:generator 两种定义 1.列表生成式 2.带yield的generator function L = [x*x for x in range(10)] print('L:', L) g = (x*x for x in range(10)) print(g) 输出结果如下 列表生成式 Python内置的非常简单却强大的可以用来创建列表的生成式 快速的把字典内容转化成列表 d = { 'x

2021-02-25 13:35:33 207

原创 Python爬虫特训第二周

继承 定义一个class的时候,可以从某个现有的class继承,新的class称为子类(subclass) 被继承的class称为基类,父类或超类(Base class, Super class) class Animal(object): def run(self): print('Animal is running') class Dog(Animal): def run(self): # 重写 # 调用父类的方法 super().

2021-02-25 11:02:28 115

原创 Python爬虫特训第二周(程序设计与数据结构)

标题 面向对象和面向对象编程 类由属性和方法组成 对象是类的实例化 属性可以封装,并声明私有属性 类属性和实例属性 # 面向过程 stu1 = {'name': 'Reus', 'score': 99} stu2 = {'name': 'Sancho', 'score': 95} # 函数 def print_score(stu): print('%s: %s' % (stu['name'], stu['score'])) # 面向对象 # 1.设计类 # 属性和方法 class S

2021-02-25 09:52:44 111

原创 Python爬虫特训第一周(最简陋的ATM模拟)

""" 登录&退书 查询余额 取钱 存钱 """ # 用户数据源 user_data = [ {'Name': 'Liubei', 'Password': 'xuande', 'Deposit': 10000}, {'Name': 'Guanyu', 'Password': 'yunchang', 'Deposit': 20000}, {'Name': 'Zhangfei', 'Password': 'yide', 'Deposit': 30000} ] user_list

2021-02-24 20:09:44 186

原创 Python爬虫特训第一周(计算文件大小)

文件大小 1 Bytes = 8 Bit 1 KB = 1024 Bytes 1 MB = 1024 KB 1 GB = 1024 GB 1 TB = 1024 GB import os # 初始大小设为0 dir_size = 0 def get_dir_size(target_dir): global dir_size #获取文件夹路径 dir_list = os.listdir(target_dir) print(dir_list) #计算每个文件的大小

2021-02-24 20:06:57 302

原创 Python爬虫特训第一周(文件、文件夹的复制)

通过os模块进行文件和文件夹操作 使用该模块必须先导入os模块 import os os模块中的部分函数: getcwd() 获取当前的工作目录 chdir() 修改当前工作目录 listdir() 获取指定路径文件夹 mkdir() 创建一个目录/文件夹 rmdir() 移除一个目录(必须是空目录) rename() 修改文件和文件夹名称 stat() 获取文件的相关信息 exit() 退出当前执行命令 os.path --> os中的一个重要的子模块 通过os模块进行路

2021-02-24 19:56:23 213

原创 Python爬虫特训第一周(函数、文件读取)

Python爬虫特训第一周(函数) 形参: 形式上的参数,声明函数时()中的参数是形参 实参: 实际上的参数,调用函数时()中的参数是实参 函数参数格式 默认值的参数:可选择性输入的参数 可变参数 :可以输入0到任意个参数,函数内组装成tuple 关键字参数:可以输入0到任意个含参数名参数,函数内组装成一 个dict 命名关键字参数 多种参数混合:顺序是必选,默认,可变,命名关键字,关键字 关键字参数 def student(name, age, **kw): print('Name:',

2021-02-24 19:42:31 125

原创 Python爬虫特训第一周(99乘法表)

Python爬虫特训第一周(99乘法表) 利用循环结构完成99乘法表的输出 For loop for row in range (1,10): for col in range(1, row+1): print('{}*{}={:<4}'.format(col, row, col*row), end='') print('') print('='*90) for col in range(9, 0, -1): for row in range(1, col+1): print('{}*

2021-02-24 19:21:38 489

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除