哈士猪-优快云博客

原创 MySQL转译escape_string

Mysql导入数据时经常会有特殊符号从而导入失败报错，之前用的都是正则表达式的方法在特殊符号前加’’。但是这种方法仅适用于自己知道有哪些特殊符号的情况，难免会考虑补全。这时候可以用escape_string来自动转义。代码如下： # pymysql在1.0.0版本以上的导入方法 from pymysql.converters import escape_string import pymysql db_config = { 'host': '127.0.0.1', 'port': 3

2021-07-02 14:06:01 933

原创 UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\xf6‘ in position 115: illegal multibyte seq

**项目中需要获取接口中的关键词信息并存在字典中再导入数据库，某些数据中出现UnicodeEncodeError的报错，显示有些数据’gbk’无法编码。之前遇到数据中有韩文也会这样报错的问题，但好像日文可以。这次查看了数据发现是因为数据包含如下字符ö 具体解决方法按照网上所说修改utf-8会造成原本正常的中文无法显示，gbk18030也无法识别这个字符。最后发现其实这个错误只会在print才会出现，而直接加入字典是不会报错的。我print只是作为检查用，其实导入数据库只需要直接将字典INSERT IN

2021-06-23 14:03:14 711

原创导入字典到数据库引号报错问题

项目需要将接口的部分信息保存到数据库，提高运行和推荐机制的效率。在得到想要的字典列表后导入数据库遇到了一些问题。 text = {'id': 'resourcetype_476_1333_44698', 'scholar': ['1145'], 'keywords': ['航空发动机', '[890463]叶片', '[3119081]侵彻', '[5650749]机匣', '[7400469]包容性', '数值仿真', '叶片', '侵彻', '机匣', '包容性', 'aeroengine', 'bl

2021-06-23 13:49:15 321

原创糖尿病诊断模型训练与结果预测

数据来源：github ==>> diabetes.csv 第一步导入数据 import pandas as pd from sklearn.preprocessing import StandardScaler from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import classification_report, confusion_matrix, accuracy_score from s

2021-03-12 17:19:07 3018 3

原创 Django-MySQL(单表格API）

在models.py中创建表格 from django.db import models # Create your models here. class Book(models.Model): id = models.AutoField(primary_key = True) title = models.CharField(max_length=32) pub_date = models.DateField() price = models.DecimalField

2021-03-11 15:14:57 123

原创 Python爬虫特训第三周作业（优快云站内搜索关键词，下载前10页热门文章HTML源码到本地）

import urllib.request import lxml.etree as xe import urllib.parse import re import json url1 = 'https://so.youkuaiyun.com/api/v2/search?' url2 = 't=all&p={page}&s=0&tm=0&lv=-1&ft=0&l=&u=&platform=pc' def get_response(url):

2021-03-11 11:51:04 711

原创 Python爬虫特训第三周作业（利用百度翻译接口制作一个中译英的翻译小程序）

打开百度翻译，随便输入翻译内容，打开F12找到翻译请求的URL地址 https://fanyi.baidu.com/sug import urllib.request import urllib.parse import json while True: print('|{:15}|{:15}|'.format('1.翻译', '2.退出')) key = input('请选择需要进行的操作') if key == '1': # 导入输入的中文

2021-03-11 11:45:19 225

原创 Python爬虫特训第三周作业（爬取csdn首页分类）

作业一目标：将csdn首页的分类内容爬取下来首先将csdn首页的网页源代码下载并保存到html文件中 import lxml.etree as xe import re with open('作业一.html', 'r', encoding='utf-8')as f: # 读取本地html文件 html = f.read() # 把换行符换成空字符串 html = re.sub('\n', '', html) # 把html转成XML对象 html_

2021-03-11 11:33:07 149

原创 Django自学（wsgiref）

WSGI接口定义非常简单，它只要求Web开发者实现一个函数，就可以响应HTTP请求。（廖雪峰老师的原话） from wsgiref.simple_server import make_server def appplication(environ, start_response): # 按着http协议解析数据：environ # 按着http协议组装数据：start_response print(environ) print(type(environ)) # 一

2021-03-09 15:49:01 157

原创 Django自学（请求/响应协议以及get/post请求）

import socket sock = socket.socket() # 创建本地服务器 sock.bind(("127.0.0.1", 8880)) sock.listen(5) while True: print("Server waiting") conn, addr = sock.accept() # 接收请求信息 data = conn.recv(1024) # 打印请求信息 print("data: ", data) # 可以将ht

2021-03-09 14:10:39 273

原创 Python爬虫特训第三周（Headers伪装策略，代理IP）

import urllib.request import urllib.parse #使用Request对比直接使用urlopen的好处是Request可以封装data和headers request = urllib.request.Request('https://tieba.baidu.com/f?kw=%E8%B5%9B%E5%8D%9A%E6%9C%8B%E5%85%8B2077') response = urllib.request.urlopen(request).read() print(r

2021-03-08 10:43:28 357

原创 Python爬虫特训第三周（Http、Urllib）

Http 请求协议关键字说明 Request URL 请求的URL地址 Request 请求方法 Status Code 状态码 Remote Address 远端地址 Connection 连接类型 Content-Encoding 数据压缩方式常见压缩方式：Content-Encoding：gzip, Content-Encoding: compress, Content-Encoding: deflate, Content-Encoding: identity

2021-03-05 16:30:36 130

原创 Python爬虫特训第三周（JsonPath使用案例）

dumps 用于把Python对象转换成Json对象 import json team = [ { 'player': 'Reus', 'captain':True, }, { 'player': None, 'captain': False, }, ] json_data = json.dumps(team) print(json_data) print(type(json_data)) 运行结果如下

2021-03-05 13:17:43 119

原创 Python爬虫特训第三周（防爬策略）

首先右键检查找到需要爬取帖子标题，找到在div标签下的标签中利用xpath help输入xpath格式找到所有的标签名，如下图将书吧页面的源代码保存到本地，文件名为"shuba.html" import lxml.etree as le with open('shuba.html', 'r', encoding='utf-8') as f: html = f.read() html_x = le.HTML(html) title_s = html_x.xpath('//div.

2021-03-05 11:43:27 138

原创 Python爬虫特训第三周(Xpath)

Xpath语法表达式描述 / 根节点选取或下级 // 任意节点，不考虑位置 . 当前节点 . 当前节点的父节点 @ 选取属性 * 匹配任何节点 [nodename] 根据节点筛选 contains(@属性,“包含的内容”) 模糊查询 text() 文本内容注意：xpath中索引从1开始案例利用xpath找到csdn首页游戏开发等文字右键检查发现在div下的ul下的li下的a中两种方法都可以 # 准确定位 //ul[@class="

2021-03-03 15:08:20 130

原创 Python爬虫特训第三周(正则表达式)

正则表达式表达式说明 . 除了\n和\r的所有字符 \d 数字 \D 非数字 \w 字母和下划线 \W 非字母和下划线 \s 空格（包括制表符，换页符等） [a-z] 小写英文字母 [a-zA-Z0-9 大小写英文字母与数字 [123] 数字123 [^123] 不是数字123 * 出现字数≥0 + 出现次数≥1 {n} 出现次数=n {n,m} m≥出现次数≥n ^ 以开头 $ 以结尾 ? 关闭贪婪模式 () 用于获取

2021-03-02 21:02:38 158

原创最初级的糖尿病数据

数据来源中国糖尿病患者群体特征调查报告2020 from 糖护士 http://www.dn258.com/18178.html U.S. Department of Health and Human Services https://www.cdc.gov/diabetes/pdfs/data/statistics/national-diabetes-statistics-report.pdf # -*- coding: utf-8 -*- import pymysql # 使用的是MySQL本地数

2021-03-02 18:11:32 478

原创 Python爬虫特训第二周(python操作sql)

大体格式 import pymysql # 链接 ip 端口用户名密码数据库 db_config = { 'host': '127.0.0.1', # 服务器ip地址 'port': 3306, 'user': 'root', 'password':'sacrifice1998', 'db': 'python', 'charset': 'utf8', } conn = pymysql.connect(**db_config) #获取

2021-03-02 11:57:16 164

原创 Python爬虫特训第二周(初识My SQL)

mysql库操作文件夹（库） ; 英文分号结尾增 create database mydb；查 show databases; show create database mydb; 改 alter database mydb charset utf8; 删 drop database mydb; 操作文件（表）增 create table csdn (id int, name varchar(20), age tinyint unsigned); 查 show cr

2021-03-01 16:22:22 164

原创 Python爬虫特训第二周（字符编码）

x = b'ABC' # 字节数组，byte数组 print(x) # 在byte中，无法显示ASCII字符的字节，用\x##来显示 print('在这种'.encode('utf-8')) print('ABC'.encode('utf-8')) print(b'\xe5\x9c\xa8\xe8\xbf\x99'.decode()) # 中文占用多少字节 print(len('普鲁士Dortmund')) print(len('多特蒙德'.encode('utf-8'))) print(len('

2021-03-01 09:22:49 139 1

weixin_50405574的博客

原创 MySQL转译escape_string

原创 UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\xf6‘ in position 115: illegal multibyte seq

原创导入字典到数据库引号报错问题

原创糖尿病诊断模型训练与结果预测

原创 Django-MySQL(单表格API）

原创 Python爬虫特训第三周作业（优快云站内搜索关键词，下载前10页热门文章HTML源码到本地）

原创 Python爬虫特训第三周作业（利用百度翻译接口制作一个中译英的翻译小程序）

原创 Python爬虫特训第三周作业（爬取csdn首页分类）

原创 Django自学（wsgiref）

原创 Django自学（请求/响应协议以及get/post请求）

原创 Python爬虫特训第三周（Headers伪装策略，代理IP）

原创 Python爬虫特训第三周（Http、Urllib）

原创 Python爬虫特训第三周（JsonPath使用案例）

原创 Python爬虫特训第三周（防爬策略）

原创 Python爬虫特训第三周(Xpath)

原创 Python爬虫特训第三周(正则表达式)

原创最初级的糖尿病数据

原创 Python爬虫特训第二周(python操作sql)

原创 Python爬虫特训第二周(初识My SQL)

原创 Python爬虫特训第二周（字符编码）

原创 Python爬虫特训第二周（函数高级运用）

原创 Python爬虫特训第二周（杨辉三角的实现）

原创 Python爬虫特训第二周（常用设计模式）

原创 Python爬虫特训第二周

原创 Python爬虫特训第二周（程序设计与数据结构）

原创 Python爬虫特训第一周（最简陋的ATM模拟）

原创 Python爬虫特训第一周（计算文件大小）

原创 Python爬虫特训第一周（文件、文件夹的复制）

原创 Python爬虫特训第一周（函数、文件读取）

原创 Python爬虫特训第一周（99乘法表）

空空如也

空空如也