- 博客(29)
- 收藏
- 关注
原创 python爬虫使用requests和BeautifulSoup出现中文乱码
python爬虫使用requests和BeautifulSoup出现中文乱码requests和BeautifulSoup都是自行检测网页编码并进行编码的,所以可能会出现检测错误,需要手动更改编码方式,使得中文能够正常显示from bs4 import BeautifulSoupimport requestsheaders = { 'user_agent': 'Mozilla/5.0 (...
2018-10-07 17:35:55
2010
1
转载 python3爬虫(二):解析库之Beautiful Soup
python3爬虫(二):解析库之Beautiful SoupBeautiful Soup是一个可以从HTML或XML中提取数据的python库,了解了HTML或XML的结构,能很方便地获取数据一、准备1、安装库和解析器这里使用的是 beautifulsoup4 以及 lxml 作为解析器pip install beautifulsoup4pip install lxmlHTML例...
2018-10-07 15:40:29
1308
原创 python3爬虫(一):请求库之requests
python3爬虫(一):请求库之requestsRequest是基于urllib编写、采用Apache2 Licensed开源协议的HTTP库,在使用方面Requests比urllib更加方便一、HTTP请求1. GETrequests.get(url [, params={‘key’: ‘value’}])通过url的查询字符串传递数据时,数据以键值对的形式跟在url的一个问号之...
2018-10-05 16:09:34
1529
原创 Python之pandas的DataFrame
Python之pandas的DataFrameimport pandas as pdimport mathdf=pd.DataFrame({'key':['a','b','c'],'data1':[1,2,3]})1、生成新列df['newcol'] = df['data1'].apply(lambda x: math.sin(x))
2018-10-03 15:19:15
414
原创 Python3爬虫(一):请求库之urllib
Python3爬虫(一):请求库之urlliburllib是python3中用于操作url的内置库。在python2中分为urllib和urllib2简单的爬取网页urllib.request.urlopen(url, data, timeout)url:请求地址data:上传数据转换格式:urllib.parse.urlencode(dict_name).encode(‘utf8...
2018-10-03 15:16:07
528
原创 机器学习实战之k-近邻算法(KNN)识别手写数字
机器学习实战之k-近邻算法(KNN)识别手写数字《机器学习实战》第2章k-近邻算法之识别手写数字k-近邻算法原理通过计算目标元素与已知类别元素的距离,距离越小,表示元素之间越相似取距离最近的k个元素这k个元素中,出现次数最多的类别,则为目标元素的类别代码及解释import numpy as npfrom os import listdir #用于获取文件夹下的文件名#对目...
2018-09-23 17:25:55
1084
原创 python numpy array random 随机排列(打乱训练数据)
对numpy.array重新排列:numpy.random.shuffle(x):修改本身,打乱顺序import numpy as nparr = np.array(range(0, 21, 2))np.random.shuffle(arr)arr #打乱顺序后的数组, 如[2, 6, 4, 8, 12, 16, 0, 18, 10, 14, 20]arr = np.array...
2018-09-22 21:07:36
32802
2
原创 python生成序列中n个不重复的的元素
python生成序列中n个不重复的元素很多时候需要从序列中随机抽取n个元素,并且要求是不重复的python的random模块中的sample能够实现random.sample(seq, num)import randoma = range(10)b = random.sample(a, 4) #[4, 7, 2, 9]# 也可以是字符串s = ['123', '543', '...
2018-09-22 20:40:28
2920
原创 Python之对数组元素做批量操作
在进行数据分析、数据挖掘的时候,需要对数据进行处理,即对数组或矩阵的行或列进行批量的相同操作import numpy as npdata = np.array([[2,4,6,8],[10,12,14,16]])shape = data.shape()data = [data[i][j]/2 for j in range(shape[1])] for i in range(shape...
2018-08-03 22:22:37
15532
3
原创 Python之日期
Python之日期模块:import datetime1.转换(1)datetime -> strnow = datetime.datetime.now()str = now.strftime('%Y-%m-%d %H:%M:%S')(2) str -> datetimestr = "2014-12-18 15:32:24"date = datetime.d...
2018-08-03 22:13:39
235
原创 机器学习之线性回归
机器学习之线性回归线性模型通过属性的线性组合来进行预测 f(x)=w1x1+w2x2+...+wdxdf(x)=w1x1+w2x2+...+wdxdf(x) = w_1x_1+w_2x_2+...+w_dx_d f(x)=wTx+bf(x)=wTx+bf(x) = w^Tx+b线性回归1.形式f(x)=θ0x0+θ1x1+θ2x2+...+θnxnf(x)=θ0x0...
2018-07-09 16:01:48
339
原创 python数据导出为csv文件
python数据导出为csv文件1 介绍将 list 或 numpy.narray 类型的数据导出为csv文件(同理可扩展到导出为excel,即写入的文件格式为xls,且最后使用to_excel()方法)2 包及相关方法pandas - DataFrame() - join() - to_csv() / to_excel()3 代码import pan...
2018-07-08 16:49:58
65846
1
原创 02 机器学习中的评估指标
机器学习中的评估指标1. 机器学习的目标根本目标:在给定的训练数据上,试图训练出能够归纳数据的规律的模型,并且能在未知样本上也有好的效果。泛化能力强的模型最好能很好地适用于未知样本,如错误率低,精度高2. 评估方法使用测试集数据进行可靠的评估测试集:测试集(用于评估)应该与训练集(用于模型学习)“互斥”常见方法:留出法 hold-out 保持数...
2018-04-20 10:36:19
499
原创 01 机器学习之概述
机器学习之概述1.概述机器学习是什么人工智能的一个重要学科的分支,一个多领域交叉学科一类数据驱动的方法,在数据上通过算法,总结模式、规律,从而应用在新的数据上研究的是计算机怎样模拟人类的学习行为,以获取新的知识或技能,并重新组织已有的知识结构,使之不断改善自身广泛应用:互联网、生物、医疗、金融、能源、交通等等2.基本概念2.1 不同类型的问题分类...
2018-04-20 10:27:25
312
转载 Python3之字符串
Python3之字符串基础内容创建:为变量分配一个值即可 单行:’xxx’ 或 “xxx”多行:”“” 或 ”’访问:使用方括号来截取字符串,var[i], var[:]不支持单字符类型,单字符也作为一个字符串所有字符串都是 Unicode 字符串转义字符在字符串中使用特殊字符时,用反斜杠 \ 转义字符 转义字符 描述 \(在尾行时)...
2018-04-03 16:09:11
462
转载 Python3之Number(数字)
Python3之Number(数字)说明用于存储数值数据类型不允许改变,若改变数字数据类型的值,将重新分配内存控件可使用 del 语句删除数字对象的引用类型int : 整型(整数)包括正负,不带小数点,无大小限制,可当做Long类型使用(python2有Long类型)进制 十六进制:0x, 0X八进制:0o, 0O二进制:0b, 0Bfloat ...
2018-04-02 22:28:25
388
转载 Python3之运算符
Python3之运算符算术运算符混合运算时,整数转换为浮点数 - 加:+ - 减:- - 乘:* - 除:/ - 取模:% - 幂:** - 取整除:// (商的整数部分)print(21/10) # 2.1print(21//10) # 2print(9.0//2.0) # 4.0比较(关系)运算符等于:==...
2018-04-02 22:27:23
336
原创 机器学习之Octave:字符串
机器学习之Octave:字符串目录机器学习之Octave:字符串比较字符串操作字符串比较字符串strcmp(s1, s2) 比较两个字符串,相同则返回1,否则0操作字符串strtok()[tok, rem] = strtok(str,delim) :找到字符串中的所有字符,但不包括第一个delime的字符串。如果del...
2018-04-01 22:45:52
1986
转载 Python3之基本数据类型
Python3之基本数据类型 变量不需要声明变量在使用前必须赋值,赋值后变量才被创建赋值方式:等号 = ,左边是变量名,右边是存储在变量中的值多变量赋值a = b = c = 1 # 创建一个整型对象,值为1,三个变量被分配到相同的内存空间上a, b, c = 1, 2, "hello" # 分别分配给三个变量删除对象引用:del语句,d...
2018-04-01 22:22:33
317
转载 Python3之基础语法
Python3之基础语法编码默认:源码文件以UTF-8编码,字符串都是unicode字符串指定:# -*- coding: cp-1252 -*-标识符第一个字符:字母表中的字符或下划线 _其它部分:由字母、数字、下划线 _ 组成大小写敏感python3中,允许非ASCII标识符关键字标准库提供了keyword模块,可输出当前版本的所有关...
2018-04-01 11:18:04
1388
原创 Newtonsoft.Json.Linq.JArray转换为List<T>
Newtonsoft.Json.Linq.JArray转换为List环境:c# webapi现在webapi一般使用json,从前端提交的数据,有时会包括多个数据,如:var list = [ {id: '1', name: 'name1'}, {id: '2', name: 'name2'}, {id: '3', name: 'name3'}, {id...
2018-03-31 23:14:10
16693
原创 随笔之大学四年生活有感
大学四年生活有感大学本科生四年就要结束了,不舍倒是没有,因为研究生还是在本校读。。。不过倒是还有很多遗憾的,虽然这些遗憾好像都是自己造成的 –_–!!! 不过都过去了,只能就这样了。关于学校与专业本人是广东人,本科就读于武汉某理工类211高校。说它好吧,它也就是一个211,当初选它的一个原因就是分数够不上广东的两所最好的学校,然后选其他的211也不一定能录取到最想去的专业,然...
2018-03-25 00:09:31
1713
原创 Webapi之文件上传
Webapi之文件上传范例说明:前端:vue.js + element-ui + axios后端:c# webapi先上传存储起来,然后再读取文件仅尝试过在本地调试,未验证服务器前端部分使用element-ui的上传组件// html 直接调用api&lt;el-upload class="upload-demo" ref...
2018-03-21 20:43:45
3559
1
原创 Webapi之文件下载
Webapi之文件下载该方法有问题!!!直接输入api没有问题,但是用axios调用api则下载的excel没有内容,如果是直接点击a标签(标签href值为api)也没问题范例说明:前端:vue.js + element-ui后端:c# webapi其它:只尝试本地调试,未在服务器上验证前端部分// html&lt;el-button ...
2018-03-21 20:26:22
3181
原创 机器学习之Coursera Andrew Ng 《Machine Learning》 week 6 test 2
本系列文章是coursera上Andrew Ng的《Machine Learning》的测验题,每次测验都会有不同的错,记录下来,不定时的补充。错的题目希望能帮我改正一下,我改错的也希望大家能提出。1、Accuarcy = (85 + 10) / 1000 = 0.095Precision = 85 / (85 + 890) = 0.087R
2018-01-13 17:18:23
509
转载 offset, client, scroll
offset, client, scroll偏移量offset客户区大小client滚动大小scroll
2017-09-21 10:39:42
419
原创 JS中typeof和instanceof的区别
typeof是一元运算符,放在运算数之前,运算数可为任意类型。其返回值为说明运算数类型的字符串。 instanceof用于判断变量是否属于某对象的实例,返回值为true,false。
2017-05-06 15:41:07
325
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人