- 博客(10)
- 收藏
- 关注
原创 数据分析之数据准备(1-3)
承接数据分析之数据探索https://blog.youkuaiyun.com/qq_45626019/article/details/108074152import pandas as pdimport numpy as nphousing=pd.read_csv(r"D:\sublime\机器学习\dataset\housing.csv")#按照收入类别进行分层抽样housing["income_cat"]=np.ceil(housing["median_income"]/1.5)housing["in
2020-08-18 22:11:14
564
原创 数据分析之数据探索(1-2)
承接-数据分析之测试集划分https://blog.youkuaiyun.com/qq_45626019/article/details/108060392导入数据import pandas as pdhousing=pd.read_csv(r"D:\sublime\机器学习\dataset\housing.csv")#按照收入类别进行分层抽样housing["income_cat"]=np.ceil(housing["median_income"]/1.5)housing["income_cat"].wh
2020-08-18 12:30:41
377
原创 数据分析之测试集划分(1-1)
以housing.csv数据集为例展开演示如果数据是动态的建议利用爬虫技术,使你持续获得最新数据从https://github.com/ageron/handso-ml/raw/master/datasets/housing上下载数据import osimport tarfilefrom six.moves import urllibdownload_url="https://github.com/ageron/handson-ml/raw/master/"housing_path="dat
2020-08-17 23:14:23
702
原创 利用python进行假设检验
概念:假设检验,就是要对总体参数u提出一个假设,然后利用样本信息去验证这个假设是否成立。假设检验的假设:(1)假设检验时,会设置两个假设一个是原假设,也叫零假设,用H0表示。原假设一般是统计者想要拒绝的假设。原假设设置一般为:等于=、大于等于>=、小于等于<=。另一个是备择假设,用H1表示。备择假设是统计者想要接受的假设,备择假设的设置一般为:不等于!=、大于>、小于<。(2)为什么把设计者想要拒绝的假设放在原假设呢?因为原假设如果误判的话,只会犯弃真错误,而犯弃真错误的
2020-08-17 13:35:51
3949
原创 numpy.random模块的使用
(1) numpy.random.uniform(low=0.0, high=1.0, size=None)在[low,high)中均匀生成size个浮点数import numpy as npa=np.random.uniform(1,3,10)print(a)结果:[1.82050159 2.6855366 1.21302458 1.7805841 2.69146851 1.48324765 1.16875348 2.34953967 1.76611582 2.53800658]补充:当
2020-08-14 00:03:01
183
原创 python取整方法汇总
1.向下取整a=math.floor(3.75)#向下取整print(a)a=int(0.75)#向0取整print(a)#或者a=5\\2#取整时保留整数的下界print(a)结果:3结果:0结果:22.向上取整import matha=math.ceil(2.5)print(a)结果:33. 四舍五入a=round(3.2)#当小数末尾为5时,奇数向远离0取整,偶数去尾取整;或言之:奇数进位,偶数去尾print(a)结果:34.分别取整数部分和小数部分im
2020-08-13 16:54:59
835
原创 利用二分法查找目标值(python)
利用二分法和牛顿法求平方根首先我们要理解什么是二分法:(一)确定该区间的中间位置K(2)将查找的值T与array[k]比较。若相等,查找成功返回此位置;否则确定新的查找区域,继续二分查找。区域确定如下:a.array[k]>T 由数组的有序性可知array[k,k+1,……,high]>T;故新的区间为array[low,……,K-1]b.array[k]<T 类似上面查找区间为array[k+1,……,high]。每一次查找与中间值比较,可以确定是否查找成功,不成功当前查找区间将缩小
2020-08-13 13:32:48
1227
原创 numpy.random.seed()的用法理解
关于numpy.random.seed()的参数说明seed()用于指定随机数生成时所用算法开始的整数值,如果使用相同的seed()值,则每次生成的随机数都是相同一、当seed()值不同时,接下来产生的随机数也会不同import numpy as npfor i in range(5): np.random.seed(i) a=np.random.random() print(a)a0.54881350392732480.4170220047025740.43599490214200
2020-08-12 18:22:33
558
原创 爬虫-IP代理池构建
ip代理池构建(可自动调用)多次爬取,进行ip替换可有效防止访问失败,本代码可直接导入使用import requestsfrom lxml import etreeimport timeimport random#随机选取代理def getip(ipstock1): key1=random.choice(list(ipstock1)) proxies2="https://"+key1+":"+ipstock1[key1] proxies3={"https":proxies2} retu
2020-06-07 12:20:06
258
原创 基于wifi信号强度的定位研究
基于wifi信号强度的定位研究Knn算法简介:knn分类算法是数据挖掘分类技术中最简单的方法之一。所谓knn就是在离未知数据k个最近的数据中,找到占比最高的同一类数据,从而预测未知数据类型就是该类数据。而在本次wifi信号定位的实验中,wifi发射器到手机的距离对于信号强度具有完全负相关性,可以抽象的将相关性理解为测试点到测试集点的欧式距离,因此,我组决定使用KNN算法。其次,Knn算法对数...
2020-01-01 10:51:12
2360
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人