
研究生生活
记录研究生的生活
u_hcy2000
这个作者很懒,什么都没留下…
展开
-
实训小结(2)
今天依旧爬虫,中间被网站封了一次,猜想原因,可能是爬虫的过程中,我又连续的点击了好几次网页,导致网页被访问次数频繁,从而被封了。后来打开了手机热点,更换了ip就又可以访问了。晚上学习了github的使用,从pycharm通过配置git,将本地的git仓库导入到github中,进行团队开发。pycharm中的本地文件,通过commit放到本地的git仓库中,在通过push命令就可以上传到gith...原创 2019-02-27 22:22:51 · 467 阅读 · 0 评论 -
实训小结(3)
今天依旧还是爬虫,基本将整个江苏地区的所有房产数据都爬取出来了。主要完善的地方在于,之前都是手动将每个地方的连接城市,放到一个list列表中的,有点麻烦,这里我又新建了一个爬虫crawlist.py,自动获取各个城市的连接,实现更快速的爬取完善看了几个面试题目,腾讯2017年暑期实习生3道编程题主要想了思路吧,明天把它实现一下。...原创 2019-02-28 22:14:43 · 443 阅读 · 0 评论 -
实训小结(1)
今日数据清洗流程(一)使用Python爬取安居客网站的历史房价信息通过分析网站结构,用crawlcityhouse.py爬取生成结果文件anjuke.csv(二)然后将anjuke.csv文件内容复制到txt文件中,形成txt文件(三)对txt文件进行数据清洗,通过cleandata.py,提取时间信息,生成anjuke_demo.txt(四)最后通过txt_transform_csv....原创 2019-02-26 22:43:03 · 4219 阅读 · 0 评论 -
实训小结(4)
今天已经实训结束了,得个空闲的时候将之前没上传的笔记上传**3.8 学习随机数的原理**随机数随机数其实是伪随机数,这些数其实是有规律的seed()种子(初始值) ——> 随机数生成器(算法)——>返回两样东西(随机数,生成下一个随机数的种子)这个种子用来再继续生成新的随机数while(num<5): np.random.seed(1) print...原创 2019-03-31 21:10:52 · 514 阅读 · 0 评论 -
实训小结(5)
**3.12 复习pandas的一些基本语法**python中,pandas中的Series对象和DataFrame对象1、Series对象:Series是一个一维数组对象,它包含一组索引和一组数据,可以理解为一组带索引的数组2、DataFrame是一个表格型的数据结构,它提供有序的列和不同类型的类值DataFrame将两个或多个Series统一为单个数据结构reshape可以用于...原创 2019-03-31 21:17:36 · 624 阅读 · 0 评论 -
实训小结(6)
**3.18 模型评估参数 地理位置转换**np.linspace(0.0, 1.0, num=30)linspace函数可以生成元素从0到1等间隔的数量为为30个的一个list通过绘制学习曲线图来判断模型的状态:过拟合还是欠拟合1、训练和验证都低于准确率,说明模型欠拟合,要增加模型的复杂度,比如,增加特征、增加树的深度、减小正则项等等,此时再增加数据量是不起作用的。2、训练的模型...原创 2019-03-31 21:29:53 · 1003 阅读 · 0 评论 -
实训小结(7)
**3.25 决策树学习**回归(x,y) y是连续的:回归问题 y是离散的:分类问题略实践应用中最广泛的应用:Logistic回归CART(Classification &(And) Regression Tree)决策树与随机森林决策树(分类树、回归树)解决问题:那种切法最优分类效果的评估:熵(不确定性)乘机符号变为加和符号:取对数ln概率大——>...原创 2019-03-31 21:38:47 · 383 阅读 · 0 评论 -
实习准备(1)
**3.26**一、关于java随机数算法机试的时候可以使用Random吗import java.util.Random;rnd.nextInt(22)+5 设置随机数的范围在5到26之间rnd.nextInt(max-min)+min 设置随机数的范围在min到max之间Math.random()*(n-m)+m二、关于去除数组中重复的数利用Hashset去除重复的数三、...原创 2019-03-31 21:43:44 · 421 阅读 · 0 评论