- 博客(10)
- 收藏
- 关注
原创 机器学习-xgboost
xgb中参数分为三类1.通用参数2.集成参数3.任务参数1)随机森林在ligthgbm(有很多集成算法)中有,里面更全。2)xgboost(里面有gdbt是树的串型叠加的各种包,梯度增强的方法)里面没有随机森林包。 xgboost是一个支持多种数据格式的库。libsvm数据存储格式,xgboost里面的数据格式xgboost.DMatrix(数据)3)交叉验证是一个评估方法,是xgb自带的函...
2018-06-29 18:02:13
262
原创 机器学习-特征选择
1.特征筛选1)计算变量的相关性,对线性模型一般有效,非线性效果不明显。2) 给予模型的特征选择,如lr选择正则化或随机森林输出特征的总要度。3)RFE逐步特征选择。sklearn在工业界通常不考虑效率,真正工业界用xgboost和lightgbm多。2.模型评估和参数调优1)数据切分、可能切偏,真正使用数据乱序加上交叉验证。2)k折交叉验证(分层抽样通常,保证比例),交叉验证得分。3)网格搜索,...
2018-06-29 14:31:23
455
原创 机器学习-总览
1.分类就是学习一个决策边界2.过拟合和正则化(减缓过拟合的方法)3.最大间隔分类器SVM,本身是线型切分,想变化成非线型切分是需要加入核函数,低纬度没办法切开所以要映射到高纬度当中切分。4.决策树 ID3,c4.5,cart选特征,对应的筛选指标信息增益、增益率、基尼系数。5.随机森林,选择部分特征,放回抽样。6.分桶时间numpy.digitize(x,bin)取到桶的id7.数据可能在不一样...
2018-06-29 13:25:18
184
原创 C#如何抓取网页某个时间断之后的数据
string regex = "<td class=\"art_tit\"><a href=\"(?<text>[^\"]*).*title=\"(?<title>[^\"]*\")"; MatchCollection mces = RegexUtil.GetGroupByR
2018-06-20 10:07:25
262
原创 C#是如何做爬虫的
//创建URL,并创建请求 HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url); //携带cookie request.CookieContainer = CookieContainer; //发送请求,并获取H...
2018-06-14 10:44:40
1596
原创 用户画像和系统推荐
1.隐语义模型2.word2vector模型在推荐系统当中的应用3.推荐系统评估指标打分系统:均方根,平均绝对误差top n 推荐:准确率(推荐正确的/推荐的)vs召回率(推荐正确的/用户实际浏览的)覆盖率(对平台而言):推荐系统消除马太效应,覆盖率计算商品的曝光率,引入信息商,每个商品曝光的概率一样时信息熵最大多样性(对用户而言推荐item不是单一的):相似度时效性等。。。4.推荐系统(基于内容...
2018-04-19 16:43:07
1370
原创 python-可视化matplotlib和seaborn
1.echart可做出更精美的图片,matplotlib和seaborn可以对数据进行简单的可视化操作2.series或dateframe转化成array使用方法.values,在可视化过程中尽量用np数组的形式3.%matplotlib inline 图是嵌入在notebook里面的不是跳出来一个框的形式4.matplotlib.pyplot作图的子模块5.x = np.arange(0., 1...
2018-04-19 16:22:51
852
原创 pandas操作总结
1.如何转换数据类型:dollarizer = lambda x: float(x[1:])chipo.item_price = chipo.item_price.apply(dollarizer)2.读取表格数据:不仅可以使用read_csv还可以使用read_tableusers = pd.read_table('https://raw.githubusercontent.com/justma...
2018-04-19 15:52:43
882
原创 python读写csv
1.python处理csv数据表import pandas as pdaa=pd.read_csv('chulihangnew20180419.csv',encoding='GBK')#注意这里的encoding有可能出错,csv是GBK或是utf-8b=aa['t3s']list=b.tolist()list_new=[]for str in list: str=str.replace('...
2018-04-19 10:58:03
148
原创 python-mysql的连接操作
1.如何用python连接数据库并进行相关操作import pymysql#数据库的相关信息dbconn=pymysql.connect(host="114.113.151.71",user="fd_data",password="fd_data",port=3306,database='financialdata')#数据库语句sqlcmd="SELECT CODE FROM tbl_fund_...
2018-04-19 10:52:03
193
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人