
机器学习与数据挖掘
文章平均质量分 77
传统机器学习算法如:Logistic Regression, Random Forest,Xgboost,LightGBM等supervised算法,及unsupervised算法等,以及pandas,numpy等
林子要加油
从事机器学习、NLP相关工作
展开
-
Linux、mac安装使用anaconda、jupyter、spyder
安装anacondash Anaconda3-5.2.0-Linux-x86_64.shpip升级pip install --upgrade pip查看anaconda版本conda --version使用spyder$ spyder报错Segmentation Fault,解决:需要安装pyopenglpip install pyopengl使用Jupyter$ jupyt...原创 2018-10-01 11:50:30 · 7945 阅读 · 0 评论 -
知识图谱
文章目录第一章1.1 知识图谱与语义概述1.2 典型的知识库项目1.3 知识图谱相关技术第一章1.1 知识图谱与语义概述人的知识偏重关连,web的页面是文本链接,但是对于页面中的document不能处理。要从文本链接到知识链接。知识图谱是2012年谷歌提出用于语义搜索。Knowledge Graph的发展历程:1.2 典型的知识库项目1.3 知识图谱相关技术...原创 2020-02-24 20:36:07 · 2281 阅读 · 1 评论 -
详解TF-IDF
IF-IDF概念TF-IDF是NLP中常用的方法,也比较经典。IF-IDF的思想:如果一个词在文档中出现了很多次,但是这个词在其它文档中出现的次数很少,则这个词对这篇文档很重要,在一定程度上可以代表这个文档的关键信息。所以在网页搜索、关键词提取中常用到IF-IDF。TF-IDF就是tf−idf(t,d)=tf(t,d)×idf(t)tf-idf(t,d)=tf(t,d) \times idf(...原创 2020-01-12 01:34:45 · 15558 阅读 · 0 评论 -
由浅入深的LightGBM介绍
LightGBM是2017年初Microsoft开源的高效快速、分布式学习的梯度提升树算法,可以用于分类、回归和排序。相对比陈天奇开发的XGBoost算法,更加快速、内存消耗少。将分几个部分来介绍:监督学习基础梯度提升树算法LightGBM与Xgboost对比深入理解LightGBM的直方图算法及直方图作差加速LightGBM的树生长方式——leaf-wiseLightGBM的参数...原创 2019-10-27 17:04:57 · 1523 阅读 · 0 评论 -
pands的get_dummies()与sklern的OneHotEncoder使用及性能对比
在机器学习中,处理特征的类别是一种非常常见的需求。比如手机品牌,星期,性别等等。有两种思路,一种是每个类别一个数字,也就是LabelEncoding的方式,如:周一编码1,周二编码2,周三编码3。这种处理方法的好处是处理方便。但存在的问题是每两个之间的距离是不一样的。周一与周二,周二与周三的距离为1,但周一与周三的距离为2。第二种思路为OneHotEncoding,周一为[1,0,0],周二为[...原创 2018-11-07 21:07:58 · 629 阅读 · 0 评论 -
分布式机器学习dask
文章目录Dask组成特性Install Dask分布式机器学习DaskDask是一个数据分析的并行计算的框架。已经集成了现有的框架,比如:numpy,pandas,scikit-learn,xgboost,lightGBM等API与已有框架的API一致可以扩展到上千个节点,也可以在笔记本上使用有低阶API可供用户定制化组成动态任务调度(Dynamic tas...原创 2019-05-23 21:01:40 · 1814 阅读 · 0 评论 -
学习曲线判断模型状态:欠拟合 or 过拟合
文章目录模型的方差与偏差Validation CurveLearning Curve模型的方差与偏差每种模型都有优点和缺点,一个模型的泛化误差可以分解为偏差(bias)、方差(variance)和噪音(noise)。偏差是不同训练集的平均误差,方差是对不同训练集的敏感程度,而噪音是数据本身的属性。为了使得方差和偏差最小(也就是泛化能力最大),常用的方法是选择算法(线性或非线性)及算法的超参数,...原创 2019-06-14 00:46:24 · 6921 阅读 · 0 评论 -
特征工程
单一特征的处理原创 2019-07-29 15:18:46 · 110 阅读 · 0 评论