
知识总结
文章平均质量分 79
知识总结专栏
进击的西西弗斯
技术为矛
展开
-
神经网络算法介绍
人工神经网络(Artificial Neural Networks,ANN)最早起源于1943年,受“脑神经元学说”的启发,心理学家W·Mcculloch和数理逻辑学家W·Pitts首次提出基于神经元的数学模型,后来经过无数人的改进和完善,一直发展至今,而这发展中间经历了多次低谷,主要原因是当时的计算机算力不足。在2000年左右,随着计算机技术的成熟,神经网络迎来了迅猛发展,现如今,深度学习(深度神经网络)已经应用于自动驾驶、人脸识别、语音助理、数据挖掘等多个领域,是支撑现代社会的一项核心技术。原创 2022-01-31 19:09:14 · 7425 阅读 · 0 评论 -
一文搞懂线性回归和逻辑回归
1.线性回归(Linear Regression)1).介绍线性回归是机器学习中最基础、最经典的算法之一,它利用线性函数对一个或多个自变量和因变量之间关系进行建模,建模过程就是使用数据点来寻找最佳拟合线。线性回归分为两种类型:单变量线性回归(Linear Regression with One Variable),一个自变量和一个结果变量,能在二维平面可视化;和 多变量线性回归(Linear Regression with Multiple Variables),至少两组自变量。有一点需要注意,“线原创 2021-11-08 22:29:02 · 5522 阅读 · 0 评论 -
pandas dataframe和spark dataframe处理大数据的一点建议
遇到问题我有一个15GB的Hive表,我想用pandas处理,于是我在pyspark中用spark.sql()读入为spark dataframe,然后使用pandas_df = spark_df.toPandas()命令将spark dataframe转换为pandas dataframe,但这个时候报错:org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow. Available: 0, require.原创 2021-11-02 18:27:35 · 1734 阅读 · 0 评论 -
Mac下python安装xgboost不踩坑方案
遇到的困难Python的xgboost库由于其自身的特殊性(底层基于C++),导致安装过程困难重重,Win系统相对容易,但是Mac比较麻烦我试了用pip命令安装:pip install xgboost,安装失败,报错,根据报错原因去网上搜索解决方法,然后解决的过程又遇到新的问题,又解决新问题的时候又报错……(比如要安装gcc,libomp,cmake,还要配置环境变量,很繁琐而且地狱难度)又尝试了conda安装,还是和pip差不多,各种问题,解决问题的同时又带来新问题又尝试了直接git clone.原创 2021-09-26 23:06:50 · 840 阅读 · 0 评论 -
Mac终端shell查看及修改默认python版本
首先,查看当前默认Python及环境,了解情况在shell中输入以下命令来查看当前python解释器的默认调用路径:which python 输出结果(不同设备可能不同):/usr/bin/python在shell中逐行输入下面命令,调用python并查看python解释器和模块库包的调用路径:python3import syssys.path 输出结果:(不同设备结果不同)['/Library/Developer/CommandLineTools/Library/Framewo.原创 2021-09-25 23:27:44 · 2639 阅读 · 0 评论 -
Python机器学习建模的标准流程(特征工程+建模调参+模型评估+全流程可视化)
作者优快云:进击的西西弗斯本文链接:https://blog.youkuaiyun.com/qq_42216093/article/details/116994199版权声明:本文为作者原创文章,转载需征得作者同意如今机器学习炙手可热,而对于数据分析师或是从事数据相关的工作者而言,Python是一种最常用的机器学习实现方式。本文将从实践的角度出发,以经典的泰坦尼克号幸存者数据集为例,以sklearn为主要工具,全面细致地讲解Python机器学习建模的标准化流程。1. 特征工程特征工程,就是将原..原创 2021-09-13 19:06:59 · 3870 阅读 · 1 评论 -
随机森林算法介绍
1. 概述随机森林(Random Forests,RF),是由多棵决策树构成的集成算法,用来做分类预测,属于有监督学习,其输出的类别是由每个树输出类别的众数而定。当今在业内有着极为广泛的应用场景,从市场营销到医疗保健保险,再到用户画像和广告推荐算法,性能强大且应用广泛。2. 信息论和决策树这部分是背景知识,涉及一些基础理论知识,不想深入了解的话可以跳过,不影响后续算法实现2.1 信息论原理什么是信息?信息就是用来消除不确定性的度量。信息论是为解决信息传递问题而建立的理论,是数据挖掘的基础理.原创 2021-09-09 10:57:14 · 10126 阅读 · 0 评论 -
机器学习模型常用评估方法和指标
1. 学习曲线学习曲线是一种用来检测机器学习算法运行是否正常,或者改进算法模型的有效工具。它以横轴表示训练集的样本数量,纵轴表示误差(代价函数的大小,也表示预测准确率),在同一个坐标图上,分别绘制出训练集的代价函数随样本数递增的波动曲线和交叉验证集的代价函数随样本数递增的变化曲线。(1).低偏差、低方差(恰当拟合)的学习曲线:特点:随着训练样本数的增加,训练集误差曲线缓慢上升,验证集误差曲线缓慢下降。最终它们逐渐趋于水平,且保持一个较近的间隔。(2).高偏差(欠拟合)的学习曲线:.原创 2021-08-08 17:44:24 · 2390 阅读 · 0 评论 -
概率论完整知识汇总(值得收藏)
概率论只不过是把常识用数学公式表达了出来。——拉普拉斯一、随机事件与概率1.样本空间一个随机试验,每一个可能出现的结果称为一个样本点,全体样本点组成的集合称为样本空间(Ω)例:抛一枚均匀硬币2次,正反面结果样本空间Ω={正正、正反、反正、反反} 2.基本事件只有一个样本点的事件称为基本事件3.事件之间的运算关系A⊂B\mathrm{A} \subset \mathrm{B}A⊂B:事件A包含于事件B中A=B\mathrm{A}=\mathrm{B}A=B:事件.原创 2021-07-17 23:26:59 · 4009 阅读 · 0 评论 -
Python数据可视化整理
文章目录1.配置问题2. 简单绘图3.使用面向对象方式绘图4.Figure类和Axes类语法实例5.subplots()函数创建多子图语法实例6.轴刻度限制语法7.双轴设置语法实例8.条形图语法实例对普通条形图进行一下优化并列条形图(通过平移每个x值做两次bar图实现)实例堆积条形图(通过bar()的bottom参数二次作图基底设为第一次的高度来实现)示例9.饼图语法实例10.散点图实例11.直方图和密度曲线语法实例12.关键词频统计语法实例13.Andrews曲线1.配置问题字体乱码问题:找到文原创 2021-05-18 18:41:34 · 1173 阅读 · 0 评论 -
Pandas库常用语法
1.数据帧Dataframe数据帧DataFrame是二维数据结构,即数据以行和列的表格方式排列,可以看作由多行或多列Series格式数据组成。pandas中的DataFrame可以使用以下构造函数创建:pandas.DataFrame( data, index, columns, dtype, copy)参数:data:数据采取各种形式,如:ndarray,series,map,lists,dict,constant和另一个DataFrameindex:行标签索引,可缺省值,缺省时默认为np原创 2021-05-18 18:18:18 · 835 阅读 · 0 评论 -
机器学习常用算法归详细纳整理
作者:进击的西西弗斯本文链接:https://blog.youkuaiyun.com/qq_42216093/article/details/115587741版权声明:本文为作者原创文章,未经作者同意禁止转载或盗用(没写完!持续更新中!)一、机器学习及其算法分类高清原图链接:https://img-blog.csdnimg.cn/20210505230045263.png1.介绍机器学习(Machine Learning) 是实现人工智能(Artificial Intellige..原创 2021-05-06 01:49:14 · 1517 阅读 · 0 评论