
机器学习方法
南楚巫妖
且试新茶
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark的官方例子,集合了JAVA和SCALA双版本
这里是我把JAVA和SCALA双语言的Spark实现源码集成起来,上传到Github上面 免得之后换新电脑忘记了。 https://github.com/yingdajun/realrealsparkdemo原创 2022-05-03 21:30:58 · 1569 阅读 · 0 评论 -
动手掌握数据分析Task1
前言 今天是系统学习数据挖掘分析的Task1天。 该课程需要搭配joyful-pandas课程进行学习。 joyful-pandas的链接为: https://gitee.com/panjoe/joyful-pandas?_from=gitee_search 目的 本课程的目的是通过参与kaggle的泰坦尼克号的比赛,掌握数据挖掘技术。 本课程的主要内容分为1.数据基础操作 2.数据清洗与重构 3.建模与评估 实验环境 本次博客是通过研究数据基础操作,实验环境是使用jupyter notebook环境,使用原创 2021-07-13 22:30:30 · 269 阅读 · 0 评论 -
文本挖掘技术学习
微信公众号《Social Listening与文本挖掘中》的“”文本挖掘从小白到精通“”学习笔记源码 项目链接在: https://github.com/yingdajun/Text-Mining原创 2020-11-10 21:13:14 · 271 阅读 · 0 评论 -
面向机器学习的特征工程 书籍数据分享
面向机器学习的特征工程 这本书的码云地址在这里: https://gitee.com/www.ydj.com/fe4ml-zh 喜提神物原创 2020-07-09 15:30:28 · 683 阅读 · 0 评论 -
中文文本分类算法大汇总。
这是我将文本分类算法作为大包装,然后得到的作品。 1.数据预处理 2.文本分类算法模型管道搭建。 (1)机器学习模型 (2)深度学习模型原创 2020-07-02 19:24:55 · 2319 阅读 · 0 评论 -
利用fastnlp做文本分类
微博情感文本二分类数据测试: https://github.com/yingdajun/fastnlpTextClassDemo 微博情感文本多分类数据测试: https://github.com/yingdajun/fastnlpweiboMultClassDemo 垃圾邮件数据集测试: https://github.com/yingdajun/fastnlprabishDemo 评论分类数据测试: https://github.com/yingdajun/fastnlptaobaoComm原创 2020-06-18 20:54:01 · 798 阅读 · 0 评论 -
利用fastnlp做的第一个中文情感分析Demo
项目数据集源码在这里: https://github.com/yingdajun/-fastnlp-Demo 这里是通过借鉴这篇博客: https://www.jianshu.com/p/70c37deaac26 然后在此基础上进行改进。 1.导入包+初始化 #导入Pytorch包 import torch import torch.nn as nn from fastNLP.io.loader import CSVLoader dataset_loader = CSVLoader(h原创 2020-06-18 11:19:10 · 951 阅读 · 2 评论 -
一种基于复旦大学语料库文本分类的DEMO
这是我通过改进他人的算法,对中文复旦大学语料库的文本做文本分类的项目。 也是我第一次独立进行中文文本分析的小DEMO。 项目源码在这里: https://github.com/yingdajun/ML_Text_Classifiaction原创 2020-06-13 21:19:01 · 1025 阅读 · 0 评论 -
中文NLP处理用于处理的方法
""" @author: liushuchun """ import re import string import jieba # 加载停用词 with open("dict/stop_words.utf8", encoding="utf8") as f: stopword_list = f.readlines() def tokenize_text(text): tokens = jieba.cut(text) tokens = [token.strip() for to...原创 2020-06-07 16:07:55 · 656 阅读 · 0 评论 -
封装了6大模块的百度API小demo
我封装了百度语音识别、自然语言处理、图像识别等6个模块的百度人工智能API。 项目地址是: https://github.com/yingdajun/-APIdemo 有需要可以下载,有些功能需要权限。只需要新建工单申请权限即可。 ...原创 2020-04-05 09:54:48 · 323 阅读 · 0 评论 -
sklearn最简易学习教程
这是从B站看到的sklearn库学习视频复现的源码。 原有的视频链接在这里: https://www.bilibili.com/video/av87444313?from=search&seid=12753775452217800388 复现的github地址在这里 https://github.com/yingdajun/B-sklearn- ...原创 2020-03-15 17:32:27 · 582 阅读 · 0 评论 -
目前混合编程做的新作品
这是我利用混合编程为手段,C#做界面,python做运行脚本。将一些常见的python功能、NLP功能、CV功能、ML功能进行封装。 这是主界面: 目前我封装了如下功能 python功能: (1)设置国内pip安装源等功能,提高pip下载效率。 设置成功! ML功能: (2)将需要进行训练的数据集(以CSV格式,最后一列是标签),选择算法进行训练。 CV...原创 2020-03-06 12:10:29 · 392 阅读 · 0 评论 -
替换python默认安装源
默认pip安装源下载国外文件实在是贼慢,我想下载个kaggle数据集都特别困难。所以我写了这个程序。 选择对应的cell文件运行,就可以将pip默认源修改成阿里云/清华/中科大等国内镜像数据源。 https://github.com/yingdajun/-pip- 例如豆瓣的国内镜像是: import os ini = """ [global] index-url = https://...原创 2020-02-25 19:24:08 · 1018 阅读 · 0 评论 -
第一次打kaggle比赛
我打的第一次kaggle比赛,泰坦尼克存活率预测。虽然是用别人的代码去运转一波,但超越源自于模仿,我也算给自己开了一个好头。哈哈哈哈哈哈哈哈哈哈。 这里是老夫的github地址: https://github.com/yingdajun/-kaggle- ...原创 2020-02-06 21:07:00 · 677 阅读 · 0 评论 -
sklearn 第三方库包的 评估精度那个类的常见功能实现
这是我写的相关github代码,可以拿去用一波 https://github.com/yingdajun/Sklearn-原创 2019-12-04 22:35:17 · 265 阅读 · 0 评论 -
SVM多分类器的实现
这是我自己实现的SVM多分类器的Github代码,有需要自取。这是MATLAB版本的实现,以后会更新python版本的实现 https://github.com/yingdajun/SVM-原创 2019-12-03 11:23:18 · 1905 阅读 · 3 评论 -
sklearn 学习的Github地址
https://github.com/fuqiuai/learning_notes/blob/master/sklearn%E5%AD%A6%E4%B9%A0.md原创 2019-11-28 23:31:16 · 830 阅读 · 0 评论 -
机器学习应用系统设计 第六章
6.效果验证 6.1 效果验证概述 6.1.1 效果验证前过程 问题定义----假设检验---行动(开发)-----效果验证 6.1.2 离线难以验证的效果内容 经济效果 考虑系统能带来多大的利润 日志的副作用 使用含有自身预测结果偏好的数据开展实验需要高成本难的仿真系统,另外,以相同日志作为学习数据的其他预测器也将受到影响。 6.2 假设检验的框架 假设检验是效果验证的基础,...原创 2019-11-22 23:08:24 · 288 阅读 · 0 评论 -
机器学习应用系统设计 第五章
5.机器学习资源收集 5.1 资源收集 输入信息:从访问日志等提取出来的特征 输出信息:分类标签或预测值 机器学习获取数据集模式 输入信息提取模式 1 开发服务日志获取功能模块,从日志中提取(全自动方式) 2 人工浏览内容等,然后添加(人工方式) 3 自动添加信息,由人确认(自动+人工方式) 训练数据获取的5种方式 方式 1 ...原创 2019-11-22 22:42:26 · 278 阅读 · 0 评论 -
机器学习应用系统设计 第四章
4.机器学习系统的开发 机器学习系统的构成以及训练数据的日志信息收集方法 4.2系统设计 4.2.1 混淆概念 监督学习系统:批量处理+批量学习 常见处理方式和学习的组合 1.采取批量处理方式进行批次学习 2.采取批量处理方式进行逐次学习 3.采取实时处理方式进行批次学习 4.采取实时处理方式进行逐次学习 机器学习系统(基于批量处理方式) 1.采用批量处理方式的学习+通过We...原创 2019-11-22 22:06:58 · 291 阅读 · 0 评论 -
机器学习应用系统设计 第三章
3.学习成果的评价 3.1 分类的评价矩阵 准确率 (主要性能) 精确率 (以垃圾邮件为例,在预测为垃圾的邮件中,确实是垃圾邮件的比例) 召回率 (以垃圾邮件为例,在所有数据里所包含的垃圾邮件,被正确预测为垃圾邮件) F值 (良好均衡性能) 混淆矩阵 (TP,TN,FP,TN) 多类别分类的平均均值: (多类别分类的平均取值:微平均与宏平均) 微平均 精确率=(TP1...原创 2019-11-22 21:44:00 · 235 阅读 · 0 评论 -
机器学习应用系统设计 第二章
第二章 机器学习的用途 2.1 算法选择 机器学习算法分类 类别 特点 分类 利用正确解答的离散类别与输入数据的组合进行学习,预测未知数据的类别。 回归 利用正确解答的数值与输入数据的组合进行学习,从未知数据预测连续值 聚类 以某种基准对数据进行分组 降维 将高维数据映射为低维数据以便可视化或减少计算量。 其他 推荐:提示用户喜...原创 2019-11-22 20:07:13 · 253 阅读 · 0 评论 -
机器学习应用系统设计 第一章
第一章 机器学习项目流程。 1.1 如何利用机器学习 机器学习常见用途:针对于未知数据,根据以往经验,由计算机系统完成某些预测。 对未知数据进行预测,通常使用监督学习。 监督学习就是根据已知数据(训练数据)和某种算法,确定输入数据和输出数据之间的相关性(即模型),再根据建立得到的这个模型去预测未知数据的一个软件程序。 模型,就是将输入数据和输出数据之间不明显的相关性,用公式或者规则等简单...原创 2019-11-19 19:12:40 · 384 阅读 · 0 评论 -
统计学习方法第三章 K近邻法
K-NN是一种基本分类与回归方法。 输入:实例的特征向量。 输出:实例的类别(可以取多类) K-NN算法的三要素:K值的选择,距离度量,分类拒测规则。 K-NN近邻法的一个实现方法-KD树。 3.1 K近邻算法 K近邻法简单,直观:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实例分为这个类。 输入:训练数据集 ...原创 2019-11-19 16:59:32 · 325 阅读 · 0 评论 -
统计学习方法第二章 感知器
感知器属于二类分类的线性分类模型。 输入:实例的特征向量 输出:实例的类别 原理在于将实例划分为正负两类分类超平面。 属于判别模型。 通过引入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,从而求出线性化分的分类超平面。 是神经网络和支持向量机的算法基础。 2.1 模型 定义:假设输入空间(特征空间)是X∈R,输出空间是Y∈{+1,-1}。 输入表示实例的特征向量。 ...原创 2019-11-19 16:08:44 · 243 阅读 · 0 评论 -
统计学习以及监督学习概论
这里是我对这本书的总结 第一章 1.1统计学习 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的学科。 统计学习的特点 特点 1 平台 以计算机和网络为平台 2 研究对象 以数据为研究对象 3 目的 对数据进行预测和分析 4 方法 构建模型并应用模型进行预测与分析 5 学科基础 属于概率论,统计学,信...原创 2019-11-17 21:04:11 · 332 阅读 · 0 评论