
机器学习
文章平均质量分 51
fenfenxhf
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
小项目(逻辑回归)--信用卡数据异常检测
1.数据集 import numpy as np import pandas as pd import matplotlib.pyplot as plt data = pd.read_csv('creditcard.csv') print(data.head(n=5)) countClasses = pd.value_counts(data['Class'],sort=True).sort_in...原创 2018-10-04 21:22:44 · 1947 阅读 · 3 评论 -
sklearn构建决策树
1.可视化树 import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn import tree import graphviz #可视化 import pydotplus #画.dot文件 from IPython.display import Image #图片 from sklear...原创 2018-10-05 21:23:24 · 1105 阅读 · 0 评论 -
小项目(集成算法)--泰坦尼克船员获救预测
1.拿到数据集应该先分析数据(每个特征分析,缺失值等等) 2.数据预处理 首先简单看一下数据集的数据特征 import numpy as np import pandas as pd import matplotlib.pyplot as plt titanic = pd.read_csv('titanic_train.csv') print(titanic.describe()) 我们分析...原创 2018-10-06 15:39:04 · 826 阅读 · 0 评论 -
小项目--贝叶斯实现拼写检查
求解:argmaxc P(c|w) -> argmaxc P(w|c)P©/P(w) P©:文章中出现一个正确拼写词c的概率,也就是语料库中c出现的概率有多大 P(w|c):在用户想键入c的情况下敲成w的概率,也就是用户会以多大的概率把c敲错成w argmaxc:用来枚举所有可能的c并且选取概率最大的 import re #正则表达式 from collections import defa...原创 2018-10-06 21:09:41 · 298 阅读 · 0 评论 -
小项目(文本数据分析)--新闻分类任务
1.数据 import pandas as pd import jieba # #数据(一小部分的新闻数据) df_news = pd.read_table('val.txt',names=['category','theme','URL','content'],encoding='utf-8') df_news = df_news.dropna() #直接丢弃包括NAN的整条数据 print(...原创 2018-10-07 11:26:50 · 5445 阅读 · 3 评论 -
pthon时间序列分析
import pandas as pd import numpy as np import matplotlib.pyplot as plt from statsmodels.graphics.tsaplots import plot_acf,plot_pacf from statsmodels.tsa.arima_model import ARIMA #ARIMA模型 import patsy ...原创 2018-10-15 08:57:56 · 647 阅读 · 0 评论 -
小项目(Gensim库)--维基百科中文数据处理
1.下载维基百科数据 https://dumps.wikimedia.org/zhwiki/latest/ 2.预处理文件:将压缩的文件转化成.txt文件 添加脚本文件process.py,代码如下: import logging import os.path import sys from gensim.corpora import WikiCorpus if __name__ == '__...原创 2018-10-10 15:28:19 · 1339 阅读 · 1 评论