Python
jp_zhou256
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
优惠券组合小例子
优惠券组合小例子优惠券的使用贯穿于我们生活的日常。"美团外卖"和"饿了么"成为大学时代的难忘记忆!如何精准凑单是门技术活,如何精准凑单以让自己获得最大满减优惠是众多小伙伴的一大需求。本文以一个小例子来实现对凑单这一场景的再现。input1:点选的n道菜肴对应的单价列表quotion=[v1,v2,v3,…,vn];input2:满减的优惠券额度man_N_jian;output:最优的凑单...原创 2018-10-10 11:25:28 · 1655 阅读 · 0 评论 -
Python面向对象的理解
python中一切皆为对象,类型的本质就是类!Python常用的数据结构如:List、tuple、dict、array、DataFrame或者Series等等都是类,类的实例就是对象。甚至连fp=open(’…/data/zhou.txt’)的句柄fp都可以作为(变量)对象传入函数。一切就是这么神奇!为了提高代码的复用性和更好的封装函数或变量的作用域,使用类再做一次封装会有用很多。1.Pytho...原创 2019-01-01 20:22:25 · 1938 阅读 · 0 评论 -
将电子书转为PDF涉及的PDF拆分合并总结
因为阅读网上的很多电子书存在翻页繁琐和查找不方便的问题,也很难在网站上做笔记。故查阅部分资料想要自己写一个小爬虫,然后可以将爬取到的电子书内容页面(html格式)最终保存成PDF格式。故编写如下爬虫代码来实现此功能。由于Python3和Python2.7的版本兼容性问题,故只在正确爬取了电子书后,我并不能将很好的将已经处理成单页的PDF文件拼接起来合成一个大的PDF文件。但是,条条大路通罗马,我发...原创 2019-01-02 23:20:09 · 1302 阅读 · 0 评论 -
Matplotlib数据可视化画图练习
本节内容转自阿里天池技术论坛。详细网址如下:https://tianchi.aliyun.com/learn/liveDetail.html?spm=5176.11510288.4851103.4.2706b7bd7jjU4d&classroomId=261 ,但是再好的博客,不如到权威官方文档学习来的实在!博客从形式上教会人例化参数,传入实参。而更深层次的学习,查看官方文档更有用,这样可...转载 2019-01-03 11:45:04 · 6336 阅读 · 0 评论 -
Apriori和FPgrowth代码实例
本文分别使用商场购物篮数据集和电影数据集来分别针对Apriori和FPgrowth进行实际的运用和学习。1.dataset:https://github.com/ywchiu/python_for_data_science 中的Data文件夹下面有具体数据。按照本文的csv文件进行读取即可。2.Apriori用于购物篮分析2.1.代码import numpy as npimport m...原创 2019-01-13 13:54:09 · 1357 阅读 · 0 评论 -
sklearn中的投票机制学习笔记
投票机制(voting)是集成学习里面针对分类问题的一种结合策略。基本思想是选择所有机器学习算法当中输出最多的那个类。机器学习分类算法的输出有两种类型:一种是直接输出类标签,另外一种是输出类概率,使用前者进行投票叫做硬投票(Majority/Hard voting),使用后者进行分类叫做软投票(Soft voting)。 sklearn中的投票机制使用VotingClassifier来实现。1....原创 2019-01-13 21:09:30 · 8226 阅读 · 0 评论 -
基于SVD分解的简易菜品推荐系统
简易推荐系统功能:1.基于物品相似度,向同一用户推荐不同的相似商品(user:items=1:N);2.基于用户相似度,将同一商品推荐给不同的未购买用户(users:item=N:1);#coding=utf-8"""简易推荐系统: 1.基于物品相似度,向同一用户推荐不同的相似商品(user:items=1:N); 2.基于用户相似度,将同一商品推荐给不同的未购买用户(u...原创 2019-04-29 20:03:15 · 1275 阅读 · 0 评论 -
DataFrame和Series练习
主要练习DataFrame的import pandas as pdzhou=[[1,2,3,4],[5,6,7,8]]df=pd.DataFrame(zhou,columns=['x1','x2','x3','x4'])df1=df.copy() #拷贝一个DataFrame的副本import osimport datetimeimport nump...原创 2019-05-01 11:25:08 · 750 阅读 · 0 评论 -
pd.read_excel()练习
# -*- coding: utf-8 -*-import pandas as pdimport numpy as npdf11=pd.read_excel("C:/Users/Administrator/Desktop/20190527/表1.xlsx")df12=pd.read_excel("C:/Users/Administrator/Desktop/20190527/表2.xls...原创 2019-05-29 19:23:17 · 3117 阅读 · 0 评论 -
10折交叉验证深入理解
交叉验证(Cross Validation),有的时候也称作循环估计(Rotation Estimation),是一种统计学上将数据样本切割成较小子集的实用方法,该理论是由Seymour Geisser提出的。在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立的模型进行预报,并求这小部分样本的预报误差,记录它们的平方加和。这个过程一直进行,直到所有的样本都被预报了一次而且仅被预报...原创 2018-12-25 15:22:08 · 68636 阅读 · 17 评论 -
Python3 PCA理解小攻略
主成分分析(Principal Component Analysis,PCA), 是一种多元统计方法,也广泛应用于机器学习和其它领域。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。它的主要作用是对高维数据进行降维。PCA把原先的n个特征用数目更少的k个特征取代,新特征是旧特征的线性组合,这些线性组合最大化样本方差,尽量使新的k个特征互不相关。关于PCA...原创 2018-12-23 17:52:26 · 1838 阅读 · 0 评论 -
Python数据分析----XX银行股票分析小娱
Python数据分析----XX银行股票分析小娱本文使用Facebook的Prophet工具对XX银行的股票进行分析和预测,just for fun!如下是分析过程中的收获和随笔记录。1. 对DataFrame类型的数据中的某一列数据进行归一化处理1.1.codeimport pandas as pdimport numpy as npimport matplotlib.pyplot ...原创 2018-11-01 22:32:05 · 2647 阅读 · 1 评论 -
2018年"华为杯"数学建模获奖名单挖掘分析
本文针对2018年"华为杯&a原创 2018-11-11 23:05:27 · 16619 阅读 · 0 评论 -
基于Bayes和SVM的垃圾邮件分类实现(改进版)
对本文标题进行分词和提取关键词,本文关键词如下:分类、垃圾邮件分类(spam)、Bayes、SVM、改进版(体现在哪里?)。本文不对Bayes、SVM原理做过多的摄入和解释,主要是使用这些算法做一个基础的baseline以供后续学习和查阅。本文主要内容是讲解以下五方面的内容:···1.分类中混淆矩阵的本质···2.垃圾邮件分类原理···3.对原始垃圾邮件内容的全套数据处理过程实现···4....原创 2018-11-26 16:49:15 · 4678 阅读 · 2 评论 -
Python3脚本实现csv文件和arff文件的相互转换
本文实现在Python3环境下,编程实现csv文件和arff文件的相互转换。本文所用数据来自于weka3.8或者weka3.9中data子目录下的airline.arff文件。使用Python代码实现airline.arff到airline.csv文件的转换(实质是信息的抽取和重新组织)和airline.csv文件到airline1.arff文件的转换(实质是行文本数据的拼接)。airline.a...原创 2018-11-30 22:29:15 · 3942 阅读 · 1 评论 -
Python3各种数据结构下的排序及去重汇总
1.List的排序;2.dict的排序;3.DataFrame和Series的排序;1.List的排序······使用 list.sort() 方法,此方法为就地排序(并且返回 None 来避免混淆)。通常来说这不如 sorted() 方便——但是当你不需要保留原始列表的时候,这种方式略高效一些。······另外一个区别是 list.sort() 方法只可以供列表使用,而 sorted(...原创 2018-12-07 23:00:45 · 590 阅读 · 0 评论 -
10折交叉验证中数据集的简易划分方式总结
DataFrame中自己手动做10折交叉验证时,实现采样出一折后,对原始的总的数据的索引集合与采样出的那一折的索引集合做差,获得另外的9折的索引用于构造训练集。"""1.10折交叉验证中数据的随机划分函数"""def cross_10folds(path,columns1): import原创 2018-12-08 18:51:31 · 9449 阅读 · 0 评论 -
构造正负样本:drug特征和atc特征和类标签
pos_sample_df是一个drug和ATC编码之间是否有associations的邻接矩阵,我需要根据这个矩阵来实现正负样本的构造。即:邻接矩阵中drug和ATC有边则用来构造正样本,无边用来构造负样本。其中有2000种drug,3000个ATC,drug和ATC的特征均为500x1,邻接矩阵中的1为正样本标签,0为负样本标签。拼接后的一个样本为1001x1的列向量。import nump...原创 2018-12-06 15:21:52 · 853 阅读 · 0 评论 -
Python3 pd.merge()使用实例
本文想要将各个国家的恐怖袭击次数(频率),按照国家编号,依次赋给原始数据中113249条记录。实现如下效果:import pandas as pdimport numpy as npimport matplotlib.pyplot as plt#读入数据data=pd.read_excel('E:/E盘备份/C盘jupyter代码备份/C2018/data/C2018mathmod...原创 2018-12-06 15:38:52 · 5661 阅读 · 0 评论 -
Python3实现二叉树的逐层遍历,并将奇数层顺序输出,偶数层逆序输出
任意给定一棵二叉树,实现对二叉树的逐层遍历,并将奇数层顺序输出,偶数层逆序输出。如建立如下的二叉树:···················root········ ·····7 ·········· 8·········6·····2······5·1······3·····4class TreeNode(object): def __init__(self,data=0,le...原创 2018-12-13 20:19:34 · 1130 阅读 · 0 评论 -
爬虫小程序
应爬取新数据的急迫需求,学习和整理如下爬虫程序供后续学习和使用!修改各个路径和URL后本代码就可以正常执行了。主要步骤:1.西刺网上爬取IP数据;2.检验爬取的IP的有效性;3.将有效IP封装在List数据结构中构造成一个IP池,每次爬取数据时,随机从IP池中选取一个IP来做代理使用,防止自己电脑被反爬虫和谐掉!4.传入有效的目标网站的URL即可访问数据。#爬取可用公网IP构建IP池,...原创 2018-12-16 22:35:13 · 1435 阅读 · 0 评论 -
logistic regression using Theano and stochastic gradient descent
本文是学习Theno教程做的网页版笔记!后续的学习过程中会重点关注如下的网站:http://deeplearning.net/tutorial/logreg.htmlhttps://www.microsoft.com/en-us/research/uploads/prod/2006/01/Bishop-Pattern-Recognition-and-Machine-Learning-2006...原创 2018-12-22 16:12:05 · 328 阅读 · 0 评论 -
Kaggle竞赛中最终成为0.3%的获奖经验
自动化数据准备及协作平台Dataland的联合创始人Lavanya Shukla,在博客上分享了她在Kaggle竞赛中最终成为0.3%的获奖经验。先放上原文地址:https://www.kaggle.com/lavanyashukla01/how-i-made-top-0-3-on-a-kaggle-competitionKaggle经典房价预测题目(Advanced Regression ...转载 2019-06-16 12:53:15 · 2306 阅读 · 0 评论
分享