
Python与数据分析
文章平均质量分 58
内容涉及python语言和基于py的数据挖掘内容;
A叶子叶
大数据平台、数据仓库、数据分析/挖掘、应用开发、深度学习、爬虫
展开
-
Python后端框架(二):使用vue和tornado开发股票展示/分析系统
前端vue-element-admin已经上手,基于python的tornado框架开发股票分析后台,拿到akshare的数据,定时任务写入mysql,前端表格展示,能结合vue,echarts,tornado,pandas,seaborn等涉及过的知识,是个练手的好项目。torndb适配python3tornado的torndb模块没有适配python3,首先把它适配,修改torndb.py如下:#!/usr/bin/env python## Copyright 2009 Faceboo原创 2022-05-21 14:16:53 · 1408 阅读 · 1 评论 -
Python后端框架(一):Tornado的使用
python和javascript是轮子王语言,容易上手出机会,tornado开发代码量介于bottle和django之间,简单易用,异步特征,引入web和ioloop就可以用,如下:# -*- coding:utf8 -import tornado.webimport tornado.ioloopimport tornado.genfrom concurrent.futures import ThreadPoolExecutorimport tornado.concurrentimpor原创 2022-05-16 14:32:07 · 1225 阅读 · 1 评论 -
数据挖掘算法和实践(二十七):Python基础知识再整理
磨刀不误砍柴工,python刷题比java写起来更得心应手,语言越高级,底层细节越隐晦,再系统记录一下,方便后续查找;原创 2021-03-17 19:38:00 · 7167 阅读 · 11 评论 -
python爬虫(五):提高csdn博客访问量(ip proxy)
上面一篇被ban了,重写,针对爬虫首先声明只是哥玩具爬虫,得到自己的所有博客地址,然后随机访问;思想很简单,包含了2个类IPSpyder和优快云类,前者保证一周内get一次ip代理到本地,后者包含3个方法负责随机读取博客,getBlogList()方法的输入是个人博客的主页地址,输出是个人博客所有的链接,getBlogTitleAndCount()的输入时单个博客的url地址,拿到当前博客的访问量和标题,输出;IP代理的爬虫参考:爬取IP代理import requestsimport..原创 2021-01-25 18:04:56 · 9153 阅读 · 34 评论 -
python爬虫(五):博客spider
针对爬虫首先声明只是玩具爬虫,拿到自己博客地址,然后随机访问,最后增加TamperMonkey插件python爬虫思想很简单,包含了2个类IPSpyder和优快云类,前者保证一周内get一次ip代理到本地,后者包含3个方法负责随机读取博客,getBlogList()方法的输入是个人博客的主页地址,输出是个人博客所有的链接,getBlogTitleAndCount()的输入时单个博客的url地址,拿到当前博客的访问量和标题,输出;...原创 2021-01-25 17:20:33 · 4671 阅读 · 14 评论 -
python中常用函数总结(zip,map,filter,reduce)
一、zip它是Python的内建函数,(与序列有关的内建函数有:sorted()、reversed()、enumerate()、zip()),其中sorted()和zip()返回一个序列(列表)对象,reversed()、enumerate()返回一个迭代器(类似序列)>>> name=('jack','man','sony','pcky')>>> age=(2001,2003,2005,原创 2021-01-19 20:11:39 · 5521 阅读 · 1 评论 -
python爬虫(二):爬取B站《夏洛特烦恼》字幕,词云展示
前面说过爬虫无非是文本、图片、音频,难度依次上升,虽然爬取数据的步骤是固定的,但是细节上的处理逻辑可能不同,比如html的解析方式、反爬取的手段、分布式爬取等,本文介绍最简单文本的爬虫方式,结合数据分析和可视化能力,争取能够做到一站式数据爬取、分析、可视化,奥利给。...原创 2020-06-05 16:10:54 · 7323 阅读 · 0 评论 -
python中lambda的用法
一、lambda函数也叫匿名函数,即,函数没有具体的名称。先来看一个最简单例子:def f(x):return x**2print f(4)Python中使用lambda的话,写成这样g = lambda x : x**2print g(4)二、lambda和普通的函数相比,就是省去了函数名称而已,同时这样的匿名函数,又不能共享在别的地方调用。其原创 2016-03-25 11:25:18 · 87319 阅读 · 1 评论 -
python爬虫(四):文本、图片、视频爬取实例
上篇讲了常用的python爬虫工具,可以快速支撑我们数据的爬取--解析--分析,这里使用几个小实例,爬取过程一、文本图表数据抓取(编程语言排名)#!/usr/bin/env python#coding:utf-8import requestsfrom requests.exceptions import RequestExceptionfrom lxml import etreefrom lxml.etree import ParseErrorimport jsondef .原创 2020-06-10 16:48:55 · 7781 阅读 · 0 评论 -
python爬虫(三):爬虫常用工具包
上一篇爬取bilibili的弹幕进行图云展示,是数据爬取+数据展示结合的范例,这里将介绍爬虫的常用工具;常用工具数据爬取的3个步骤:下载数据---解析数据---分析数据,里面用到一些常用工具,requests是下载url内容,正则表达式、beautifulsoup和lxml是对html文档解析快速定位想要的内容,tqdm能够显示处理进度,ffmpy处理图像和视频流,matplotlib和seaborn对数据化; Requests requests包提供针对URL的get、put、pos.原创 2020-06-10 16:27:55 · 11005 阅读 · 1 评论 -
python中的lambda函数用法
一、lambda函数也叫匿名函数,即,函数没有具体的名称。先来看一个最简单例子:def f(x):return x**2print f(4)Python中使用lambda的话,写成这样g = lambda x : x**2print g(4)二、lambda和普通的函数相比,就是省去了函数名称而已,同时这样的匿名函数,又不能共享在别的地方调用。其原创 2020-05-19 17:20:09 · 10702 阅读 · 0 评论 -
Jupyter notebook修改默认打开路径
jupyter notebook和jupyter lab是常规数据分析的主要工具,能够保存中间数据探索结果和图片,非常的只管,notebook打开默认是在c盘的当前用户下,如何修改默认路径呢;1、打开Anaconda Prompt,并生成配置文件:原创 2019-11-25 10:08:10 · 5347 阅读 · 1 评论 -
python中的pandas小试
在实习的项目中,得到宽表后的后续工作是用R语言写的,包括数据探索,数据清洗,建模,模型分析。因为之前用过python,写过简单爬虫,就想着自己试着将R语言的脚本写成python,或许对于未来有帮组、然而,在pyhon3.5连接teradata的问题上一直搞不通、、、所以,只能先学一下pandas之类的基础了,本来想法是直接将R语言改成python,简单粗暴的方法也是最有效的做法。一、p原创 2016-06-30 17:36:56 · 7485 阅读 · 0 评论 -
python的pandas处理数据第一次
一、这是kaggle上面的泰坦尼克号题,看帖子上有数据探索过程,照着做了一下,感觉跟R差不多,应该是我还没有深入学吧。二、matplotlib的作图子包pyplot先学一下,plt.figure()是定义一个图像,再用figure.add_subplot()方法增加子图,设置图的排列顺序。import pandas as pdimport matplotlib.pyplot as pl原创 2016-07-02 10:36:12 · 6655 阅读 · 0 评论 -
python常用函数(zip,map,filter,reduce)
一、zip它是Python的内建函数,(与序列有关的内建函数有:sorted()、reversed()、enumerate()、zip()),其中sorted()和zip()返回一个序列(列表)对象,reversed()、enumerate()返回一个迭代器(类似序列)>>> name=('jack','man','sony','pcky')>>> age=(2001,2003,2005,原创 2016-03-25 10:47:34 · 5771 阅读 · 0 评论 -
python中字典(dict)常见用法
一、字典的基本操作1、如何访问字典中的值?adict[key] 形式返回键key对应的值value,如果key不在字典中会引发一个KeyError。2、如何检查key是否在字典中?a、has_key()方法 形如:adict.haskey(‘name') 有–>True,无–>Falseb、in 、not in 形如:'name' in adict 有–>True原创 2016-03-25 09:09:09 · 6992 阅读 · 0 评论 -
python中元组(tuple)用法总结
一、tuple也是一个class,是不可变的list类型,不可以增删改。创建:tup1 = ('physics', 'chemistry', 1997, 2000);tup2 = (1, 2, 3, 4, 5 );tup3 = "a", "b", "c", "d";访问:(与list一样)tup1[1:5];修改:不可以修改,只能增加新的部分;tup3 = tup1原创 2016-03-25 08:33:24 · 95788 阅读 · 0 评论 -
python中字符串(str)的常用处理方法
str='python String function'生成字符串变量str='python String function'字符串长度获取:len(str)例:print '%s length=%d' % (str,len(str))一、字母处理全部大写:str.upper()全部小写:str.lower()大小写互换:str.swapcase()首字母大原创 2016-03-24 22:21:08 · 59916 阅读 · 1 评论 -
python中list总结
一、list可以看做是一个数据结构,也是一个class,用help(list)可以看见其方法,元素的增删改查都有各种现成的方法,二、list操作包含以下函数:1、cmp(list1, list2):比较两个列表的元素 2、len(list):列表元素个数 3、max(list):返回列表元素最大值 4、min(list):返回列表元素最小值 5、list(seq原创 2016-03-24 21:54:39 · 5573 阅读 · 0 评论 -
python3基础
python虽然是很好入门的编程语言,但总是有一种飘飘然的感觉,一般情况,学习编程语言最基本的就是它的数据类型,基本运算符,容器,IO,线程,但是回想一下python,什么都想不起来,连基本数据类型都说不上来,只记得用过它的包 而且,在python数据处理包中,每种不同的包也定义了不同的数据类型,比如numpy的ndarray,pandas里面的DataFrame和Series。 先总结一下py原创 2016-07-07 16:30:13 · 5754 阅读 · 0 评论 -
排序,数据结构-python
一、几种基本排序算法1、冒泡class pop: def __init__(self,val): self.val=list(val) def getpop(self): val=list(self.val) for i in range(len(val)-1): for j in range(i+1,原创 2016-09-17 13:16:15 · 6217 阅读 · 0 评论 -
python爬虫(一):抓取衣服图片
一、python中的线程复杂度较高,不提倡用,看了几个视频,觉得跟Java的定义和使用方式大同小异,不得不说,python和Java的相似度还是蛮高的。用python多线程的地方:抓取网页时候url分析、数据库连接池。二、python中的正则表达式与别的语言一样,在抓取网页的时候分析url地址中常常被使用。只有将其用在实战的场景中才会去想怎么用好,为了不至于博文太空虚,还是贴一下,原创 2016-04-18 14:33:00 · 6743 阅读 · 0 评论 -
Python中读写文件
你想通过python从文件中读取文本或数据。一.最方便的方法是一次性读取文件中的所有内容并放置到一个大字符串中:all_the_text=open('thefile.txt').read()#文本文件中的所有文本all_the_data=open('abinfile','rb').read()#二进制文件中的所有数据原创 2016-04-11 15:10:03 · 5576 阅读 · 0 评论