
大数据
MuNian123
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
译文:什么是CrateDB?
摘要:CrateDB是构建在NoSQL基础之上的分布式SQL数据库,它结合了SQL的通晓程度和NoSQL的可扩展性和数据灵活性。CrateDBCrateDB用于机器数据的分布式SQL数据库什么是CrateDB?CrateDB是构建在NoSQL基础之上的分布式SQL数据库,它结合了SQL的通晓程度和NoSQL的可扩展性和数据灵活性,使开发人员能够:使用SQL处理结构化或非结...翻译 2020-04-18 15:33:51 · 2407 阅读 · 0 评论 -
数据特征分析 - 帕累托分析法
帕累托分析法是基于帕累托法则的一种分析法。先来说说什么是帕累托法则,其原型是19世纪意大利经济学家帕累托所创的库存理论。帕累托运用大量的统计资料分析当时的一些社会现象,概括出一种关键的少数和次要的多数的理论,并根据统计数字画成排列图,后人把它称为帕累托曲线图。简单的说,帕累托法则其实就是我们常说的二八法则,在经济学定律中说的是80%的财富掌握在20%的人手中,而在运营中说的则是80%的贡献度来...原创 2020-04-16 14:49:49 · 5223 阅读 · 0 评论 -
使用矩阵分解找到相似歌曲
### 加载数据在本文中,我使用与我第一篇文章相同的[Last.fm数据集](http://www.dtic.upf.edu/~ocelma/MusicRecommendationDataset/lastfm-360K.html)。使用Pandas,你只需要几行代码,就可以把它加载到一个稀疏矩阵中:```python# read in triples of user/artist/pl...原创 2019-11-15 14:51:33 · 948 阅读 · 0 评论 -
婚礼规模:我是如何使用Twilio, Python和Google来自动化我的婚礼的
原文:Wedding at Scale: How I Used Twilio, Python and Google to Automate My Wedding2016年9月3日,对世界上的大多数人来说,或许就只是普普通通的一天,但对我而言,将会是一个难忘的日子,因为在那一天,我结婚了。在规划婚礼时,要考虑许多不同的方面。食物、装饰、桌子装置(啊,是哒,这独立于装饰)、鲜花、住宿、交通...翻译 2019-11-15 14:45:44 · 360 阅读 · 0 评论 -
美国警方致命枪击案数据可视化分析 上
import numpy as np # linear algebraimport pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)import seaborn as snsimport matplotlib.pyplot as pltfrom collections import Counter# 输入数...原创 2019-07-18 19:38:48 · 1284 阅读 · 0 评论 -
美国警方致命枪击案数据可视化分析 下
percent_over_25_completed_highSchool.percent_completed_hs.replace(['-'],0.0,inplace = True)percent_over_25_completed_highSchool.percent_completed_hs = percent_over_25_completed_highSchool.percent_co...原创 2019-07-18 19:39:31 · 1284 阅读 · 0 评论 -
视频游戏销售数据可视化
#!/usr/bin/env python# -*- coding: utf-8 -*-# File : Video_Game_Sales.py# Author: MuNian# Date : 2019/7/19import numpy as npimport pandas as pdfrom subprocess import check_outputdata =...原创 2019-07-19 15:27:53 · 877 阅读 · 0 评论 -
数据规整:聚合、合并和重塑
在许多应用中,数据可能分散在许多文件或数据库中,存储的形式也不利于分析。本章关注可以聚合、合并、重塑数据的方法。首先,我会介绍pandas的层次化索引,它广泛用于以上操作。然后,我深入介绍了一些特殊的数据操作。在第14章,你可以看到这些工具的多种应用。8.1 层次化索引层次化索引(hierarchical indexing)是pandas的一项重要功能,它使你能在一个轴上拥有多个(两个...原创 2019-08-09 13:08:19 · 446 阅读 · 0 评论 -
分析iPhone步数数据
自白书我叫Ross,沉迷于计算步数。行走的那种。这种沉迷带来的是经常性打开iPhone上的计步应用,查看步数上升,保证我的步数超过了10,000 (我妈妈说,那是一个神奇的数字)。幸运的是,在大多数的日子里,住在纽约让这个目标容易实现。在这篇文章中,我会告诉你如何使用pandas时间序列和ggplot来分析我的iPhone步数数据。我在Python中使用Rodeo来进行所有的数据科学工作,...原创 2019-09-29 13:58:19 · 1047 阅读 · 0 评论 -
使用Python和Pandas处理大量JSON数据集
处理大量的JSON数据集可能会很痛苦,特别是当它们太大而无法装入内存时。在这种情况下,命令行工具和Python的组合可以为探索和分析数据提供一种有效的方式。在这篇文章中,我们将看看如何利用像Pandas这样的工具来探索和绘制出Maryland州Montgomery郡的警察活动。我们开始会一起看一下JSON数据,然后过渡到勘探和分析。当数据存储在SQL数据库时,它倾向于遵循一个看起来像一个表的刚...原创 2019-09-29 14:01:21 · 4490 阅读 · 0 评论 -
使用BigQuery和TensorFlow进行需求预测
要开发该模型,我们将需要获得出租汽车使用的历史数据。该数据存在于BigQuery中。让我们通过查看模式开始吧。In [25]: import gcp.bigquery as bq import pandas as pd import numpy as np In [26]: %%bigquery schema --table "nyc...原创 2019-09-29 14:04:16 · 446 阅读 · 0 评论 -
短信验证发送-调用聚合第三方数据平台
import jsonimport requestsfrom urllib import parse# 创建一个接口的函数def sebdsms(appkey, mobile, tpl_id, tpl_value): ''' :param appkey: 申请的短信接口的key值 :param mobile: 接收短信的手机号码 :param tpl_...原创 2019-07-05 21:00:14 · 437 阅读 · 0 评论 -
利用主题建模挖掘在线评论的NLP方法
目录 在线评论的重要性 问题陈述 为什么要进行主题建模? Python实现 阅读数据 数据预处理 建立LDA模型 主题可视化 5.其他利用在线评论的方法6.下一步是什么?1.在线评论的重要性前几天,我用了电子商务,并在网上购买了智能手机。这款手机很好地在我的预算内,它有5以上的4.5以上的体面评级。不...原创 2019-06-22 17:28:37 · 1919 阅读 · 0 评论 -
恐怖袭击统计描述
import pandas as pdimport matplotlib.pyplot as pltimport matplotlib.patches as mpatchesimport seaborn as snsimport numpy as npplt.style.use('fivethirtyeight')import plotly.offline as pypy.init...原创 2019-06-12 14:16:36 · 1351 阅读 · 0 评论 -
王者荣耀全网皮肤小助手 -- 使用Python爬虫采集全网皮肤
import requestsimport lxml.htmlurl = 'https://pvp.qq.com/web201605/herolist.shtml'urls = lxml.html.etree.HTML(requests.get(url).content.decode('gbk')).xpath( "//div[@class='herolist-content'...原创 2019-06-19 15:08:21 · 922 阅读 · 0 评论 -
餐饮销量数据统计量分析
from __future__ import print_functionimport pandas as pdcatering_sale = '../data/catering_sale.xls' #餐饮数据data = pd.read_excel(catering_sale, index_col = u'日期') #读取数据,指定“日期”列为索引列data = data[(data...原创 2019-06-14 16:36:17 · 2466 阅读 · 0 评论 -
菜品盈利数据 帕累托图
from __future__ import print_functionimport pandas as pd#初始化参数dish_profit = '../data/catering_dish_profit.xls' #餐饮菜品盈利数据data = pd.read_excel(dish_profit, index_col = u'菜品名')data = data[u'盈利'].c...原创 2019-06-14 16:36:34 · 913 阅读 · 0 评论 -
层次聚类算法
import pandas as pd#参数初始化standardizedfile = '../data/standardized.xls' #标准化后的数据文件k = 3 #聚类数data = pd.read_excel(standardizedfile, index_col = u'基站编号') #读取数据from sklearn.cluster import Agglomer...原创 2019-06-14 16:36:08 · 295 阅读 · 0 评论 -
利用Python进行录音和音频分析
import waveimport pyaudio# 定义数据流块CHUNK = 1024FORMAT = pyaudio.paInt16CHANNELS = 2RATE = 44100# 录音时间RECORD_SECONDS = 5# 要写入的文件名WAVE_OUTPUT_FILENAME = "output.wav"# 创建PyAudio对象p = pyaudio.P...转载 2019-06-03 16:13:58 · 2986 阅读 · 0 评论 -
Scrapy设计思想
分析scrapy爬虫流程(掌握)分析目标:a. 分析各个组件的功能和作用b. 分析各个组件之间的协作关系c. 对组件进行大致的分类(核心和次要)scrapy爬虫流程分析结果(掌握)Scrapy流程分析图 三个内置对象: 请求对象(Request) 响应对象(Response) 数据对象(Item) 五个核心组件: ...原创 2019-06-15 15:10:23 · 342 阅读 · 0 评论 -
xpath
XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。使用chrome插件选择标签时候,选中时,选中的标签会添加属性class="xh-highlight"下面列出了最有用的表达式:表达式 描述 nodename 选中该元素。 / 从根节点选取、或者是元素和元素间的过渡。 // ...原创 2019-06-15 15:13:47 · 325 阅读 · 0 评论 -
通过线程池实现更快的爬虫
1. 线程池使用方法介绍 实例化线程池对象 from multiprocessing.dummy import Pool pool = Pool(process=5) #默认大小是cup的个数 把从发送请求,提取数据,到保存合并成一个函数,交给线程池异步执行 使用方法pool.apply_async(func) def exetute_requests_it...原创 2019-06-15 15:16:26 · 266 阅读 · 0 评论 -
腾讯招聘抓取
import requestsimport timeimport jsonurl = ' https://careers.tencent.com/tencentcareer/api/post/Query?'page = input('输入页码: ')for i in range(1, int(page)+1): params = { 'timestamp'...原创 2019-06-21 13:59:02 · 514 阅读 · 0 评论 -
基于 Keras 的 LSTM 时间序列分析——以苹果股价预测为例
简介时间序列简单的说就是各时间点上形成的数值序列,时间序列分析就是通过观察历史数据预测未来的值。预测未来股价走势是一个再好不过的例子了。在本文中,我们将看到如何在递归神经网络的帮助下执行时间序列分析。我们将根据过去5年的股价预测苹果公司之后的股价。数据集本文的数据可以从雅虎财经下载。我们将使用从2013年1月1日到2017年12月31日的苹果股票价格作为训练集,2018年1月的价格作为...转载 2019-06-22 17:27:48 · 3379 阅读 · 2 评论 -
下载中间件和模拟登陆
1. scrapy中下载中间件的使用 使用方法: 编写一个Downloader Middlewares和我们编写一个pipeline一样,定义一个类,然后在setting中开启 Downloader Middlewares默认的方法: process_request(self, request, spider): 当每个request通过下载中间件时,该方法被调...转载 2019-06-05 13:42:13 · 191 阅读 · 0 评论