
大数据
文章平均质量分 53
马里奥赛德
学渣
展开
-
Google三大理论(论文)
Google引爆大数据时代的三篇论文谈到Hadoop的起源,就不得不提Google的三驾马车:Google FS、MapReduce、BigTable。虽然Google没有公布这三个产品的源码,但是他发布了这三个产品的详细设计论文,奠定了风靡全球的大数据算法的基础!一,GFS—-20032003年,Google发布Google File System论文,这是一个可扩展的分布式文件系统,用于大型的、转载 2016-10-29 21:19:08 · 36142 阅读 · 5 评论 -
阿里云音乐流行趋势预测数据清洗整合——纯python,没有用数据库
经过7年的发展与沉淀,目前阿里音乐拥有数百万的曲库资源,每天千万的用户活跃在平台上,拥有数亿人次的用户试听、收藏等行为。在原创艺人和作品方面,更是拥有数万的独立音乐人,每月上传上万个原创作品,形成超过几十万首曲目的原创作品库,如此庞大的数据资源库对于音乐流行趋势的把握有着极为重要的指引作用。本次大赛以阿里音乐用户的历史播放数据为基础,期望参赛者可以通过对阿里音乐平台上每个阶段艺人的试听量的预测,挖掘出即将成为潮流的原创 2016-09-08 14:14:11 · 3833 阅读 · 1 评论 -
hadoop平台使用python编写mapreduce排序小程序
编写环境hadoop-2.6.5 python-2.7.5 xshell连接 金山云平台,一台master,3台selvet数据类型g 445a 1117b 222c 333d 444e 123f 345h 456map.py 1 #!/usr/bin/env python 2 import sys 3 list1=[] 4 for line in sys.stdi原创 2017-05-03 15:41:55 · 3654 阅读 · 2 评论 -
hadoop平台使用python编写mapreduce二次排序小程序
接上一个博文的环境 使用的是官网的专利使用数据,这里只截取了一部分3858241,9562033858241,13242343858241,33984063858241,35573843858241,36348893858242,15157013858242,33192613858242,36687053858242,37070043858243,29496113858243,原创 2017-05-05 15:15:45 · 2036 阅读 · 0 评论 -
python 字典中文key处理,读取,比较
昨天碰到的,如果键是中文,如何进行匹配呢,先看文本内容: 这是字典里两个元素的内容,编码是utf-8,中文内容 运行代码如下# -*- coding: utf-8 -*-rate1 = open('takeOffTime_date.txt', 'r')dic = dict()for line in rate1: line = line.strip().split(' ')原创 2017-08-15 20:39:55 · 24385 阅读 · 0 评论 -
cuda10.1.+cudnn7.5+tensorflow1.13.1+anaconda3-2018-12版本(python 3.7)安装
机器配置cpu:i7-4710显卡:gtx960环境配置走了数的坑,无数的百度,无数的谷歌,无数的论坛:如果你下载的是如下的安装包,现在是2019-3-5cuda_10.1.105_418.96_win10cudnn-10.1-windows10-x64-v7.5.0.56Anaconda3-2018.12-Windows-x86_64那么抱歉,我没装成功,报缺少dll的错误什...原创 2019-03-05 23:58:23 · 18831 阅读 · 25 评论 -
大数据挑战赛--文本点击率预估 正式赛初赛记录
本次比赛的一些心得和记录赛题:https://www.kesci.com/home/competition/5cc51043f71088002c5b8840/content/1赛题描述文本点击率预估(5月26日开赛)搜索中一个重要的任务是根据query和title预测query下doc点击率,本次大赛参赛队伍需要根据脱敏后的数据预测指定doc的点击率,结果按照指定的评价指标使用在线评测...原创 2019-08-24 11:30:52 · 642 阅读 · 0 评论