- 博客(73)
- 收藏
- 关注

原创 生活全方面资源共享(不断更新)
身边的朋友经常对我说:“XXX,你不是程序猿吗,你不是爬虫很厉害嘛!能不能帮我找找书籍资源 \ 电影资源 \破解软件 \网上教学视频"等等,于是就有了创建这份资源文件的想法,希望可以帮到更多人。https://mp.weixin.qq.com/s/phwAGFMKJfaO5ALTXBE0XA...
2020-10-16 12:21:12
514

原创 基于知乎关键词爬虫
# -*- coding: utf-8 -*-"""Created on Mon Dec 25 10:34:27 2017@author: gzs10227"""import urllib,urllib2,re,jsonimport requestsurllib.getproxies_registry =lambda:{}import sysstderr = sys.stde
2018-01-22 17:09:02
2322
1

原创 机器学习之验证码识别
项目背景:之所以做这个其实很久就有这个想法了,因为搞爬虫有大半年了,怕热很多网站,也模拟登陆了许多网站,包括知乎微博等,但是有个问题是,当我们遇到验证码的时候,就需要人工打验证码了,特别是用selenium登录新浪手机端的时候,每次都需要人为打验证码,感觉还不够全自动。所以就有了这个摸索。---------------------------------------------------
2017-03-24 10:50:32
18000
3

原创 趣味算法之泊松分酒
有一个12品脱(pint)的酒瓶,里面装满葡萄酒,另有8品脱和5品脱的瓶子各一个。问如何从中分出6品脱的酒出来?传说泊松年轻时成功解决了该问题,勾起了他对数学的兴趣而投身数学研究,因此该问题被称为泊松分酒问题。另外这个问题又被称为分油问题啦,分水问题啦等等。小学的时候在一本《十万个问什么——数学卷》中看到过这个问题,那本书直接给出了一个解答过程,又没说原理,看得我糊里糊涂。
2017-01-18 21:11:08
6342

转载 python中的jieba分词使用手册
jieba“结巴”中文分词:做最好的 Python 中文分词组件"Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module.Scroll down for English documentation
2016-12-08 18:15:13
38221
2

原创 linux下安装录制视频软件Simple Screen Recorder
用户安装,有PPA可用,支持Ubuntu 14.10、14.04、12.04等系统及其衍生版本,打开终端,输入命令: sudo add-apt-repository ppa:maarten-baert/simplescreenrecorder sudo apt-get update sudo apt-get install simplescreenrecorder打开
2016-11-09 20:49:57
5154
原创 用好这些小工具,基金可以更赚钱
4.7万投资变137万元故事的主人公是一位姑娘的妈妈,2003年在某基金成立时买入了4.7万元基金份额,不久后这位妈妈便忘记了这笔钱的存在,由于买入时采用了红利再投资,所以她持仓的单价更低,持仓份额反而增加了。2020年10月14日,这位妈妈欣喜地发现她遗忘了17年的这只基金,总资产已经高达137万元,持仓收益高达132.3万元,持仓收益率接近28倍!网友看到这故事纷纷表示柠檬酸,但在这里学长要告诉大家并不是所有基金在经历如此长时间之后就有如此回报,首先得选对好基。俗话说:“工...
2020-10-23 15:10:57
837
原创 OMG!程序猿小哥是如何做到基金收益率高达26.03%?
理财即理生活相信大家都听说“你不理财,财不理你”这句话,可能很多人看到这句话第一反应就是我都没有钱,谈何理财啊!其实不然,日常记账也是理财的一部分,虽然记账这件小事很细碎但非常重要,而恰恰大部分的人都没有记账的意识与习惯。在这个通货膨胀日益严重的时代,越来越少的人会把钱存在银行,因为银行的利息无法跑赢通货膨胀(包括余额宝)。那大家会把钱放哪去呢?买股票、买基金或进行实业投资。基金之路小豪学长是如何走上基金理财这条路的呢?缘于大三的时候在一家互联网公司实习,在一次偶然的机会听到身边的同事们在.
2020-10-22 10:21:12
707
原创 虎牙与斗鱼合会对直播行业格局带来怎样的影响?
合并影响平台:意味着游戏直播行业到了天花板,从用户增长阶段变成利润增长阶段。主播:天价的主播签约不会再有,不存在平台互挖主播,主播会越来越依赖于平台,主播们没法像以前一样任性,想播就播,不想播睡觉。用户:对于广大用户来说,也许免费看直播的时代过去了,可能某些热门场次的直播会收费了。01用户增长阶段转变利润增长阶段经历了用户增长阶段,目前虎牙与斗鱼平台月活均超过1.5亿,占中国网民数16%;面对庞大的带宽费用以及主播的签约费、公司运营费用等,如何流量变现成...
2020-10-20 10:18:18
1099
原创 深夜街头被偷拍的扎心瞬间:成年人的体面,都是易碎品
图摄于晚上10点下班后的科韵路公交车站导读:成年人的世界没有容易二字,不同职业不同年龄阶段都承担着"不应有"的压力与责任,庆幸自己目前所处阶段,在上有老下有小的阶段到来之前还可以有说走就走的旅行。2020年已经快过去了。一场疫情过后,朋友圈里无数人哀嚎着“来年请对我好一点”;微博上大家又心照不宣地转起了各式锦鲤,祈祷明年能有好运气。只是转头看着年底的KPI、银行卡上的余额数字,心里比谁都清楚,生活哪有那么容易“放过你”。光鲜亮丽、令人艳羡的,始终只...
2020-10-17 12:27:07
4556
原创 【干货】数据分析师的真实写照
一、数据分析师有哪些要求?1、理论要求及对数字的敏感性,包括统计知识、市场研究、模型原理等。2、工具使用,包括挖掘工具、数据库、常用办公软件(excel、PPT、word、脑图)等。3、业务理解能力和对商业的敏感性。对商业及产品要有深刻的理解,因为数据分析的出发点就是要解决商业的问题,只有理解了商业问题,才能转换成数据分析的问题,从而满足部门的要求。4、汇报和图表展现能力。这是临门一脚,做得再好的分析模型,如果不能很好地展示给领导和客户,成效就大打折扣,也会影响到数据分析师的职业晋升。...
2020-10-15 15:43:09
299
原创 bilibili网站爬虫
# -*- coding: utf-8 -*-"""Created on Mon May 07 11:05:49 2018B站爬虫:功能: 1 获取评论人数,点赞数,用户个人信息及评论等等@author: Alis"""import re,timeimport requestsimport osimport jsonheaders = {'user-agents':'U...
2018-05-07 12:53:24
2599
原创 电影资源搜索助手2
新加功能,按什么保存文件;多个网址搜索资源# -*- coding: utf-8 -*-"""Created on Tue Jan 30 17:01:26 2018@author: gzs10227搜索电影资源"""import re,osimport requestsimport time,datetimeimport urllibimport sysstderr
2018-01-31 17:51:38
2281
原创 搜索电影资源小助手
女朋友说经常找不到电影资源看,最近准备离职比较闲,所以做了一个小助手。版本1:只有搜索电影磁力链接的功能,慢慢增加功能# -*- coding: utf-8 -*-"""Created on Tue Jan 30 17:01:26 2018@author: gzs10227搜索电影资源"""import re,osimport requestsimport time,
2018-01-31 11:57:06
6280
原创 搜索电影资源
# -*- coding: utf-8 -*-"""Created on Tue Jan 30 17:01:26 2018@author: gzs10227搜索电影资源"""import reimport requestsimport time,datetimeimport pandas as pdimport urllibfrom uuid import getnod
2018-01-30 19:42:25
1861
原创 毕业设计之数据获取【人民网】
"""Created on Fri Jan 19 18:58:41 2018人民网新闻爬虫@author: gzs10227"""import sysstderr = sys.stderrstdout = sys.stdoutreload(sys)sys.setdefaultencoding('utf8')sys.stderr = stderrsys.stdout = st
2018-01-23 15:35:04
923
原创 获取访问网址出去ip
def getip(): def visit(url): opener = urllib2.urlopen(url) if url == opener.geturl(): str = opener.read() return re.search('\d+\.\d+\.\d+\.\d+', str).group
2017-08-25 17:47:44
17934
原创 结巴分词词性
jieba为自然语言语言中常用工具包,jieba具有对分词的词性进行标注的功能,词性类别如下:Ag形语素形容词性语素。形容词代码为 a,语素代码g前面置以A。a形容词取英语形容词 adjective的第1个字母。ad副形词直接作状语的形容词。形容词代码 a和副词代码d
2017-08-17 19:59:14
1947
原创 wordcloud词云使用
# -*- coding: utf-8 -*-"""Created on Wed Aug 16 13:53:52 2017@author: gzs10227"""from os import pathfrom scipy.misc import imreadimport matplotlib.pyplot as pltfrom wordcloud import WordClo
2017-08-16 16:05:39
877
原创 网易游戏数据挖掘实习生面试经历
继周二的笔试过后,周五下午迎来了笔试通过(恰好是学院拍毕业照),邀请面试的短信。睡醒后看到短信时还是蛮开心的,毕竟笔试过了,多少给自己增添信心。周六中午面试,也就是说我还有大概8个小时的时间复习巩固准备面试;于是又把十大算法给过了一遍,不要求可以推导出来,但是最基本的要把算法原理弄懂,还根据岗位要求特意去了解了网易的游戏、藏宝阁、花田交友、网易直播等产品。还让永奕大佬指点一二,因为他之前在网易实习
2017-05-03 19:46:53
5208
原创 网易游戏数据挖掘实习生笔试经历
记录一下自己神奇般拿到网易游戏offer的经历:不知在哪看到网易游戏招数据挖掘实习生,于是抱着试一下的心态就投了简历,当然在我看来,应该是可以过简历筛选关的。收到笔试通知的时候,那时候异常忐忑啊,因为之前笔试被唯品会虐惨了,主要是一个SQL题一个函数没有想起,全道SQL题GG,然后就狂补啊,包括常见的十大数据挖掘算法以及SQL。然后就去笔试了(周二)。(看到题目的时候,心里还是很谢天谢地的,因
2017-05-03 19:15:41
6692
原创 机器学习之评估指标
分类混淆矩阵1True Positive(真正, TP):将正类预测为正类数.True Negative(真负 , TN):将负类预测为负类数.False Positive(假正, FP):将负类预测为正类数 →误报 (Type I error). False Negative(假负 , FN):将正类预测为负类数 →漏报 (Type II error).精确率
2017-04-26 11:13:20
562
原创 中文分词算法总结
什么是中文分词众所周知,英文是以 词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来 才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学
2017-04-18 20:00:08
565
原创 浅谈机器学习中的特征缩放
引言在运用一些机器学习算法的时候不可避免地要对数据进行特征缩放(feature scaling),比如:在随机梯度下降(stochastic gradient descent)算法中,特征缩放有时能提高算法的收敛速度。下面我会主要介绍一些特征缩放的方法。什么是特征缩放特征缩放是用来标准化数据特征的范围。机器算法为什么要特征缩放特征缩放还可以使机器学习算法工作的更好。比如在K近邻
2017-03-28 16:24:49
1407
转载 [Python]项目打包:5步将py文件打包成exe文件
1.下载pyinstaller并解压(可以去官网下载最新版):http://nchc.dl.sourceforge.net/project/pyinstaller/2.0/pyinstaller-2.0.zip2.下载pywin32并安装(注意版本,我的是python2.7):http://download.youkuaiyun.com/download/lanlandechong/436
2017-03-22 14:14:15
818
原创 机器学习--sklearn的常见使用
from sklearn.naive_bayes import GaussianNBclf = GaussianNB() #训练模型clf.fit(features_train,labels_train) pred = clf.predit(features_test) #给出测试变量,预测结果from sklearn.metrics imp
2017-03-11 15:54:26
1152
转载 sklearn常用模块及类及方法----机器学习Python
常见机器学习模型 所在的位置补充StandardScalersklearn.preprocessingLabelEncodersklearn.preprocessingtrain_test_splitsklearn.cross_validation方法(小写)PCAsklearn
2017-03-06 17:58:38
1429
转载 从头开始实现神经网络:入门
本文中我们会从头实现一个简单的3层神经网络。我们不会推导所有的数学公式,但会给我们正在做的事情一个相对直观的解释。我也会给出你研读所需的资源链接。这里假设你已经比较熟悉微积分和机器学习的概念了。比如,你知道什么是分类和正则化。当然你也应该了解一点优化技巧,如梯度下降是如何工作的。但是即使你对上面提到的任何一个概念都不熟悉,你仍然会发现本文的有趣所在。但是为什么要从头实现一个神经网络呢?即使
2017-03-04 16:41:04
718
原创 神经网络激活函数--tanh双曲正切函数
Tanh 是双曲正切函数,是三角学中普遍使用的Tan 圆函数的双曲类比.Tanh[α] 定义为对应的双曲正弦和双曲余弦函数的比值,即 via .Tanh 也可以定义为,其中 是自然对数Log 的底数.当变量是有理数的(自然)对数时,Tanh 会自动计算出精确值. 当给出精确数值表达式作为变量时,Tanh 可以算出任意精度的数值结果. TrigFactorList
2017-03-04 16:11:04
10003
原创 微博爬虫之问题种种
好不容易模拟登陆上了微博,想着可以好好执行我的爬虫之旅了,然而并没有,,,,,,一个微博账号以及一个IP地址不能爬太多信息,否则微博会当成机器人(事实也是机器人,哈哈),于是上万能的淘宝买了两个微博账号想着拿来轮换登陆爬信息,GG,在微博页面上是可以的登陆的,然而在代码上获取微博网页代码却不可以,想着应该是买的账号有问题,于是用了同事的小号,结果是可以的。但是这也只是解决账号问题,反爬好像是看IP
2017-03-03 10:42:05
2663
原创 微博模拟登陆
因公司需求,需要爬取微博相关大v的账号以及相关信息,一开始是直接爬取,发现只可以爬取10条数据(没有登陆的情况下),所以就涉及到模拟登陆。import requestsimport jsonimport base64from lxml import etreefrom bs4 import BeautifulSoupimport timedef login(username, p
2017-02-23 10:19:05
1160
原创 趣味百题之趣味变幻
# -*- coding: utf-8 -*-"""Created on Tue Jan 17 15:01:35 2017@author: alis趣味变幻"""#1.将一个正整数分解质因数。例如,输入90,打印出90=2*3*3*5def fun1(n): Z = n res = [] k=2 while
2017-01-18 21:39:02
587
原创 趣味百题之逻辑推理
# -*- coding: utf-8 -*-"""Created on Sun Jan 15 20:46:14 2017@author: alis"""# 1.斐波那契数列,求前面25项def fibona(n): a = [1] * n for i in range(2,n): a[i] = a[i-1] + a[i-2]
2017-01-15 22:26:22
791
原创 趣味百题之趣味猜想
# -*- coding: utf-8 -*-import sysreload(sys)sys.setdefaultencoding("utf-8")"""Created on Wed Dec 07 18:43:25 2016趣味百题之趣味猜想@author: onlyyo"""# 1.'''角谷猜想的内容为:任意给定一个自然数,若它为偶数则除以2,若它为奇术则乘3加1,
2016-12-14 19:47:19
709
原创 趣味算法之趣味分数
# -*- coding: utf-8 -*-"""Created on Wed Dec 07 18:43:25 2016趣味百题之趣味分数@author: onlyyo"""# 1.求任意两个整数的最大公约数def fun(n,m): if n > m: n,m = m,n while True: m,n = n, m%
2016-12-07 20:35:14
3721
原创 使用py2exe对Python文件进行封装生成exe文件
问题来源于这周要做密码学课程设计,虽然用Python实现了图形界面化,但是后面想想没有安装Python的人怎么用是个问题?于是有了这篇文章!一、简介py2exe是一个将python脚本转换成windows上的可独立执行的可执行程序(*.exe)的工具,这样,你就可以不用装python而在windows系统上运行这个可执行程序。py2exe已经被用于创建wxPython,Tkin
2016-12-01 18:54:04
1768
原创 趣味问题之趣味数学
# -*- coding: utf-8 -*-"""Created on Sun Nov 20 19:48:23 2016@author: alis趣味问题之趣味数学"""#1.有4个砝码,总重量是40克,砝码的质量是整数,且各不相等。# 请确定它们的质量,使之能称出1~40克任何整数质量的物体。def fun(m, n): a = [] index = n
2016-11-22 21:20:30
1451
原创 解决下载妹子网图片数据不全的两种方法
方法一:# -*- coding: utf-8 -*-"""Created on Tue Nov 22 02:24:33 2016@author: alis"""import urllib,urllib2import timeimport tracebackbegin = time.clock()x = 0b = '/media/alis/个人文件资料/Spider/M
2016-11-22 15:48:49
3682
原创 爬取素材网的妹子图片
这几天心血来潮想研究研究一下scrapy,想测试下其在linux下爬取的速度,于是选取了妹子网来练手(之前爬过),但是获取的链接的竟然在解析下载图片时出现错误,于是换了一个素材网站!话不多说,贴上代码:# -*- coding: utf-8 -*-"""Created on Mon Nov 21 23:14:09 2016@author: alis"""from scrap
2016-11-22 15:43:19
1671
原创 linux下的sublime text不能写中文解决办法
1、保存下面的代码到文件sublime_imfix.c(位于~目录)#include void gtk_im_context_set_client_window (GtkIMContext *context, GdkWindow *window){ GtkIMContextClass *klass; g_return_i
2016-11-20 13:06:04
928
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人