
机器学习与大数据
chfe910
这个作者很懒,什么都没留下…
展开
-
Scrapy学习
学习Scrapy不要到网上找这种那种学习资料了,直接从官方文档开始吧(关键是中文的!):http://scrapy-chs.readthedocs.org/zh_CN/latest/intro/overview.html原创 2015-05-04 16:40:17 · 1286 阅读 · 0 评论 -
Python package安装指南
Download whls from http://www.lfd.uci.edu/~gohlke/pythonlibs/#numpypip install numpy-1.13.1+mkl-cp27-cp27m-win_amd64.whlpip install scipy-0.19.1-cp27-cp27m-win_amd64.whlpip install gensim-2.3.0-cp27原创 2017-08-02 20:26:04 · 764 阅读 · 0 评论 -
[面试题][数学与概率]设计随机数生成器
假设你已经有一个随机数生成器,能够以概率p生成0,概率1-p生成1,请问如何设计算法以概率q等概率地生成0-6这七个数字中的一个?即每个数字的概率均为q,q<1/7.我们先从简单的情况开始考虑,假设需要生成0和1,二者概率均为q。那么我们可以让已有的随机数生成器产生两个数字,那么产生的数字及概率是: Number Prob 00 p2p2p^2...原创 2018-04-23 00:39:13 · 3051 阅读 · 1 评论 -
算法工程师面试题
决策树如何防止过拟合?剪枝算法 随机森林一般情况下,如何防止过拟合?数据集扩增(Data Augmentation):从数据源头采集更多数据;复制原有数据并加上随机噪声;重采样;根据当前数据集估计数据分布参数,使用该分布产生更多数据等。 正则化方法 提前终止训练(Early stopping) Dropout,只用于深度学习中。 Batch Normalization。...原创 2018-04-13 22:45:38 · 955 阅读 · 0 评论 -
[面试题][统计学]等概率采集样本点
有一个非常非常大的数据集,有正样本,有负样本,仅知道数据集的size,不知道数据的分布,设计算法从中采样出40000个正样本、60000个负样本,使得样本是等概率被采集到的。思路:这可以理解为一个海量数据的问题,可以采用堆排序的方式来处理,而利用hash值来排序则可以获得随机性要求。解法:维护一个大小为40000的小根堆(或者大根堆)、一个大小为60000的小根堆(或者大根堆)。遍...原创 2018-04-19 20:19:11 · 1085 阅读 · 1 评论 -
[面试题]机器学习算法工程师面试题
你的Word2Vec应用中用的是Skip-gram还是CBOW?请推导逻辑回归的损失函数?L1与L2的区别是什么?什么是Negative Sampling?原创 2018-04-19 21:55:21 · 828 阅读 · 0 评论 -
[面试题][统计学] 放球问题
有100个球,其中50个红球、50个蓝球,有两个框,请问如何放置这100个球,使得从这两个框中任选一个,然后再从框里任选一个球时得到红球的概率最大?考虑到第一步选择每个框的概率都是1/2,那么可以先在一个框里放一个红球,然后把剩下的99个球都放在第二个框,这样选到红球的概率是最大的,概率是: 12∗1+12∗4949+50=14819812∗1+12∗4949+50=148198\f...原创 2018-05-07 21:17:18 · 2159 阅读 · 0 评论