- 博客(195)
- 资源 (1)
- 收藏
- 关注
原创 presto-SQL
今日在presto里面查询SQL,需要模糊匹配带百分号的字符,写法查到的是mysql的写法product_name like '%/%%' escape '/'后面再需要从字符中抽取出带百分号的数字,regexp_extract(product_name, '\d+%')最后再提取出带百分号前面的数字regexp_extract(regexp_extract(product_name, '\d+%'))...
2021-09-17 17:04:05
1569
原创 深度学习图形工作站配置
1、购买服务器的市场配置2、ssh连接服务器查看GPU驱动,输入命令“nvidia-smi”3、安装显卡驱动登陆英伟达官网下载对应显卡和系统的驱动:https://www.nvidia.cn/Download/index.aspx?lang=cn然后“搜索“->“下载”,复制下载链接到服务器下载wget https://cn.download.nvidia.cn/XFree86/Linux-x86_64/455.23.04/NVIDIA-Linux-x86_64-4
2021-01-08 10:57:49
1455
原创 Ubuntu18.04 安装xgboost GPU版配置
CUDA安装首先要到英伟达官网下载对应版本cuda工具包,使用GPU需要有cuda。配置好环境变量1)在~/.bashrc中添加如下 export PATH = /usr/local/cuda-11.1/bin:$PATHexport LD_LIBRARY_PATH = /usr/local/cuda-11.1/lib64:$LD_LIBRARY_PATH 使环境变量生效 source ~/.bashrc2)配置 /etc/ld.so...
2021-01-08 10:18:56
1099
原创 Gitlab CI/CD自动部署方案探索
如上图所示,当我们提交代码到 GitLab 仓库后,满足指定条件后就会触发 Pipeline 进行自动化构建、测试、发布等。Gitlabgitlab是做代码的版本管理,gitlab本身就用CI/CD的功能,原定是使用gitlab+Jenkins+Docker的流行部署框架的,但是gitlab-runner配置简单,很容易与gitlab集成。当新建一个项目的时候,不需要配置webhook回调地址,也不需要同时在jenkins新建这个项目的编译配置,只需在工程中配置gitlab-ci.yml...
2020-12-28 10:07:34
579
原创 python多线程与多进程
最近在单机服务器上用python跑一个机器学习模型,数据量在千万级别,运行时间跑了1个半小时,而且服务器的CPU利用率很低。就想到用多线程和多进程来并行加速跑程序,原先就只知道一点模糊的概念,还没有真正实现过,趁着这个机会就好好研究下python的多线程和多进程。多线程python的多线程虽然是真正的线程,但解释器执行代码时,有一个GIL锁:Global interpreter lock。任何python线程执行前,必须获得GIL锁,然后执行每执行100字节码,解释器自动释放GIL锁,让别的线程有机
2020-12-25 16:06:47
280
原创 linux 趟坑之路
linux合并多个csv文件到一个文件cat a.csv <(tail +2 b.csv) > c.csv 上面这条命令就是将a.csv和b.csv合并到一个c.csv文件,其中a.csv是全部数据,b.csv是从第2行到最后的数据( 命令为<(tail +2 x.csv) ),即去掉表头的数据。>是覆盖写,>>是追加写Linux shell scripts报错另外shell脚本报错,Syntax error: "(" unexpected ...
2020-12-23 14:50:33
619
原创 xgboost work in python not work in jupter notebook
在notebook cell 中输入下面内容即可安装,解决import sys!{sys.executable} -m pip install xgboost
2018-09-13 10:33:59
444
原创 python中datetime模块中的strftime与strptime
python中datetime模块非常好用,提供了日期格式和字符串格式相互转化的函数strftime/strptime1、由日期格式转化为字符串格式的函数为: datetime.datetime.strftime()2、由字符串格式转化为日期格式的函数为: datetime.datetime.strptime()3、日期时间格式字符串列表:%a 星期几的简写;如 星期三为W...
2018-08-07 16:29:42
1806
转载 hive常用UDF and UDTF函数介绍-lateral view explode()
转载自:https://blog.youkuaiyun.com/zeb_perfect/article/details/53304330前言:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。这里只大概说下Hive常用到的UDF函数,全面详细介绍推荐官网wiki:https://cwiki.apache.org/confluence/display/Hive/Language...
2018-08-07 11:18:39
725
原创 Mac下使用item 2 和zsh
iTerm2是Terminal的替代品,是一款比较小众的软件,比Terminal优秀太多了。下载官网为http://www.iterm2.cn/,下载后直接安装即可。iTerm2可以设置主题,支持画面分隔、各种快捷键。Mac默认使用的shell是bash,我们可以换成zsh,搭配iTerm2使用,用起来十分顺手。 现在假设大家都安装了iTerm2,我们先把bash切换成zsh,使用命令行...
2018-08-06 15:18:21
1223
转载 shell脚本常用命令
转载自:https://www.cnblogs.com/chen-lhx/p/5743438.html1 Shell中的特殊符号1.1 $ 美元符号。用来表示变量的值。如变量NAME的值为Mike,则使用$NAME就可以得到“Mike”这个值。1.2 # 井号。除了做为超级用户的提示符之外,还可以在脚本中做为注释的开头字母,...
2018-07-30 21:41:44
495
原创 Hive分析窗口(开窗函数)
Hive中提供了很多分析函数,用于完成负责的统计分析。先看看基础的sum,avg,min,max,用于实现分组内所有和连续累计的统计。sum(columns) over (partition by col1 order by col2 rows between n/unbounded preceding and m following/current row )如果不指定rows betw...
2018-07-30 21:36:05
2063
原创 机器学习中数值型特征做特征归一化
今天去某外卖平台面试机器学习算法工程师,二面时面试官问到数值型特征工程,提到归一化,按常规想法就是MinMaxScaler或Zscore。本以为回答完美,但被面试官追问,为什么做归一化,做与不做,有什么区别?这让我猝不及防,就按自己的理解说,某些特征的数值相较其他特征数值范围差异大,在算法的训练中,对结果受影响。面试官又问什么程度是大?被这追问问的头皮发麻。后面又提到数值型特征也可以用对数?又被问...
2018-07-30 20:55:43
1542
原创 模型选择与调优
模型选择,请看sklearn经典的这张图:模型选择:交叉验证:交叉验证集做参数/模型选择;测试集制作模型效果评估。超参数选择:交叉验证选取sklearn.grid_search.GridSearchCV不同模型状态处理:过拟合:找更多的数据来学习;增大正则化系数;减少特征个数;欠拟合:找更多特征;减小正则化系数。模型融合:1、bagging,随机森林(分类:vote;回归:取平均)2、模型stac...
2018-06-27 17:11:28
465
原创 机器学习的特征工程
机器学习流程:收据收集----->数据清洗------->特征工程-------->数据建模特征=>数据抽取出来的对结果预测有用的信息特征工程师使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。特征工程的意味着更强的灵活度,不需复杂的模型,得到更好的结果。现实中,复杂模型的算法精进都是数据科学家在做,大部分童靴是跑数据,清洗数据,分析业务,分析...
2018-06-27 16:45:19
824
原创 pytorch 中实现CNN,对CNN的理解心得
将卷积核与图像进行卷积是在空间上滑动图像,计算点积卷积核总是扩展输入卷的全部深度卷积层在卷积核和图像的一个小的5x5x3块之间取一个点积的结果对所有空间位置进行卷积(滑动)卷积神经网络是一个卷积层的序列,夹杂着激活函数池化层使性能更好,更易于操作独立操作每个激活映射简介:conv、池化层和全连通层的堆积通常模型越深层次对模型更有帮助不一定需要池全连接层在分类时用到,其他非分类的可以不用全连接层...
2018-04-26 14:38:29
1355
原创 腾讯动漫爬虫与动态随机加载反爬
在学习了selenium后,就想试试爬一爬动漫,在微信社区里又看到一个腾讯动漫爬虫与动态随机加载反爬破解实战的文章,就试着跑了一下,还可以。用到了PhantomJS自动触发漫画图片以及js(window.scrollTo()实现页面滑动,自动触发触剩下的多张漫画图片),最后用urllib提取并保存本地。话不多说,上代码,重点已做注释:#--*-- coding:utf-8 --*--from s...
2018-04-24 18:08:21
1721
原创 selenium.common.exceptions.WebDriverException: Message: 'phantomjs' executable needs to be in PATH
使用selenium+phantomjs的时候,出现了这样的报错信息:selenium.common.exceptions.WebDriverException: Message: 'phantomjs' executable needs to be in PATH1下面给出解决方法:browser = webdriver.PhantomJS(executable_path=r'c:\user\y...
2018-04-24 17:12:04
1810
原创 PyQuery笔记
1、初始化1.1、字符串初始化from pyquery import PyQuery as pyhtml = '''<div> <ul> <li class="item-0">first item</li> <li class="item-1"><a href="htt
2018-04-24 15:11:51
420
原创 BeautifulSoup 笔记
BeautifulSoup的基本使用from bs4 import BeautifulSouphtml = """<html><head><title>The Dormouse's story</title></head><body><p class="title" name=&
2018-04-24 15:03:28
409
原创 Requests库笔记
1、概览1.1、实例引入# 引入Requests库import requests# 发起GET请求response = requests.get('https://www.baidu.com/')# 查看响应类型 requests.models.Responseprint(type(response))# 输出状态码print(response.status_code)# 输出响应内容类型 t...
2018-04-24 14:55:34
361
原创 Selenium 库学习笔记
#--*-- coding:utf-8 --*--#selenium基本使用# from selenium import webdriver# from selenium.webdriver.common.by import By# from selenium.webdriver.support import expected_conditions as EC# from seleni...
2018-04-24 14:40:40
512
转载 flume架构以及应用理解参考
https://blog.youkuaiyun.com/a2011480169/article/details/51544664,这边博客写的很详细,很实用,分享与喜爱!!!
2018-04-23 16:23:16
290
原创 链家二手房爬虫
最近在看模拟登陆,找链家二手房爬取来练手,因为技术有限,有些并行化,复杂度,性能方面等不能兼顾,学习学习学习。下面贴出源码,有志同道合的高手可以帮忙改进或者提些意见。#--*-- coding:utf-8 --*--import pandasimport requestsimport refrom bs4 import BeautifulSoupfrom fake_useragent...
2018-04-18 17:12:22
1308
原创 windows环境下 anacoda 安装scikit-surprise
本想在Pycharm里安装surprise包,但是一直报错没有visual c++ 14,后面装了整个microsoft visual 2015但是还是报错,搞了半天,好吧,放弃了!转攻anaconda,安装好anaconda3.x后,在启动jupyter prompt,使用命令:conda install -c conda-forge scikit-surprise我前面还用conda安装了n...
2018-04-17 11:21:49
4878
原创 初探豆瓣爬虫
# coding:utf-8-bom#写爬虫防止被封的关键有以下几点:# 1、伪装请求报头(request header)# 2、减轻访问频率,速度# 3、使用代理IP#下面从国内高匿代理IP 获得代理IP数据import osimport timeimport requestsfrom bs4 import BeautifulSoupimport csvimpor...
2018-04-13 15:35:53
803
原创 天猫爬虫第一例
# coding:utf-8import requestsimport jsonimport simplejsonimport timeif __name__=="__main__": headers={ 'Connection':'keep-alive', 'User-Agent':'Mozilla/5.0 (Windows NT 6.1;Win64;x...
2018-04-13 15:34:35
1122
1
原创 谷歌Cloud AutoML自动机器学习平台初步研究
一、AutoML背景机器学习(Machine Learning, ML)技术近年来已取得较大成功,越来越多行业领域依赖它。但目前成功的关键还需依赖人类机器学习工程师完成以下工作:预处理数据选择适当的功能选择适当的模型系列优化模型超参数后处理机器学习模型严格分析所得的结果以上工作的复杂性通常超过了非机器学习专家的能力,随着机器学习应用的快速增长对自动机器学习方法产生了需求。目前,世界上只有小部分企业...
2018-04-13 15:25:28
5154
原创 推荐系统的那些事
最近根据项目组需要,研究一下推荐系统,这个推荐系统我也是没有什么头绪的,看了一些资料,总结一下,下面是我的笔记,不喜请喷,大家一起学习:
2018-02-02 16:54:24
369
原创 python实现词云
词云又叫文字云,是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思。自己用代码生成自己的词云,复杂么?需要很长时间么? 很多文字都介绍过各种的方法,但实际上只需要10行python代码即可。import matplotlib.pyplot as pltfrom wordcloud import
2018-01-18 16:00:27
868
原创 用tensorflow 创建一个基于策略网络的Agent来解决CartPole问题
所谓的策略网络,即建立一个神经网络模型,它可以通过观察环境状态,直接预测出目前最应该执行的策略(policy),执行这个策略可以获得最大的期望收益(包括现在的和未来的reward)。和之前的任务不同,在强化学习中可能没有绝对正确的学习目标,样本的feature和label也不在一一对应。我们的学习目标是期望价值,即当前获得的reward和未来潜在的可获取的reward。所以在策略网络中不只是使用当
2018-01-17 10:57:01
1143
原创 Tensorflow实现基于Bidirectional LSTM Classifier
数据集是在mnist上进行测试。先载入 Tensorflow、Numpy,以及Tensorflow自带的MNIST数据读取器。我们直接使用input_data.read_data_sets下载并读取mnist数据集。import tensorflow as tfimport numpy as npfrom tensorflow.examples.tutorials.mnist impo
2018-01-16 14:38:37
1814
原创 Tensorflow实现Word2Vec
首先是载入各种依赖库,因为要从网络中下载数据,粗腰的依赖库比较多。import collectionsimport mathimport osimport randomimport zipfileimport numpy as npimport urllibimport tensorflow as tf这里使用urllib.request.urlretrieve下载数据的亚
2018-01-15 14:29:44
821
原创 Tensorflow 实现Google Inception Net
Inception V1参数少但效果好的目的有两点:第一,参数越多模型越庞大,需要提供模型学习的数据量就越大,而目前高质量的数据非常昂贵。第二,参数越多,耗费的计算资源也会更大。Inception V1参数少但效果好的原因处理模型层数更深、表达能力更强外,还有两点:一是去除了最后逇全连接层,用全局平均池化层(即将图片尺寸变为1x1)来取代它,去除全连接层后模型训练更快并且减轻了过拟合。二是Ince
2018-01-11 11:37:20
705
6
原创 Tensorflow 实现VGGNet
下面是开始实现VGGNet-16。首先,我们载入几个系统库和Tensorflow。from datetime import datetimeimport mathimport timeimport tensorflow as tfVGGNet-16包含很多层卷积,我们先写一个函数conv_op,用来创建卷积层并把本层的参数存入参数列表。def conv_op(input_op,nam
2018-01-10 17:10:55
5527
11
原创 Tensorflow 实现经典卷积神经网络AlexNet
AlexNet将CNN的基本原理应用到很深很广的网络中,AlexNet主要使用到的新技术点如下:(1)成功使用ReLU作为CNN的激活函数,并验证其效果在较深网络中超过了Sigmoid成功解决了Sigmoid在网络较深时的梯度弥散问题。(2)训练时使用Dropout随机忽略一部分神经元,以避免模型过拟合。在AlexNet中主要是最后几个全连接层使用了Dropout。(3)在CNN中使用
2018-01-10 14:35:30
1555
转载 Spark RDD 的Transformation与Action的常用功能总结(Python版本)
转载自:http://blog.youkuaiyun.com/eric_sunah/article/details/51037837本文主要演示如何通过Python对Spark的RDD进行编程,只列出了一些常用的RDD操作接口,完整的功能,请参考官方文档演示环境说明RDD的详细介绍请参考:http://blog.youkuaiyun.com/eric_sunah/article
2017-12-28 16:59:33
412
原创 OpenCV读书笔记
==============================GUI features in OpenCV==========================import cv2import numpy as np## opencv 处理 images# 使用cv2.imread() 读图片#img=cv2.imread('testset/img4.PNG',-1) #第二个
2017-12-26 15:17:16
892
转载 P2P贷款全攻略,贷前、贷中、贷后工作事项解析
转载自:http://www.cnblogs.com/nxld/p/6607258.html一、贷前调查事项 贷前调查是所有银行、小贷、P2P等等往出贷款部门的重中之重。 归根结底就是两条:让不对称信息最大限度对称、让软信息最大限度真实还原。 客户还不还款就是取决两大因素:还款能力、还款意愿。 1、让不对称信息最大限度对称—解决的是还款能力问题。
2017-11-24 13:39:14
2092
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人