- 博客(42)
- 收藏
- 关注
原创 深度增强学习之走迷宫矩阵
DQN(Deep Q-Learning)通常,强化学习的设置由两部分组成,一个是智能体(Agent),另一个是环境(Environment)。 强化学习是学习一个最优策略(policy),可以让 智能体(Agent) 在 特定环境(Environment) 中,根据当前状态(state),做出行动(action),从而获得最大回报(reward)。DQN要做的就是将卷积神经网络(CN...
2018-07-26 17:44:16
8940
3
原创 增强学习之Q-learning走迷宫
Q-Learning算法整个算法就是一直不断更新 Q table 里的值, 然后再根据新的值来判断要在某个 state 采取怎样的 action. Qlearning 是一个 off-policy 的算法, 因为里面的 max action 让 Q table 的更新可以不基于正在经历的经验(可以是现在学习着很久以前的经验,甚至是学习他人的经验).Q-learning中的Q函数Ne...
2018-07-19 12:25:12
13151
7
原创 词向量Word2Vec
from gensim.models import word2vec, Word2Vecsentences = [ ['word1','word2','word3','word1','word2','word3','word1','word2','word3'], # 句子1分词后的列表 ['word4','word5','word6','word7','word4','wo...
2018-07-04 18:15:04
393
原创 python生成图片验证码
import randomimport stringfrom PIL import Image, ImageFont, ImageDrawimport numpy as npimport mathfrom scipy import miscimport os#字符集characters = string.digits + string.ascii_lettersclass ...
2018-05-23 17:15:26
5959
1
原创 对文章的分类和聚类
以之前抓取的“科技”和“娱乐”文章为例‘articls.csv’中的内容如图: 分类import jiebaimport joblibfrom sklearn.feature_extraction.text import CountVectorizer, TfidfTransformerimport numpy as npfrom sklearn.metrics im...
2018-03-09 17:07:54
1802
1
原创 今日头条“科技”,“娱乐”类文章的抓取
import multiprocessingfrom selenium import webdriverimport timefrom bs4 import BeautifulSoupimport requests#将结果写入'articles.csv'fw=open('articles.csv','a',encoding='utf8')#请求头headers={ 'U...
2018-03-09 16:52:54
1657
原创 url编码与解码
import urllibcity = '北京市'city_encode=city.encode(encoding='gb2312')city_encode#b'\xb1\xb1\xbe\xa9\xca\xd0'city_encode_url=urllib.parse.quote(city_encode)city_encode_url#'%B1%B1%BE%A9%CA%D0'...
2018-01-19 16:28:42
391
原创 分布式爬虫之celery
以爬douban小说为例 首先启动Redis,新建文件crawl_douban.pyimport requestsfrom bs4 import BeautifulSoupimport timefrom celery import Celeryimport redisfrom configparser import ConfigParsercp=ConfigParser()...
2017-12-29 15:46:08
5576
原创 序列列表与稀疏矩阵的转换
import numpy as npimport stringchars=string.ascii_lowercasechars'abcdefghijklmnopqrstuvwxyz'char2num={v:k for k,v in enumerate(chars)}num2char={k:v for k,v in enumerate(chars)}#输入'abc','de'对应在chars
2017-12-28 16:24:37
2248
转载 随机森林
一个简短的python例子Scikit-Learn是开始使用随机森林的一个很好的方式。scikit-learn API在所以算法中极其的一致,所有你测试和在不同的模型间切换非常容易。很多时候,我从一些简单的东西开始,然后转移到了随机森林。随机森林在scikit-learn中的实现最棒的特性是n_jobs参数。这将会基于你想使用的核数自动地并行设置随机森林。这里是scikit-learn的贡献者Oli
2017-12-18 11:13:05
462
原创 keras之lstm
1、预测sin函数import numpy as npfrom matplotlib import pyplot as pltfrom keras.models import Sequentialfrom keras.layers import Densefrom keras.layers import LSTMfrom keras import optimizersfrom keras
2017-12-15 08:29:01
786
转载 Python用户推荐系统曼哈顿算法实现
转载http://www.iplaypy.com/code/algorithm/a2065.htmlusers = {"Angelica": {"Blues Traveler": 3.5, "Broken Bells": 2.0, "Norah Jones": 4.5, "Phoenix": 5.0, "Slightly Stoopid": 1.5, "T
2017-12-14 15:55:24
716
原创 生成对抗网络GANs
生成对抗网络GANs(Generative Adversarial Nets from datetime import datetimeimport tensorflow as tfimport numpy as npimport matplotlib.pyplot as pltimport matplotlib.gridspec as gridspecfrom tensorflow.e
2017-12-13 16:46:39
592
原创 ascii(hex)/aes_ecb
针对密钥和密文明文都是ascii(hex)形式进行aes_ecb加密和解密import binasciifrom cryptography.hazmat.backends import default_backendfrom cryptography.hazmat.primitives.ciphers import Cipher, algorithms, modesfrom cryptogra
2017-11-24 15:20:01
4107
原创 crawl微博'头条'一栏
import requestsfrom bs4 import BeautifulSoupimport timesess=requests.Session()cookies={'SUB':'_2AkMuo0GNf8NxqwJRmPoTzG_gboR_wgHEieKY_7BWJRMxHRl-yT83qm4GtRC7VX-9bp2fn3Ia6oA8_vvznl5b7g..',}headers={
2017-11-20 15:04:28
314
原创 crawl 公众号
采集公众号’今日头条’的文章,可以使用macaca,模拟页面点击与上拉,本文使用requests库 进入今日头条,抓包,获取url,如下 url=’https://mp.weixin.qq.com/mp/profile_ext?action=home&__biz=MjM5ODEyOTAyMA==&scene=124&devicetype=android-22&version=2605083a&l
2017-11-20 14:53:52
615
转载 tensorflow之dynamic_rnn
转自:tensorflow高阶教程:tf.dynamic_rnntensorflow 的dynamic_rnn方法,我们用一个小例子来说明其用法,假设你的RNN的输入input是[2,20,128],其中2是batch_size,20是文本最大长度,128是embedding_size,可以看出,有两个example,我们假设第二个文本长度只有13,剩下的7个是使用0-padding方法填充的。dy
2017-11-16 15:23:35
483
原创 macaca之zfb
import base64import randomimport tracebackfrom io import BytesIOimport refrom PIL import Imagefrom macaca import WebDriver, WebElementimport timefrom util.log import loggerdesired_caps = { 'p
2017-11-16 08:46:44
288
原创 数据插值
import matplotlib.pyplot as pltimport numpy as npfrom scipy import interpolatex = np.linspace(0, 10, num=11, endpoint=True)y = np.cos(x)#分别使用 线性插值,三次样条插值法cubic,拉格朗日插值def interp(): f_linear = in
2017-11-14 11:31:39
440
转载 数据拟合
import matplotlib.pyplot as pltimport numpy as npfrom scipy.optimize import curve_fitx = np.arange(1, 17, 1)y = np.array([4.00, 6.40, 8.00, 8.80, 9.22, 9.50, 9.70, 9.86, 10.00, 10.20, 10.32, 10.42,
2017-11-14 09:53:24
690
原创 lstm预测sin函数
# -*- coding:utf-8 -*-import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport tensorflow as tfimport randomfrom sklearn.preprocessing import MinMaxScaler# 设置常量time_step = 10 #
2017-11-14 08:46:03
2236
翻译 panda缺失值处理
http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.fillna.htmlimport pandas as pdimport numpy as npdf=pd.DataFrame(np.random.rand(5,6))df 0 1 2
2017-11-10 11:12:30
3172
原创 sorted排序
l1=[('d',1),('b',3),('c',8),('a',2)]l2=sorted(l1)l2#[('a', 2), ('b', 3), ('c', 8), ('d', 1)]l3=sorted(l1,key=lambda x:x[1])l3#[('d', 1), ('a', 2), ('b', 3), ('c', 8)]l4=sorted(l1,key=lambda x:x[1]
2017-11-10 09:54:03
427
翻译 图片验证码部分代码整理
X = tf.placeholder(tf.float32,[None, IMAGE_HEIGHT * IMAGE_WIDTH])Y = tf.placeholder(tf.int32,[None, char_len_max])keep_prob = tf.placeholder(tf.float32) # dropoutw_alpha = 0.1b_alpha = 0.1lr = 0.
2017-11-09 17:20:59
344
转载 破解 geetest(极验)的滑块验证码
转载自python3 破解 geetest(极验)的滑块验证码from selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.common.action_chains import ActionChainsimport PIL.Image a
2017-11-09 16:46:42
4265
原创 asyncio/aiohttp 异步爬取douban
import aiohttpimport asyncioimport async_timeoutfrom bs4 import BeautifulSoup#信号量,控制协程数,防止爬的过快sema = asyncio.Semaphore(3)#解析html,获取小说书名async def parse_html(text): soup = BeautifulSoup(text, '
2017-11-09 14:01:31
1676
转载 基于redis的布隆过滤器
import redisfrom hashlib import md5import configparser#读取redis数据库配置config = configparser.ConfigParser()config.read('util/db_conf')host = config['redis']['host']port = config.getint('redis', 'port
2017-11-09 12:28:09
1626
原创 redis去重
import hashlibimport redis"""利用redis的集合不允许添加重复元素来进行去重"""import configparserconfig = configparser.ConfigParser()config.read('db_conf')host = config['redis']['host']port = config.getint('redis', 'p
2017-11-09 10:00:38
4683
原创 日志、异常、上下文
import datetimeimport tracebackimport logginglogger=logginglogger.basicConfig(level=logging.DEBUG, format='%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s',
2017-11-08 14:33:12
598
原创 meituan
meituan反扒很严重,需要经常并更cookies,每次遇到status_code为403时,可通过清除cookies,然后再次访问首页获取cookiesimport requestssess = requests.Session()sess.get('http://cq.meituan.com/')#获取meituan的cookiesprint(sess.cookies.get_di
2017-11-08 10:58:18
445
原创 sqlalchemy
from sqlalchemy import create_engine, Column, Integer, Stringfrom sqlalchemy.orm import sessionmakerfrom sqlalchemy.ext.declarative import declarative_baseengine = create_engine("mysql+pymysql://{}:{
2017-11-03 23:02:19
376
原创 Frida hook app
Frida hook app需要的工具小米人改之理:反编译appIDA:针对.so文件frida:hook函数,可以打印入参,函数返回值启动frida-serveradb push /home/michael/Downloads/frida-server-10.0.15-android-arm /data/local/tmp/frida-serveradb shellsucd /data/lo
2017-11-03 16:55:43
1861
原创 selenium
from selenium import webdriver#添加代理chrome_options = webdriver.ChromeOptions()proxy_ip=get_aws_proxies()chrome_options.add_argument('--proxy-server={}'.format(proxy_ip))driver = webdriver.Chrome(chr
2017-11-03 16:18:39
207
转载 macaca
环境配置参考官方文档https://macacajs.github.io/zh/environment-setup启动服务器# 普通用法,添加了 --verbose 可以看到详细的信息$ macaca server --verbose# 设置端口号$ macaca server -p 3456检查当前 Macaca 的安装环境$ macaca doctor元素查看器 安装$ npm i app
2017-11-03 15:32:58
636
原创 pandas 分组聚合
import pandas as pdimport numpy as npdf = pd.DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'], 'key2': ['one', 'two', 'one', 'two', 'one'], 'data1': np.random.randn(5),
2017-11-03 15:11:06
371
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人