Frank_07-优快云博客

原创深度增强学习之走迷宫矩阵

DQN（Deep Q-Learning）通常，强化学习的设置由两部分组成，一个是智能体（Agent），另一个是环境（Environment）。强化学习是学习一个最优策略(policy)，可以让智能体(Agent) 在特定环境(Environment) 中，根据当前状态(state)，做出行动(action)，从而获得最大回报(reward)。DQN要做的就是将卷积神经网络（CN...

2018-07-26 17:44:16 8940 3

原创增强学习之Q-learning走迷宫

Q-Learning算法整个算法就是一直不断更新 Q table 里的值, 然后再根据新的值来判断要在某个 state 采取怎样的 action. Qlearning 是一个 off-policy 的算法, 因为里面的 max action 让 Q table 的更新可以不基于正在经历的经验(可以是现在学习着很久以前的经验,甚至是学习他人的经验).Q-learning中的Q函数Ne...

2018-07-19 12:25:12 13151 7

原创词向量Word2Vec

from gensim.models import word2vec, Word2Vecsentences = [ ['word1','word2','word3','word1','word2','word3','word1','word2','word3'], # 句子1分词后的列表 ['word4','word5','word6','word7','word4','wo...

2018-07-04 18:15:04 393

原创 python生成图片验证码

import randomimport stringfrom PIL import Image, ImageFont, ImageDrawimport numpy as npimport mathfrom scipy import miscimport os#字符集characters = string.digits + string.ascii_lettersclass ...

2018-05-23 17:15:26 5959 1

原创对文章的分类和聚类

以之前抓取的“科技”和“娱乐”文章为例‘articls.csv’中的内容如图：分类import jiebaimport joblibfrom sklearn.feature_extraction.text import CountVectorizer, TfidfTransformerimport numpy as npfrom sklearn.metrics im...

2018-03-09 17:07:54 1802 1

原创今日头条“科技”，“娱乐”类文章的抓取

import multiprocessingfrom selenium import webdriverimport timefrom bs4 import BeautifulSoupimport requests#将结果写入'articles.csv'fw=open('articles.csv','a',encoding='utf8')#请求头headers={ 'U...

2018-03-09 16:52:54 1657

原创 url编码与解码

import urllibcity = '北京市'city_encode=city.encode(encoding='gb2312')city_encode#b'\xb1\xb1\xbe\xa9\xca\xd0'city_encode_url=urllib.parse.quote(city_encode)city_encode_url#'%B1%B1%BE%A9%CA%D0'...

2018-01-19 16:28:42 391

原创分布式爬虫之celery

以爬douban小说为例首先启动Redis，新建文件crawl_douban.pyimport requestsfrom bs4 import BeautifulSoupimport timefrom celery import Celeryimport redisfrom configparser import ConfigParsercp=ConfigParser()...

2017-12-29 15:46:08 5576

原创序列列表与稀疏矩阵的转换

import numpy as npimport stringchars=string.ascii_lowercasechars'abcdefghijklmnopqrstuvwxyz'char2num={v:k for k,v in enumerate(chars)}num2char={k:v for k,v in enumerate(chars)}#输入'abc','de'对应在chars

2017-12-28 16:24:37 2248

一个简短的python例子Scikit-Learn是开始使用随机森林的一个很好的方式。scikit-learn API在所以算法中极其的一致，所有你测试和在不同的模型间切换非常容易。很多时候，我从一些简单的东西开始，然后转移到了随机森林。随机森林在scikit-learn中的实现最棒的特性是n_jobs参数。这将会基于你想使用的核数自动地并行设置随机森林。这里是scikit-learn的贡献者Oli

2017-12-18 11:13:05 462

原创 keras之lstm

1、预测sin函数import numpy as npfrom matplotlib import pyplot as pltfrom keras.models import Sequentialfrom keras.layers import Densefrom keras.layers import LSTMfrom keras import optimizersfrom keras

2017-12-15 08:29:01 786

转载 Python用户推荐系统曼哈顿算法实现

转载http://www.iplaypy.com/code/algorithm/a2065.htmlusers = {"Angelica": {"Blues Traveler": 3.5, "Broken Bells": 2.0, "Norah Jones": 4.5, "Phoenix": 5.0, "Slightly Stoopid": 1.5, "T

2017-12-14 15:55:24 716

转载 jieba

https://www.cnblogs.com/jiayongji/p/7119065.html)

2017-12-13 16:47:55 294

原创生成对抗网络GANs

生成对抗网络GANs（Generative Adversarial Nets from datetime import datetimeimport tensorflow as tfimport numpy as npimport matplotlib.pyplot as pltimport matplotlib.gridspec as gridspecfrom tensorflow.e

2017-12-13 16:46:39 592

原创 ascii(hex)/aes_ecb

针对密钥和密文明文都是ascii(hex)形式进行aes_ecb加密和解密import binasciifrom cryptography.hazmat.backends import default_backendfrom cryptography.hazmat.primitives.ciphers import Cipher, algorithms, modesfrom cryptogra

2017-11-24 15:20:01 4107

转载生成对抗网络

转载：生成对抗网络的tensorflow实现

2017-11-21 10:45:06 266

原创 crawl微博'头条'一栏

import requestsfrom bs4 import BeautifulSoupimport timesess=requests.Session()cookies={'SUB':'_2AkMuo0GNf8NxqwJRmPoTzG_gboR_wgHEieKY_7BWJRMxHRl-yT83qm4GtRC7VX-9bp2fn3Ia6oA8_vvznl5b7g..',}headers={

2017-11-20 15:04:28 314

原创 crawl 公众号

采集公众号’今日头条’的文章，可以使用macaca，模拟页面点击与上拉，本文使用requests库进入今日头条，抓包，获取url，如下 url=’https://mp.weixin.qq.com/mp/profile_ext?action=home&__biz=MjM5ODEyOTAyMA==&scene=124&devicetype=android-22&version=2605083a&l

2017-11-20 14:53:52 615

转载 tensorflow之dynamic_rnn

转自:tensorflow高阶教程:tf.dynamic_rnntensorflow 的dynamic_rnn方法，我们用一个小例子来说明其用法，假设你的RNN的输入input是[2,20,128]，其中2是batch_size,20是文本最大长度，128是embedding_size，可以看出，有两个example，我们假设第二个文本长度只有13，剩下的7个是使用0-padding方法填充的。dy

2017-11-16 15:23:35 483

原创 macaca之zfb

import base64import randomimport tracebackfrom io import BytesIOimport refrom PIL import Imagefrom macaca import WebDriver, WebElementimport timefrom util.log import loggerdesired_caps = { 'p

2017-11-16 08:46:44 288

原创数据插值

import matplotlib.pyplot as pltimport numpy as npfrom scipy import interpolatex = np.linspace(0, 10, num=11, endpoint=True)y = np.cos(x)#分别使用线性插值，三次样条插值法cubic，拉格朗日插值def interp(): f_linear = in

2017-11-14 11:31:39 440

转载数据拟合

import matplotlib.pyplot as pltimport numpy as npfrom scipy.optimize import curve_fitx = np.arange(1, 17, 1)y = np.array([4.00, 6.40, 8.00, 8.80, 9.22, 9.50, 9.70, 9.86, 10.00, 10.20, 10.32, 10.42,

2017-11-14 09:53:24 690

原创 lstm预测sin函数

# -*- coding:utf-8 -*-import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport tensorflow as tfimport randomfrom sklearn.preprocessing import MinMaxScaler# 设置常量time_step = 10 #

2017-11-14 08:46:03 2236

翻译 panda缺失值处理

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.fillna.htmlimport pandas as pdimport numpy as npdf=pd.DataFrame(np.random.rand(5,6))df 0 1 2

2017-11-10 11:12:30 3172

原创 sorted排序

l1=[('d',1),('b',3),('c',8),('a',2)]l2=sorted(l1)l2#[('a', 2), ('b', 3), ('c', 8), ('d', 1)]l3=sorted(l1,key=lambda x:x[1])l3#[('d', 1), ('a', 2), ('b', 3), ('c', 8)]l4=sorted(l1,key=lambda x:x[1]

2017-11-10 09:54:03 427

翻译图片验证码部分代码整理

X = tf.placeholder(tf.float32,[None, IMAGE_HEIGHT * IMAGE_WIDTH])Y = tf.placeholder(tf.int32,[None, char_len_max])keep_prob = tf.placeholder(tf.float32) # dropoutw_alpha = 0.1b_alpha = 0.1lr = 0.

2017-11-09 17:20:59 344

转载破解 geetest（极验）的滑块验证码

转载自python3 破解 geetest（极验）的滑块验证码from selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.common.action_chains import ActionChainsimport PIL.Image a

2017-11-09 16:46:42 4265

原创 asyncio/aiohttp 异步爬取douban

import aiohttpimport asyncioimport async_timeoutfrom bs4 import BeautifulSoup#信号量，控制协程数，防止爬的过快sema = asyncio.Semaphore(3)#解析html,获取小说书名async def parse_html(text): soup = BeautifulSoup(text, '

2017-11-09 14:01:31 1676

转载基于redis的布隆过滤器

import redisfrom hashlib import md5import configparser#读取redis数据库配置config = configparser.ConfigParser()config.read('util/db_conf')host = config['redis']['host']port = config.getint('redis', 'port

2017-11-09 12:28:09 1626

原创 redis去重

import hashlibimport redis"""利用redis的集合不允许添加重复元素来进行去重"""import configparserconfig = configparser.ConfigParser()config.read('db_conf')host = config['redis']['host']port = config.getint('redis', 'p

2017-11-09 10:00:38 4683

原创日志、异常、上下文

import datetimeimport tracebackimport logginglogger=logginglogger.basicConfig(level=logging.DEBUG, format='%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s',

2017-11-08 14:33:12 598

原创 meituan

meituan反扒很严重，需要经常并更cookies，每次遇到status_code为403时，可通过清除cookies，然后再次访问首页获取cookiesimport requestssess = requests.Session()sess.get('http://cq.meituan.com/')#获取meituan的cookiesprint(sess.cookies.get_di

2017-11-08 10:58:18 445

原创 sqlalchemy

from sqlalchemy import create_engine, Column, Integer, Stringfrom sqlalchemy.orm import sessionmakerfrom sqlalchemy.ext.declarative import declarative_baseengine = create_engine("mysql+pymysql://{}:{

2017-11-03 23:02:19 376

原创 Frida hook app

Frida hook app需要的工具小米人改之理：反编译appIDA：针对.so文件frida：hook函数，可以打印入参，函数返回值启动frida-serveradb push /home/michael/Downloads/frida-server-10.0.15-android-arm /data/local/tmp/frida-serveradb shellsucd /data/lo

2017-11-03 16:55:43 1861

原创 selenium

from selenium import webdriver#添加代理chrome_options = webdriver.ChromeOptions()proxy_ip=get_aws_proxies()chrome_options.add_argument('--proxy-server={}'.format(proxy_ip))driver = webdriver.Chrome(chr

2017-11-03 16:18:39 207

转载 macaca

环境配置参考官方文档https://macacajs.github.io/zh/environment-setup启动服务器# 普通用法，添加了 --verbose 可以看到详细的信息$ macaca server --verbose# 设置端口号$ macaca server -p 3456检查当前 Macaca 的安装环境$ macaca doctor元素查看器安装$ npm i app

2017-11-03 15:32:58 636

原创 pandas 分组聚合

import pandas as pdimport numpy as npdf = pd.DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'], 'key2': ['one', 'two', 'one', 'two', 'one'], 'data1': np.random.randn(5),

2017-11-03 15:11:06 371

原创 tensorflow之非线性方程

[python]

2017-11-02 15:56:41 852

原创图片灰化和二值化

图片灰化和二值化处理

2017-11-02 12:43:01 2697

空空如也

空空如也