
Python
人生偌只如初见
学历代表过去,财力代表现在,学习力代表将来,所见所闻改变一生,不知不觉断送一生。
展开
-
Sanic学习笔记-模板引擎Jinja2集成
Python版本:Python-3.9.4在线安装Jinja2:pip3 install sanic-jinja2离线安装Jinja2:sanic_jinja2-0.9.1-py3-none-any.whlJinja2-2.11.3-py2.py3-none-any.whlMarkupSafe-1.1.1-cp39-cp39-win_amd64.whl修改模块配置modules目录下__init__.py# -*- coding: utf-8 -*-import s原创 2021-04-17 17:41:00 · 1608 阅读 · 0 评论 -
Sanic学习笔记-ORM框架SQLAlchemy集成
Python版本:Python-3.9.4安装SQLAlchemypip3 install sqlalchemyextension配置中添加import osimport logging.configfrom sanic_redis import SanicRedisfrom sqlalchemy import create_enginePROJECT_DIR = os.path.dirname(os.path.dirname(os.path.dirname(os.path原创 2021-04-13 22:31:44 · 1759 阅读 · 0 评论 -
Sanic学习笔记-搭建简单WEB基础框架
Python版本:Python-3.9.4安装Sanic之前需要安装 Microsoft Visual C++ Build Tools 2015安装Sanic相关pip3 install sanicpip3 install sanic_corspip3 install sanic_redis简单WEB基础框架如图app.extension:此目录下是应用扩展插件配置相关内容app.middleware:此目录下是应用中间件配置相关内容app.modules:此目录原创 2021-04-12 23:44:02 · 1445 阅读 · 2 评论 -
Python学习笔记-gRPC
gRPC概述gRPC是一款高性能、开源的 RPC 框架,产自 Google,基于 ProtoBuf 序列化协议进行开发,支持多种语言(Golang、Python、Java等)。gRPC对HTTP2.0协议的支持使其在 Android、IOS 等客户端后端服务的开发领域具有良好的前景。gRPC 提供了一种简单的方法来定义服务,同时客户端可以充分利用HTTP2.0 stream的特性,从而有助于节...原创 2020-01-21 14:27:08 · 585 阅读 · 0 评论 -
推荐系统笔记-08-在线基于内容召回排序
1、相关环境hadoop-2.10.0hive-3.1.2hbase-2.2.2spark-2.4.4kafka-2.12-2.4.0zookeeper-3.5.6spark-streaming-kafka-0-8_2.11:2.4.42、相关表结构HBasealter 'multiple_recall', {NAME=>'online', TTL=...原创 2020-01-10 14:13:32 · 875 阅读 · 0 评论 -
推荐系统笔记-07-离线特征数据集
1、相关环境hadoop-2.10.0hive-3.1.2hbase-2.2.2spark-2.4.42、相关表结构HBasecreate 'ctr_user_features', 'cf'create 'ctr_article_features', 'cf'HiveCREATE EXTERNAL TABLE T_CTR_USER_FEATURES(US...原创 2020-01-08 14:53:41 · 462 阅读 · 0 评论 -
推荐系统笔记-06-CTR排序模型LR
1、相关环境hadoop-2.10.0hive-3.1.2hbase-2.2.2spark-2.4.42、相关Python实现# -*- coding:utf-8 -*-import osimport sysimport numpy as npfrom datetime import datetimeBASE_PATH = os.path.dirname(os...原创 2020-01-04 19:07:14 · 621 阅读 · 0 评论 -
推荐系统笔记-05-用户基于内容召回集
1、相关环境hadoop-2.10.0hive-3.1.2hbase-2.2.2spark-2.4.42、相关表结构HBasealter 'multiple_recall', {NAME=>'content', TTL=>2592000, VERSIONS=>9999}3、相关Python实现# -*- coding:utf-8 -*-...原创 2019-12-30 16:53:47 · 346 阅读 · 0 评论 -
推荐系统笔记-04-用户基于ALS模型召回集
1、相关环境hadoop-2.10.0hive-3.1.2hbase-2.2.2spark-2.4.42、相关表结构HBasecreate 'multiple_recall', {NAME=>'als', TTL=>2592000, VERSIONS=>9999}create 'history_recall', {NAME=>'chann...原创 2019-12-30 14:50:29 · 533 阅读 · 0 评论 -
推荐系统笔记-03-用户画像
1、相关环境hadoop-2.10.0hive-3.1.2hbase-2.2.2spark-2.4.42、相关表结构HiveCREATE TABLE T_USER_OP_LOG(USER_ID BIGINT,ARTICLE_ID STRING,CHANNEL_ID INT,OP_TYPE INT COMMENT '1 display 2 click 3 col...原创 2019-12-29 17:19:10 · 334 阅读 · 0 评论 -
推荐系统笔记-02-文章相似计算
1、相关环境hadoop-2.10.0hive-3.1.2hbase-2.2.2spark-2.4.42、相关表结构HIVECREATE TABLE T_ARTICLE_VECTOR(ARTICLE_ID STRING,CHANNEL_ID INT,VECTOR ARRAY<DOUBLE>)COMMENT 'article vector tabl...原创 2019-12-27 14:26:48 · 846 阅读 · 0 评论 -
推荐系统笔记-01-文章画像
1、相关环境hadoop-2.10.0hive-3.1.2hbase-2.2.2spark-2.4.42、相关Hive表结构CREATE TABLE T_CHANNEL(ID BIGINT,EN_NAME STRING,CH_NAME STRING)COMMENT 'channel table'ROW FORMAT DELIMITED FIELDS TERMI...原创 2019-12-27 14:07:28 · 390 阅读 · 0 评论 -
Python学习笔记-Spark操作Hive
为了用Spark支持Python,Apache Spark社区发布了一个工具PySpark。PySpark在线安装:pip install -U -i https://pypi.tuna.tsinghua.edu.cn/simple pysparkPySpark离线安装:下载地址:https://pypi.org/project/wheel/#fileswheel-0.33.6...原创 2019-12-19 10:31:30 · 1310 阅读 · 0 评论 -
Python学习笔记-HBase操作
服务器环境Thrift安装下载地址:http://mirrors.hust.edu.cn/apache/thrift/tar -xzvf thrift-0.13.0.tar.gz./configure --with-cpp --with-boost --with-python --without-csharp --with-java --without-erlang --without...原创 2019-12-18 16:38:15 · 380 阅读 · 0 评论 -
学习笔记-Supervisor进程管理
Supervisor是一个进程管理工具,当进程中断的时候Supervisor能自动重新启动它。可以运行在各种类unix的机器上,supervisor就是用Python开发的一套通用的进程管理程序,能将一个普通的命令行进程变为后台daemon,并监控进程状态,异常退出时能自动重启。- supervisord运行 Supervisor 时会启动一个进程 supervisord,它负责启动所管理...原创 2019-12-17 16:25:14 · 407 阅读 · 0 评论 -
Python学习笔记-gensim初识Word2Vec、Doc2Vec
安装依赖工具包:pip install -U gensim安装过程中出现已经安装过的工具包冲突可以uninstall或删除Lib目录下相关包或使用:pip install -U gensim --ignore-installed scipyWord2Vec、Doc2Vec原理可以参考链接:https://blog.youkuaiyun.com/mpk_no1/article/details...原创 2019-09-08 16:26:39 · 795 阅读 · 0 评论 -
Python学习笔记-ElasticSearch操作
安装:pip install -U elasticsearch (Successfully installed elasticsearch-7.0.3)ElasticSearch版本:elasticsearch-7.3.0Python操作代码如下# -*- coding:utf-8 -*-import osimport sysfrom elasticsearch impor...原创 2019-08-22 21:05:52 · 977 阅读 · 0 评论 -
Python学习笔记-WXPY初识
项目地址:https://github.com/youfou/wxpy帮助文档:https://wxpy.readthedocs.io/zh/latest/index.html安装:pip install -U wxpy简单使用代码记录# -*- coding:utf-8 -*-import osimport sysimport jsonimport urllibim...原创 2019-08-10 18:57:26 · 731 阅读 · 0 评论 -
Python学习笔记-清除项目下SVN文件
1.import os 2.import time 3.import stat 4. 5.def clearSVN(destPath): 6. if os.path.isdir(destPath) == False : 7. return; 8. else : 9. destFileName = os.path.basenam原创 2014-06-11 14:36:31 · 915 阅读 · 0 评论 -
数据挖掘笔记-特征选择-算法实现-1
代码托管:https://github.com/fighting-one-piece/repository-datamining.git。关于特征选择相关的知识可以参考一下连接。原创 2014-07-17 18:32:07 · 12805 阅读 · 8 评论 -
Python学习笔记-简易抓取网页-1
主要是通过urllib2获取预先指定的地址的页面,通过BeautifulSoup来解析界面元素,找到href标签,并将相关的数据存入数据库,以方便后面取出继续抓取。整个抓取和解析也是基于多线程与队列来控制的。做的比较简单与粗糙,后续深入可以改进。原创 2014-06-11 15:00:49 · 908 阅读 · 0 评论 -
Python学习笔记-数据库操作
主要是通过python的DBUtils库、MySQLdb库来实现连接池操作数据库1.import MySQLdb 2. 3.from DBUtils.PooledDB import PooledDB 4. 5.class DBHelper(object): 6. 7. __pool = None 8. 9. def __init__(原创 2014-06-11 14:41:08 · 1079 阅读 · 0 评论 -
Python学习笔记-Django实现简单增删改查
1、新建一个Django项目,采用默认的SQLite数据库,然后新建一个Application,在settings.py文件中可以看到INSTALLED_APPS = [ 'django.contrib.admin', 'django.contrib.auth', 'django.contrib.contenttypes', 'django.contrib.se原创 2016-06-12 18:08:44 · 8958 阅读 · 1 评论 -
Python学习笔记-Excel读写操作
需要先安装xlrd(读)、xlwt(写)库pip install xlrdpip install xlwt代码如下:import osimport sysimport xlrdimport xlwtimport datetimedef readSheet(filePath, sheetIndex = 0): if not os.path.exists(fileP原创 2016-07-10 00:43:58 · 901 阅读 · 0 评论 -
Python学习笔记-SSH连接
主要是通过paramiko库实现SSH连接功能,并实现一些远程交互功能推荐安装方式pip install paramiko原创 2014-06-11 14:55:23 · 1159 阅读 · 0 评论 -
Python学习笔记-简易抓取网页-2
记录几个抓取网页的实例1、抓取51job上的根据关键字搜索出来的招聘信息2、抓取豆瓣电影排行榜信息3、抓取笑话信息原创 2016-05-26 22:39:11 · 1441 阅读 · 0 评论 -
MongoDB学习笔记-数据导入Excel文件
使用mongoexport工具bin/mongoexport --host 192.168.10.10:27017 --username test --password test --db test --collection user --type=csv --fields "name,age,phone,email,address" --out data.csv使用p原创 2016-08-28 15:50:31 · 6901 阅读 · 0 评论 -
Python学习笔记-Txt文件转Excel文件
Txt文件转Excel 2003文件(Excel 2003 一个工作表行数限制65536,列数限制256)# -*- coding:utf-8 -*-import osimport sysimport xlwtimport datetimedefault_encoding = 'utf-8'if sys.getdefaultencoding() != default_encod原创 2016-08-21 15:30:18 · 6010 阅读 · 0 评论 -
Python学习笔记-遍历URL链接文件多线程下载
功能代码记录:# -*- coding:utf-8 -*-import osimport sysimport timeimport urllibimport Queueimport randomimport requestsimport threadingimport threadpoolfrom bs4 import BeautifulSoupdefault...原创 2019-04-17 18:33:24 · 1021 阅读 · 0 评论 -
学习笔记-文本最大匹配分词
数组结构词典扫描匹配# -*- coding:utf-8 -*-import osimport sysdefault_encoding = 'utf-8'if sys.getdefaultencoding() != default_encoding: reload(sys) sys.setdefaultencoding(default_encoding)cl...原创 2019-06-14 13:51:46 · 399 阅读 · 0 评论 -
学习笔记-行政区划匹配缺失补全
简单实现功能,存在缺陷后续在处理源码链接https://github.com/fighting-one-piece/py-handle-utils/tree/master/ad_matching代码如下:# -*- coding:utf-8 -*-import osimport sysimport enumfrom maximum_matching_2 import Ma...原创 2019-06-22 20:31:12 · 914 阅读 · 0 评论 -
Python学习笔记-WXPY语音信息识别
安装依赖工具包:pip install pyaudiopip install pydubpip install ffmpegpip install baidu_aip语音信息识别代码记录# -*- coding:utf-8 -*-import osimport sysimport jsonimport urllibimport requestsfrom wx...原创 2019-08-13 14:40:51 · 586 阅读 · 0 评论 -
数据挖掘笔记-寻找相似文章-Python
原理在http://blog.youkuaiyun.com/fighting_one_piece/article/details/36658323原创 2014-07-17 15:01:44 · 1607 阅读 · 0 评论