- 博客(12)
- 收藏
- 关注
原创 Python调用接口
此文件是读取odps中的表字段,再调用某接口,返回生成的url连接,原表信息id,content,需要产生的新数据为原id,url# -*- coding: utf-8 -*-# @Time : 2021/12/6 9:59# @Author : llh# @File : test_api.py# @Synopsis : 此文件是读取odps中的表字段,再调用某接口,返回生成的url连接import reimport jsonimport requestsfrom odps import
2021-12-08 14:50:09
2529
原创 自定义python日常使用的小函数
记录自己日常使用的小utils函数二维列表解读:根据给定的长和宽,以及初始值,返回一个二维列表。def initialize_2d_list(w, h, val=None): return [[val for x in range(w)] for y in range(h)]例:>>> initialize_2d_list(2,2)[[None, None], [None, None]]>>> initialize_2d_list(2,2,0
2021-07-07 10:43:29
200
原创 Kettle导入ES7.8.1时报NullPointerException解决方案
记录自己昨天遇到的两个bug。kettle设置完成后,无法连接ES。是因为自己的插件版本过低导致的无法连接,kettle7.1中支持的es连接插件,只支持es2.2版本,需要替换elasticsearch-bulk-insert-plugin插件源码及插件见:链接: https://pan.baidu.com/s/1yEjLaWJZLcMElGtKYKXtug 密码: pb8j下载完后,在解压文件夹中,拷贝以下文件,替换到kettledata-integration\plugins\elast
2021-03-09 14:12:58
1993
原创 Datax增量导入和几种常见的数据迁移模板
列出几种常用的Datax的模板,读写的库可以随意互换1、读PG库写入MySQL{ "job": { "content": [ { "reader": { "name": "postgresqlreader", "parameter": { "username": "postgres", "password": "123456",
2020-12-16 16:25:21
2406
6
原创 使用LTP库报错 KeyError: ‘transformer_config‘的解决方案
近期在服务器上新装了个LTP库,运行时报错KeyError: ‘transformer_config’如图搞了半天,终于从官方文档找到了原因,是模型版本的问题。如果你的Linux系统是在内网的,则可能需要单独下载跟自己ltp版本所对应的模型。官方注明了LTP 4.1.X 与旧版本 v1,v2 模型不兼容,需要更换成v3版本https://github.com/HIT-SCIR/ltp/blob/master/MODELS.md注意:ltp 库读取 .tgz 格式的模型时会自动将其解压到同一路径
2020-12-16 10:41:39
2001
1
原创 解决pip下载速度太慢
废话不多说,pip 提速方法主要有两种,一种是临时提速,一种是永久提速。临时提速在 pip install 包名 后面加上 -i + 镜像地址,这样 pip 安装时即可成倍的提速了。国内主要镜像地址如下:清华:https://pypi.tuna.tsinghua.edu.cn/simple阿里云:http://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/华中理工大学:http:/
2020-12-01 09:53:39
8935
4
原创 Python中的import 到底在干啥?
一直好奇import ***这个语句到底是在干什么,有时候在PyCharm中运行好好的程序,跑道python原生环境中就会报错例如像下面这样的一个项目结构:Projetc_example|-- A |-- alpha.py |-- beta.py|-- B |-- theta.py|-- main |-- main.py假设要在main.py中导入theta.py:# main/main.pyfrom B import theta在原生环境中就会出现意想不
2020-11-17 11:40:43
1109
1
原创 Pandas读/写PG数据库
直接上代码,使用pandas库读写操作pgsql数据库,第一段代码数据库操作类pg_connecting.py,第二段数据库连接信息类setting.py,第三段实例化# coding: utf-8# --利用pandas库读/写pg数据库,pg_connecting.py--import psycopg2import sqlalchemyimport pandas as pdfrom datetime import datetimefrom collections import Ord
2020-11-17 10:05:39
2116
1
原创 Python Faker库的使用
项目开发初期,为了测试方便,我们总要造不少假数据到系统中,尽量模拟真实环境。比如要创建一批用户名,创建一段文本,电话号码,街道地址、IP地址等等。平时我们基本是键盘一顿乱敲,随便造个什么字符串出来,当然谁也不认识谁。现在你不要这样做了,用Faker就能满足你的一切需求。什么是FakerFaker是一个Python包,开源的GITHUB项目,主要用来创建伪数据,使用Faker包,无需再手动生成或者手写随机数来生成数据,只需要调用Faker提供的方法,即可完成数据的生成。项目地址:https://gi
2020-11-13 09:39:20
2547
原创 Doc2vec的两种算法类型介绍
Doc2vec的两种算法类型dm 定义了训练的算法。默认是dm=1,使用 ‘distributed memory’ (PV-DM),否则 distributed bag of words (PV-DBOW)。1、句向量的分布式记忆的版本(PV-DM)在我们的句(Paragraph)向量模型中,每一个句子都被映射成一个独立的向量,这个句向量作为矩阵 的一列;同时,每一个词也被映射成一个独立的向量,这个词向量作为矩阵 的一列。对这个句向量和这些词向量求平均或者首尾相连,用来预测文本中的下一个词。在本研
2020-11-09 15:00:13
2021
原创 Doc2Vec 模型参数
Doc2Vec 模型参数 详解model = Doc2Vec( dm=0, vector_size=100, window=5, min_count=5, workers=4, alpha=0.025, min_alpha=0.001, epochs=15)dm 定义了训练的算法。默认是dm=1,使用 ‘distributed memory’ (PV-DM),否则 distributed bag of words (PV-DBOW)。vector_size 是特征向量的纬度。wi
2020-11-09 10:37:26
2972
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人