自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 Mac上安装Anaconda后无conda指令,显示command not found: conda

在base环境下可以使用conda。terminal打开输入。可先参考,对我不适用。其中一个方法对我有用。

2023-11-09 14:00:57 1012 1

原创 hivesql string数值排序

hivesql string排序

2023-03-07 14:20:32 548

原创 Hivesql常用常新

hivesql

2023-01-11 14:24:31 172

原创 Dataworks使用记录

1. 调度参数设置bizdate = $[yyyymmdd-1+6/24] 6/24与数据和时区有关。(时区调度的问题 +6/24 调度时间为18:10, dt即为后天)(时区调度的问题 +6/24 调度时间为18:10, dt即为后天)目前的方案:协调依赖表生产完成时间,此表修改调度时间为17:10...

2022-01-17 16:07:01 354

原创 MAXcompute 使用问题记录

1. 20220113 遇到的问题情景: sql完成编译发布,表格提交生产环境,运行周期实例补数据20121210-2022011020220115开始的补数据日志中出现报警:Summary: WARNING:[101,79] implicit conversion from STRING to DOUBLE, potential data loss, use CAST function to suppress结果:20220115开始的数据丢失无用:查询到的官方解释不兼容SQL重写 (

2022-01-13 11:44:53 289

原创 QuickBI 使用记录

记录算法工程师在数据分析方面的小白问题和解决方案。1.数据源同步遇到问题情况:阿里云Maxcompute,同步空间和链接准确,但无法读到空间内的全部生产表。问题定位:原始用的key账号无法实时读到空间内的新生产表,每次申请不现实。已解决:新建空间管理账号,赋予自定义权限。阿里云项目空间:操作人需为dataworks空间管理员。Maxcompute空间管理:https://workbench.data.aliyun.com/console#/MCEngines操作人(da.

2021-12-31 10:18:37 1049

原创 Pyspark S3操作记录

1. sparkdataframe to

2021-12-06 10:44:23 177

原创 bass 找拐点

1. 数据源#datadata = spark.sql('''select * from data_pre.card_member_weeks''')data_df = data.toPandas()data_df['amt'] = data_df['amt'].apply(pd.to_numeric)week1_data = data_df[data_df['type']=='week1'].sort_values(by = "weeks").reset_index().drop(inde

2021-11-15 17:32:06 1095

原创 pyspark 基础设置

1. 常用package和参数import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.mixture import GaussianMixture as GMMfrom sklearn.mixture import GaussianMixturefrom sklearn.cluster import KMeansfrom sklearn import metricsfrom skle

2021-11-12 14:52:40 1638

原创 常用python数据处理

1. min_max_scaledef min_max_scale(value,city_min, city_max): if value<= city_min: return 0 elif value >= city_max: return 1 else: return (value-city_min)/(city_max-city_min)2. list 交集 差集 并集# 获取两个list 的交集li

2021-11-09 10:41:22 240

原创 pycharm logger 打印日志

1. logger.pyimport loggingimport oslog_dir = '../log_d'if not os.path.exists(log_dir): os.makedirs(log_dir)#创建一个loggerlogger = logging.getLogger(__name__)logger.setLevel(logging.DEBUG)#创建一个handler,用于写入日志文件log_path = log_dir+"/" # 指定文件输出路

2021-11-04 16:44:15 2331

原创 Python 交互数据库总结

1. 入库大数据量且快速,使用IO。import iofrom sqlalchemy import create_enginedef write_to_table(df, table_name,schema, if_exists='append'): #engine database db_engine = create_engine('//user:password@host/dbname') string_data_io = io.StringIO() d...

2021-11-03 14:37:09 917

原创 Pyecharts html交互可视化

1. Packagefrom pyecharts import options as optsfrom pyecharts.charts import Bar, Line,Pagefrom pyecharts.faker import Faker2. Bar functiondef bar_store() -> Bar: bar = ( Bar() .add_xaxis(year_time) .add_yaxis(

2021-11-01 17:50:11 402

原创 Light GBM 实际训练

1. Packageimport loggerimport joblibimport lightgbm as lgbfrom sklearn.model_selection import train_test_splitfrom sklearn.model_selection import GridSearchCVfrom sklearn.metrics import mean_squared_error, mean_absolute_erro2. Regression 指标1.

2021-11-01 13:53:39 408

原创 geohash 总结

buffersjoinread_as_json个人工作总结参考文章:

2021-10-27 11:19:47 625

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除