- 博客(203)
- 资源 (2)
- 收藏
- 关注
原创 PostgreSQL中使用窗口sum()
SQL 错误 [42601]: ERROR: syntax error at or near “sum”¶ Position: 1796。
2023-05-23 18:40:50
786
原创 psycopg2 使用 executemany 新增数据 爆 can‘t adapt type ‘numpy.int64‘
使用psycopg2将一下DataFrame的数据,插入到PostgreSQL的某个模式中,具体方法如下:
2023-02-21 16:43:49
1183
原创 psycopg2连接PostgreSQL下的不同模式(SCHEMA)
在PostgreSQL下有很多个不同模式(SCHEMA),psycopg2连接指定默认public的模式。current transaction is aborted, commands ignored until end of transaction block获取列名字
2023-02-09 11:18:24
2323
原创 HIVE near LEFT voucher_post_date in select clause
【代码】HIVE near LEFT voucher_post_date in select clause。
2022-11-25 08:45:04
562
原创 wps/excel 正则表达式 提取数字
本来想着使用Python,用正则表达进行数据的处理,但是考虑到业务人员不会使用Python,在进行使用的时候,发现业务人员使用的是wps,原微软中的一些公式在wps中没有。
2022-08-23 15:28:21
2798
2
原创 pymysql 向MySQL 插入数据无故报错
pymysql.err.ProgrammingError: (1064, “You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near ‘-支付买家数,粉丝支付买家数,加购商品-支付买家数,引导店铺’...
2022-06-20 14:35:04
1882
3
原创 2022春招面试总结
时间 公司 地点 岗位 关注核心 渠道 面试形式 工作职责:12月1日 文远知行 海珠 数据分析 自动驾驶领域 boss 笔试(挂) 1月20日 素士 天河 数据分析 过(没去有点后悔) 2月10好 天长信息 数据挖掘 高速公路领域的数据分析 boos 面试取消 2月11号 丝一 天河 数据分析(偏编程) 约面失败 2月15号 东软 中邮机器人 boos 面试失败 2月16号 若羽臣 BI管培生 boss 面试失败 2月16号 广州信用卡中心 系统岗 boss 一面失败
2022-06-19 15:29:19
322
原创 中国联通 22春招 群面
题目:将一个3.1米的卡车,中间可能需要过一个3m的隧道,运送到山顶进行5G基站的建设问题:1)设计方案,尽可能的完善2)不考虑,对应的时间和成本如果可以,选出一名代表人进行总结发言总结:一定给过隧道:1)从隧道本身,说是限高3m,但是3.1m的车也可能可以过(或者对隧道进行改造)2)从车本身,针对车进行改造,例如将车胎放气,需改车的底盘3)从货物本身,将货物进行拆解,然后换小车进行将获取分批运过去,然后进行组装(更甚至是不直接把货放下,人工将货物搬过去)不一定过隧道:(核心点是找另一
2022-05-30 14:09:50
493
原创 Python自动化办公word、ppt转pdf
Python自动化办公,在工作的过程中偶尔会遇到大量的word、ppt转pdf的情况,针对这情况,归纳了一份Python使用,希望可以加大办公的效率!import osimport comtypes.clientdef get_path_for_word(): # 获取当前运行路径 path = os.getcwd() print('当前路径:' + path) # 获取所有文件名的列表 filename_list = os.listdir(path)
2022-03-26 15:01:10
2095
原创 常见数值型类型特征
在一些数值型类型的,常使用的特征###连续型的统计特征,如均值、方差等##传入:去掉id和label的DataFrame##传出:特征DataFramedef psfeatureTime(data): #data = pd.Series(data) # 均值 df_mean = data.mean(axis=1) # 方差 df_var = data.var(axis=1) # 标准差 df_std = data.std(axis=1)
2022-03-23 22:36:22
719
原创 Python获取前几天的时间
在处理文件的时候,有些时候会经常使用某个时间范围的数据针对这种天天手写str的情况,写个方法调用~import datetimedef get_before_day(day, before): today = datetime.datetime.strptime(day, '%Y-%m-%d') offset = datetime.timedelta(days=-before) result = (today + offset).strftime('%Y-%m-%d')
2022-03-14 12:02:38
1351
原创 商品常见指标 - 商品毛利
最近接触到一个很有意思的东西 - 商品毛利 - 代表商品的正负盈亏状况:商品毛利 = (商品售价-商品成本)/商品售价
2022-02-10 10:49:27
388
原创 mysql中获取累计数据
有较长一段时间没写SQL,最近快速的捡起遗忘的一些点语法:sum(字段1) over(partition by 字段2 order by 字段3 rows between unbounded preceding and current row) as 新字段名参考:https://blog.youkuaiyun.com/weixin_43332500/article/details/105033468...
2022-02-08 10:05:26
493
原创 DataFrame中列的顺序改变
一个强强迫症患者,针对一些列的顺序格外难受,利用一下可以改变列的顺序order = ['date', 'time', 'open', 'high', 'low', 'close', 'volumefrom', 'volumeto']df = df[order]
2022-01-25 16:55:12
930
原创 数据库中字段类型转换
把字符串类型的字段转换成整形处理:select max(CAST(id AS int)) from dictionary;其中:CAST(id AS int)的意思是把字符串类型的id转换成int类型,然后使用max比较函数得到id值最大的结果!当然了,还有一种办法,就是把id改为整形类型,就不用转换了。...
2022-01-16 17:12:07
1729
原创 type Vector takes type parameters
在参考:http://dblab.xmu.edu.cn/blog/1454-2/进行学习的时候突然发现爆出一个这样的bug最后只要改成这样就可以了解释:vector是个容器,需要添加类型
2022-01-01 17:14:00
830
原创 兴趣电商-人货场
抖音电商作为新一代内容电商(也可以称为兴趣电商),与传统电商(淘宝等)和社交电商(拼多多等)存在一定的差异。作为内容电商,抖音电商主要从两方面去创造用户感兴趣的内容从而吸引消费者。一是通过创造视频端的内容去获取精准粉丝,二是通过创造匹配用户的商品端内容去吸引精准用户。运营抖音号就是内容电商的主要运营方式,那抖音平台如何帮助抖音电商解决市场,效率和品牌三大问题?一方面,通过多元化的内容场景让抖音电商的品牌有更多机会出现在用户眼前,激发用户购买需求。另一方面,抖音平台通过简化了购买路径
2021-11-10 09:57:10
454
原创 Hive - DDL(data define language)(库表得增删改)
DDL(data definition language):数据库定义语言,也就是对于Hive中的一些表、数据库进行增删改的操作1 创建数据库1)创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。hive (default)> create database db_hive;2)避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法)hive (default)> create database if
2021-10-24 20:06:36
863
原创 Hive的数据类型
一、基本数据类型对于Hive的String类型相当于数据库的varchar类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储2GB的字符数。二、集合数据类型针对集合数据类型比较难理解,特地拿了一个例子——进行举例:1)假设某表有如下一行,我们用JSON格式来表示其数据结构。在Hive下访问的格式为2)访问三种集合列里的数据,以下分别是ARRAY,MAP,STRUCT的访问方式三 类型转化类似Java中的了数据类型的转化机制,小转大可以,但是大转小
2021-10-24 17:02:01
1515
原创 Hive基本操作
在学习的过程中,经常忘记hive的一些操作命令(例如启动,关闭),特定把一些常用的操作命令給记下来(1)启动hive[atguigu@hadoop102 hive]$ bin/hive(2)查看数据库hive>show databases;(3)打开默认数据库hive>use default;(4)显示default数据库中的表hive>show tables;(5)创建一张表hive> create table student(id int, name
2021-10-24 16:20:25
824
原创 Hive基础概念
1.1 什么是hiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在YARN上总结:HQL首先根据映射表,从HDFS中获取对应的路径,然后将Hive转化为对应的MR操作1.2 Hive的优缺点1.2.1 优点1)操
2021-10-24 15:47:16
753
原创 源起:这是一场悲催的笔试
最近,面了一个挺好的公司,所处的地理位置和方向都是我喜欢的,在面试中跟两位面试官聊的还是可以的,本以为能过~但是在面完之后,突然发了一份笔试的笔试题过来一看,sql应该问题不大(微笑)二看,hive,我的天hive的语法我基本上忘记了三写,因为hive大多数忘了,所以使用就使用了mysql的语法进行笔试,并告知面试官我使用的是mysql,以及附上自己的解决思路最后的最后我挂了,回头反思一下,挂的点很有可能就是hive这里一狠心开始复习之前所学习的hive——避免春招,突然遇到这种心痛不已的
2021-10-24 14:35:39
1229
原创 APP的数据指标体系构建(举例)
在对产品进行学习的时候,看到一个有趣的题目,特此记录下来进行学习其中然我感触最深的是2.2问的思路,对于一个活动的成效,单纯只是看指标是不可以接受的,需要考虑其它的因素问题下载星巴克APP,并基于该产品并阐述以下问题1.请为该产品搭建一个完整的指标体系2.假设以下场景:我们所在的应用团队希望促进用户充值,并鼓励使用余额消费,请你为它涉及一个运营活动,其中包括:①如何策划该活动②如何评估该活动的活动效果针对问题1针对问题2.1针对问题2.2完整的思维导图如下:参考:htt
2021-10-16 15:43:00
828
原创 [群邑]那几个月的日子
距离我的第一份实习已经过去挺久来着,我实习在一家知名的广告公司,在这期间收获了很多,在国庆的这段时间,针对这段实习经历进行一次复盘,记录下实习的那几个月!文章目录1 工作1.1 本职1.2 知识2 成长2.1 养成习惯2.2 主动性2.2 资源收集(核心!)2.3 沟通能力2.4 技术能力2.5 业务能力3 不足3.1 效率3.2 专业度3.3 哑巴1 工作1.1 本职对于我的本职工作主要有以下三部分组成:一是正常的取数、周报、月报:先说取数,大概是占这部份工作的50%,别看这部份内容很简
2021-10-07 16:22:41
232
原创 nlp情感分析
如果相对一个评论信息进行打分,你该如何操作?正常的情况下,使用训练的模型对评论进行打分,不仅需要进行建模、打标签、模型的调优,这是一件很繁琐的事情!这里记录两个方法,一是直接调用SnowNLP库,二是调用百度的接口一:直接调用SnowNLP库(因为该模型使用的是买菜市场的评论信息,进行打分时存在一定误差)from snownlp import SnowNLPimport pandas as pd# 读取文件df = pd.read_excel('评论.xlsx')# 数..
2021-10-04 21:04:38
415
原创 任务计划管理器:——》电脑自动化运行程序
人物计划管理器(注意不要含中文名字!)最核心只要知道3个参数怎么放程序或者脚本:pyhton.exe(固定格式补需要修改)添加参数:E:\temp2\2020\autodata.py(你python文件的绝对路径)起始于:E:\temp2\anaconda(python.exe的绝对路径)...
2021-08-30 17:43:54
266
原创 [卡牛]春招笔试
这是卡牛的一道数据分析题目:“你爱我、我爱你、蜜雪冰城甜蜜蜜…”真得也太洗脑了蜜雪冰城一直在产品、价格、渠道、推广上走的都是亲民化路线,恰恰是这样的策略,蜜雪冰城稳稳的站住了下沉市场,这次mv的主要目标1.提高品牌声量、促进产品销售转化2.进一步塑造”亲民平价“的品牌形象其中mv的主要特点:1.画面以ip形象“雪王”为主角、魔性起舞、视觉层面增加品牌ip形象曝光2.bgm改变英文民谣《哦,苏珊娜》,只有一句歌词、洗脑、节奏欢快、产生病毒效果传播渠道官方首选发布在了年轻人文化沃土与文化交流的
2021-08-22 22:25:13
2139
原创 一个无限容量的超级计算机,最多可以连接多少个tcp 2021年秋招笔试题
昨天网易笔试的时候,突然遇到了一个这样的题目:一个无限容量的超级计算机,最多可以连接多少个tcp?这样的题目,真心优点出乎我的意料,因为这好像偏开发的岗位,而不是数据分析岗位!趁着还有记忆,过来回顾老早学的计算机网络,翻出来去年学的思维导图笔记最后,我们来看看这到题的解决思路【个人思路+网上参考】:首先我们看看TCP协议的表头:我们可以知道源端口和目的端口,总共占了32位,那么一半就是16个字节所以对于一个IP来讲,最多可以连接2^16-1 = 65535个tcp...
2021-08-22 21:49:33
367
原创 原来漏斗分析应该这样用!
写在前面:今天阅读了一个有趣的文章~原来漏斗分析可以这么使用!它最主要的思想如下:一共进来了多少流量,表达意图的流量占比如何,占比大小可能代表存在什么样的问题,实现意图的流量是多少,多少是否反映我们这个功能的好坏?核心观点是,因为漏斗分析是纵向的分析,但是在每一个漏斗模块可以横向进行分析,细扣流量的变化以及意图。原文如下:Original 胖里 胖里的日常 Today朋友们好呀,我是胖里,欢迎来到我的每周一更。今天算是有感而发,聊点跟漏斗分析相关的内容。这两天在数据管道公众
2021-08-05 10:34:13
281
原创 CNN中各结构的闪光点(巧妙构思!)
1 传统的神经网络模型中,使用多个线性模型+非线性的激活函数,使神经网络极富变化线,可以有效拟合数据的分布情况,但是也容易造成过拟合。2 卷积(主要是卷积核)标准卷积结构反卷积(使用在图像分割中)空洞卷积(使用空洞——扩大感受野)深度分离卷积(使用1*1的结构,极大减少了参数,使用模型可以训练的更快,有效嵌入!)1 池化平均池化,最大池化——》可以凸显有效特征的重要性,同时减少了参数全连接引用了大大的权重矩阵,以及非线性的激活函数结构...
2021-08-04 13:37:23
140
原创 深度学习中的规范化(BN、LN等四种规范化)
这篇文章介绍深度学习四种主流的规范化, 分别是Batch Normalization(BN[9]), Layer Normalization(LN[7]), Instance Normalization(IN[8])以及Group Normalization(GN[2])。 1. 作用 为啥用Normalization? 这是因为训练深度神经网络会收敛很慢,很有可能发生梯度弥散或者梯度爆炸。用了Normalization可以训练得很快,学习更好。 2. 做法 给定输入xx则是BN层的可学..
2021-08-03 19:45:37
1164
原创 输出分析建议的人太多,沉淀数据思维做成数据产品的人太少!
有些时候建议,也仅仅是建议!而最好的结果是将建议转化为产品!成体系!输出分析建议的人太多,沉淀数据思维做成数据产品的人太少!
2021-08-03 18:51:40
139
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人