越秀金科:
1.SQL 内连接和外连接的区别
2.python :算法 计算1000个单词出现频率第二高的单词的思路
字符出现次数统计
下面选取一个英文的文本,并对其中单词出现的次数进行统计,返回某个单词出现的次数
python一行代码能实现的功能,就不要用两行。
sentence = 'hello world nihao world hey hello java world hi python yeoman word'
#先把字符串分割成单个单词列表
list1 = sentence.split()
#['hello', 'world', 'nihao', 'world', 'hey', 'hello', 'java', 'world', 'hi', 'python', 'yeoman', 'word']
print list1
#把列表转为结合,为了去除重复的项
set1 = set(list1)
#set(['java', 'python', 'word', 'nihao', 'hey', 'yeoman', 'hi', 'world', 'hello'])
print set1
#把集合转为列表,集合元素没有顺序,没有索引属性,而列表有
list2 = list(set1)
#['java', 'python', 'word', 'nihao', 'hey', 'yeoman', 'hi', 'world', 'hello']
print list2

使用sorted lambda 取出所有键值进行排序

3.xgboost和GBDT相同点和不同点
4.如何对未上市的公司发展现状进行衡量,未上市的公司没有市盈率等指标 如何进行建模
5.选一个最熟悉的项目,从头到尾介绍以下项目全部流程
6.NLP:如何使用NLP提取上市公司的研报里的摘要(爬虫)
7.碰到解决不了的问题,困难,如何应对
哈啰出行:(数据分析金融部)
1.SQL:内连接和外连接的区别,窗口函数的作用,groupby的作用,为什么会使列数减少。
2.python:apply()和map()的区别 (不会)
1.apply()是一种让函数作用于DataFrame中行或列的操作。
2.applymap()是一种让函数作用于DataFrame每一个元素的操作。
3.map()是一种让函数作用于Series每一个元素的操作。



pandas 怎么连接DATEFRAME concat 列axis=0行axis=1
3.数据分析师,你的优势是什么
4.数据分析的基本流程是什么
补充内容 python
1.numpy,用来做多维数组的运算的,之前在xx项目中用numpy做一些数据运算的工作。
2.pandas,用来处理表格和复杂数据的,我主要用它在数据清洗这一步。
3.matplotlib,用来数据可视化,在对处理好的数据我想简单看一下频数分布或者相关性之类的很轻松的可以画出图片。
4.sklearn,用户机器学习建模,在数据建模这部分用到,我经常用的模型有随机森林和gbdt和xgb(引导面试官问这两者的区别)。
斐波拉契数列

5.Python的list和numpy的array有什么区别(工商银行)
参考答案
1.list可以存放不同类型的数据,比如int、float和str,甚至布尔型;而一个numpy数组中存放的数据类型必须全部相同,例如int或float。
2.在索引方式上,numpy.array支持比list更多的索引方式。
6.数据处理主要用的就是pandas里面的函数。
去重:drop_duplicates()
填充缺失值:fillna()
处理某列:apply(),map()applymap() lambda函数
替换函数:replace()
7.python方面的读取json(美团)
如果你要处理的是文件而不是字符串,你可以使用json.dump() 和 json.load()来编码和解码 JSON 数据。 例如: # 写入一个json数据 with open('data.json', 'w') as f:json.dump(data, f) ;with open('data.json', 'r') as f:data = json.load(f)
map() 会根据提供的函数对指定序列做映射。map(function, iterable, ...)---function:函数;iterable:一个或多个序列
8.python 实现数组逆序

360数科
项目
百度国际化事业(电商部)
1.作为数据分析师,你的优势有哪些?
-
数学知识
-
分析工具
-
编程语言
-
业务理解
-
逻辑思维
-
数据可视化
-
协调沟通
成为一名数据分析师所需要具备的技能总结:
数学知识
对于初级数据分析师来说,则需要了解统计相关的基础性内容,公式计算,统计模型等。当你获得一份数据集时,需要先进行了解数据集的质量,进行描述统计。
而对于高级数据分析师,必须具备统计模型的能力,线性代数也要有一定的了解。
分析工具
对于分析工具,SQL 是必须会的,还有要熟悉Excel数据透视表和公式的使用,另外,还要学会一个统计分析工具,SAS作为入门是比较好的,VBA 基本必备,SPSS/SAS/R 至少要熟练使用其中之一,其他分析工具(如 Matlab)可以视情况而定。
编程语言
数据分析领域最热门的两大语言是 R 和 Python。涉及各类统计函数和工具的调用,R无疑有优势。但是大数据量的处理力不足,学习曲线比较陡峭。Python 适用性强,可以将分析的过程脚本化。所以,如果你想在这一领域有所发展,学习 Python 也是相当有必要的。
当然其他编程语言也是需要掌握的。要有独立把数据化为己用的能力, 这其中SQL 是最基本的,你必须会用 SQL 查询数据、会快速写程序分析数据。当然,编程技术不需要达到软件工程师的水平。要想更深入的分析问题你可能还会用到:Exploratory analysis skills、Optimization、Simulation、Machine Learning、Data Mining、Modeling 等。
业务理解
对业务的理解是数据分析师工作的基础,数据的获取方案、指标的选取、还有最终结论的洞察,都依赖于数据分析师对业务本身的理解。
对于初级数据分析师,主要工作是提取数据和做一些简单图表,以及少量的洞察结论,拥有对业务的基本了解就可以。对于高级数据分析师,需要对业务有较为深入的了解,能够基于数据,提炼出有效观点,对实际业务能有所帮助。对于数据挖掘工程师,对业务有基本了解就可以,重点还是需要放在发挥自己的技术能力上。
逻辑思维
对于初级数据分析师,逻辑思维主要体现在数据分析过程中每一步都有目的性,知道自己需要用什么样的手段,达到什么样的目标。对于高级数据分析师,逻辑思维主要体现在搭建完整有效的分析框架,了解分析对象之间的关联关系,清楚每一个指标变化的前因后果,会给业务带来的影响。对于数据挖掘工程师,罗辑思维除了体现在和业务相关的分析工作上,还包括算法逻辑,程序逻辑等,所以对逻辑思维的要求也是最高的。
数据可视化
数据可视化主要借助于图形化手段,清晰有效地传达与沟通信息。听起来很高大上,其实包括的范围很广,做个 PPT 里边放上数据图表也可以算是数据可视化。
对于初级数据分析师,能用 Excel 和 PPT 做出基本的图表和报告,能清楚地展示数据,就达到目标了。对于稍高级的数据分析师,需要使用更有效的数据分析工具,根据实际需求做出或简单或复杂,但适合受众观看的数据可视化内容。
协调沟通
数据分析师不仅需要具备破译数据的能力,也经常被要求向项目经理和部门主管提供有关某些数据点的建议,所以,你需要有较强的交流能力。
对于高级数据分析师,需要开始独立带项目,或者和产品做一些合作,因此除了沟通能力以外,还需要一些项目协调能力。
2.python的数据透视表参数?

-
data:dataframe格式数据
-
values:需要汇总计算的列,可多选
-
index:行分组键,一般是用于分组的列名或其他分组键,作为结果DataFrame的行索引
-
columns:列分组键,一般是用于分组的列名或其他分组键,作为结果DataFrame的列索引
-
aggfunc:聚合函数或函数列表,默认为平均值
-
fill_value:设定缺失替换值
-
margins:是否添加行列的总计
-
dropna:默认为True,如果列的所有值都是NaN,将不作为计算列,False时,被保留
-
margins_name:汇总行列的名称,默认为All
-
observed:是否显示观测值
3. 概况一下你的业务理解,业务能力对你的项目的业务方面 提出了哪些建议
1.在分析电商业务逻辑的过程中,我们已经发现平台、商家、用户的利益诉求并不相同,并且三种角色存在着利益上的博弈关系。从宏观的角度来说,平台/用户可以利用在博弈关系中取得的优势达成自己的目的、商家并无太多反抗之力,但从微观的角度来看,每个商家、每个用户都可能做出扩大自己的利益的行为。
在千万商品、过亿用户的电商平台上,商家和用户的某些行为可能严重破坏平台环境、拉低线上交易效率,因此平台必须要对违规行为进行管控。幸运的是,无论商家和用户采用何种行为令自己获利,最终这些行为都会体现在交易信息上,因此**平台管控商家/用户异常行为的工具就是——订单异常检测系统**。
在不了解电商业务的状况下,大部分人很难理解订单究竟为什么会“异常”。在复杂的电商业务状况下,大量情况都可能是异常订单
(滥用买家权益,滥用卖家权益,物流异常,违法交易等)
对电商平台而言,每日检测异常订单能够维护平台交易环境,保护商家和用户处于相对公平的竞争环境中。对商家而言,异常订单检测系统能够快速筛选出非真实购买意愿、以及无法正常完成交易流程的订单,提升订单的处理效率。当然了,鉴于电商“交易”的自然属性,在明确阻碍交易流程的事件发生之前,即便订单被系统认为是异常,商家可能也不会主动叫停交易。因此异常检测系统更多是监督商家和用户行为、并针对高风险订单预警。
2.了解每个玩家的价值,对游戏的广告投放策略和高效的运营活动(如精准的促销活动和礼包推荐)具有重要意义,有助于给玩家带来更个性化的体验。类似入用户画像
例如最后对高价值低价值的用户进行划分 高价值用户包括好战用户和氪金潜力用户
低价值用户包括 菜鸡用户 流失用户 肝帝用户

4.在完成项目时,你遇到了哪些困难,如何解决
5.分析百度电商部门的新功能 延迟收货功能的签收率低的原因
要提高签收率,就要从影响签收率的因素下手:1、产品问题2、物流问题3、客户问题
产品问题 差异 • 在前期运营中图片渲染适度,避免与实物相差过大 价格 • 适度定价,保证产品质量,在定价的时候参考竞品的价格 核对 • 在发货前仔细核对产品型号与套餐,避免错发漏发。 检查 • 在发货之前检查产品外观,确保产品完好无损。 包装 • 在不影响利润的情况下,包装尽量有特点有新意,可以送点小礼品
物流问题 选快递 • 选择自营服务好的、收货率比较高的快递 • 网点覆盖率比较高的物流公司 快递包装 • 包装要紧实 • 在外包装贴上贴心提示:“小心易碎 ”等提示 核对地址 • 发货前与客户核对该地区是否支持货到付款,如果不支持,更换付款方 售后处理 • 及时查看快递员反馈派送失败的原因,并及时沟通二次派送
客户问题 (1)发货前核对订单,确认订单的有效性及电话地址的真实性(2)发货前与客户进行电话沟通,确认购买意向(3)如果客户变更了地址,及时与客户沟通
可以对签收率较低排名前几的用户进行用户画像,分析用户的行为数据,消费习惯,对于多次拒收的用户进行降权处理。以提升交易效率(淘宝的新增修改下单地址)业务流程
① 商品存在差异
商品差异是导致收货率存在差异的根本原因。其实很好理解,举个服装类和功能类的例子,大家对比看看就能明白了。
- 服装类
每个人每天必须要接触的就是服装了,然而大家购买服装所会考虑的因素却不尽相同。
比如说有的人对于质量的要求更高、对于服装面料材质要求的不同、对于款式的眼光不同或是更多的考虑性价比等等,每个人的价值观都不一样,所以在购买二类电商的服装类商品时会去参考的因素就会很多,而考虑的因素越多,签收率就越低。
根据数据显示,虽然服装类的产品是整个二类电商行业最好做爆款的,却也是收货率最低的:
客服服务的差异
做二类电商的我们经常容易忽视的就是客服服务这块,认为是无关紧要的一个环节。其实不然!经测试,提高客服的服务水平可以同步帮助提高2~5%的收货率!可别再认为客服不重要了!相信大家平时在逛某宝看评论的时候如果看到夸赞客户服务好的评论,是不是自己也会下意识对这个产品更多了一份信任?
二类电商同理可得,声音甜美咬字清晰的客服会让客户产生亲切感,多一分信任感,就高一分提高签单率!
接下来,再从客服服务的确认订单&物流跟单两个环节来具体说说怎么去提高客服的服务意识。
- 确认订单环节
这是我们必打电话的一个环节,不管客户有没有接电话,因为你得让客户知道你是非常关心他的。
小技巧:记住在跟客户确认订单的时候不要再对商品进行描述,只需确认地址即可!万一有些人是冲动消费,再听了一遍描述当下觉得不再需要了直接电话里就拒收了岂不得不偿失?
话术参考:
快递机制
目前京东、顺丰这两家是最适合二类电商的物流。首先在服务上这两家就一直是好评如潮,毕竟最后送到客户手里的是快递员,快递员的服务素养也非常重要;其次送达的速度快,因为送货时间越长,签收率也会有概率下降。
对平台的影响
拉低平台信任度,用户粘性降低,影响平台整体满意度。
对商家的影响
影响商家利润率,货品库存积压,占用资金,影响产品复购率。
对顾客的影响
耗费时间、精力,影响物品的及时使用。
有道数据运营实习
1.简单介绍以下你的两个项目,阐述业务意义。
2.sql 窗口函数 聚合函数 常用的
3.excel 常用函数有哪些
4.简述一下你的业务思维能力(自由发挥 广告相关的)
oppo 数据分析实习
1.主键,外键,索引的区别
2.sql的执行顺序
from join on where groupby having select orderby
3.where having 的区别
4.union 和 union all 区别
5.聚集索引 非聚集索引
统计学
假设检验 怎么判断一个分布是正态分布 (除了画图以外,使用计算)
通俗易懂的方式说一下显著性水平
t检验和z检验的区别 应用范围哪里不同
z检验和t检验的区别是,1、定义不同,t检验的样本含量较小,总体标准差未知;z检验的样本含量较大,服从标准正态分布。2、应用范围不同,t检验的应用比z检验更广泛。当样本总体符合z分布时,取部分小样本也符合t分布;当样本总体符合t分布时,扩大样本量,数据将逐渐符合z分布。
如果一个分布不是正太分布而是泊松分布,如何构建假设统计量
(除了 Z T F 以外)
机器学习
基尼系数,信息增益,信息增益率三者的区别,提升点
ID3 C4.5 C5之间的提升
ID3(信息熵)=
CART(基尼系数) 

ID3局限性主要是,对缺失值敏感,无法处理连续型变量,没有剪枝的设置。
CART的优化:修正信息增益的计算方法,增加分支度的计算,某子节点总样本占父节点总样本的比例。
提升点:避免那些分类水平过多,信息熵减少过快的特征影响建模,减少过拟合情况

kmeans的k选取的思路
kmeans对异常值非常敏感 怎么处理
java 数据结构
快手实习
1.问项目经历
2.sql 说5个聚合函数
窗口函数如何实现sum() OVER
first_value last_value
SQL 每个课程成绩最高和最低的同学的 name id
课程 ID 课程名称 SCORE 班级 学生ID name
我的方法
SELECT name ,id ,score from
(SELECT *, rank over (partition by 课程名称 ORDER BY SCORE DESC) r from 表)s
where r = 1
union
SELECT name ,id ,score from
(SELECT *, rank over (partition by 课程名称 ORDER BY SCORE ) r from 表)s
where r = 1
面试官答案
SELECT name ,id ,score ,first_value OVER(PARTITION BY 课程名称 ORDER BY score DESC) 最高分,FROM 表 where score = 最高分
GROUP BY 课程名称
union
SELECT name ,id ,score ,last_value OVER(PARTITION BY 课程名称 ORDER BY score DESC) 最低分,FROM 表 where score = 最低分
GROUP BY 课程名称
大数据平台 人工客服算法 数据看板
本文介绍了数据分析师所需掌握的关键技能,包括SQL、Python、数据处理、机器学习、NLP等,并通过实例展示了如何使用这些技能进行数据统计、异常检测、业务理解等。同时,文章探讨了在遇到问题时的解决策略,以及在不同公司中数据分析师的角色和挑战,如电商业务的订单异常检测、提高签收率的策略等。此外,还涵盖了数据可视化的工具和方法,以及大数据平台的人工客服算法数据看板的应用。
2027

被折叠的 条评论
为什么被折叠?



