
数据分析及可视化
文章平均质量分 83
数据分析及可视化
大模型爱好者社区
传道授业解惑!
展开
-
效率真高!众安保险数据分析岗(实习)面试通过了,分享一下面试经验!
最近,我们社群组织了一场技术&面试讨论会,邀请了一些互联网大厂同学、参加社招和校招面试的同学,针对新手如何入门数据分析、机器学习算法、该如何备战、面试常考点分享等热门话题进行了深入的讨论。基于社群的讨论,今天我整理了一个同学的面试题,分享给大家,希望对后续找工作的有所帮助。今天面了众安保险的数据分析岗,感觉很顺利,但是拢共就面了20min,还是有点没底更新一下:过啦,当天下午三点面 五点就通知通过了!!效率真高。面试流程:自我介绍过去实习中影响最深刻的一个项目两个简单的SQL,口述就行。原创 2024-03-02 21:54:54 · 1746 阅读 · 0 评论 -
推荐收藏!数据分析岗最走心的面经!
年底了,技术群组织了一场机器学习算法岗技术&面试讨论会,邀请了一些同学分享他们的面试经历,讨论会会定期召开,,下文是我们邀请的一位同学的写的都说2023年是互联网寒冬,亲身真正经历后来看,深圳寒冬这说法完全不过分。深圳互联网厂太少了,动不动就是锁hc。写在开头的建议:真心建议面试前/投简历时先了解清楚在招的岗位是否和自己的能力、职业规划匹配!!如果JD信息不明确,建议先提前沟通清楚,避免面试过程发现不是自己想做的,会很浪费精力(面不过影响情绪,面过也容易被养鱼),还错过了投其他岗位的黄金时间。原创 2024-02-08 01:13:19 · 1727 阅读 · 0 评论 -
【数据分析岗】8家知名企业秋招(含实习)面试题汇总
年底了,技术群组织了一场机器学习算法岗技术&面试讨论会,邀请了一些同学分享他们的面试经历,讨论会会定期召开,原创 2024-02-08 01:03:59 · 2091 阅读 · 0 评论 -
【数据挖掘岗】9家互联网、知名企业秋招(含实习)面试题汇总
年底了,技术群组织了一场算法岗技术&面试讨论会,邀请了一些同学分享他们的面试经历,讨论会会定期召开,原创 2024-02-08 00:39:27 · 1171 阅读 · 0 评论 -
面了中邮消金算法岗、开水团数据挖掘岗,做个系统性总结
最近技术群的同学,分享了面试数据挖掘/算法岗(实习)的经验。原创 2024-01-28 23:08:15 · 758 阅读 · 0 评论 -
面了快手电商数据分析师岗(实习),被问的汗流浃背。。。。
最近技术群的一位同学,分享了他面试快手数据分析师岗(实习)的经验。我看了一下面试题,说实话内容不难,他直言没有认真准备。原创 2024-01-28 22:49:45 · 1644 阅读 · 0 评论 -
推荐收藏!40 道数据挖掘面试真题大放送!
K-fold 交叉验证就是把原始数据随机分成 K 个部分,在这 K 个部分中选择一个作为测试数据,剩余的 K-1 个作为训练数据。交叉验证的过程实际上是将实验重复做 K 次,每次实验都从 K 个部分中选择一个不同的部分作为测试数据,剩余的数据作为训练数据进行实验,最后把得到的 K 个实验结果平均,用于评价模型的泛化能力,从而进行模型选择。原创 2024-01-24 22:57:02 · 1942 阅读 · 0 评论 -
推荐收藏!48道数据分析师高频面试题汇总!
大家好,最近很多小伙伴私信我,讲一下数据分析的面试题,今天给大家整理了48道数据分析师面试时被频繁问到的题目,找数据分析岗位的同学一定要码住认真看。原创 2024-01-24 22:39:02 · 7011 阅读 · 0 评论 -
功能炸裂!5个很酷的 Jupyter Notebook 技巧
今天分享了一些令人难以置信的 Jupyter 技巧。我相信这些提示将提升您的Python编程效率。原创 2024-01-22 10:06:27 · 1331 阅读 · 0 评论 -
推荐收藏!数据分析必会的 10 个 python 库!
大家好,今天给大家分享除了基本的 NumPy、Pandas 和 Matplotlib 之外的 10个流行的数据分析 Python 库。原创 2024-01-21 23:18:18 · 3956 阅读 · 0 评论 -
太强大了!GPT-4 和 JupyterLab 联合起来了
Chapyter 作为一个的扩展插件,它能把GPT-4完美地融入到你的开发环境中,并配备了一个代码解释器,能将自然语言快速转换为Python代码并自动执行。Chapyter通过在你经常使用的IDE中实行,有助于提高你的工作效率,让你有更多的机会去探索和实践一些新的创意。原创 2024-01-18 23:55:20 · 737 阅读 · 0 评论 -
我用 ChatGPT 做了一次探索性数据分析,真的太太太实用了!
探索性数据分析(Exploratory Data Analysis, EDA)是数据分析过程中的关键步骤,通常通过视觉和统计方法检查和理解数据集的主要特征。识别模式和异常:发现模式可以带来洞察力,而异常则可能表明数据质量问题或有趣的异常值。提出假设:在初步探索的基础上,你可以对观察到的现象的原因提出假设。检查假设:EDA 对于验证或挑战统计模型或机器学习模型所做的假设很有用。为进一步分析做准备:清洗、转换并选择正确的特性,以便进行更深入的分析或建模。描述性统计。原创 2024-01-18 23:43:25 · 4079 阅读 · 0 评论 -
面试必备!回归模型最强总结,内容太通透了!
先来进行一个简单的介绍,回归算法的重要性体现在其能够建立特征与目标之间的关系模型,实现预测、关系分析和特征重要性评估等多方面的应用。通过回归分析,我们能够理解变量之间的趋势、检测异常值、为决策提供支持,并在时间序列中进行趋势分析,为数据科学和实际问题提供有力的工具。原创 2024-01-16 21:43:01 · 1158 阅读 · 0 评论 -
用了这8个 Python 数据挖掘工具包,生产力明显得到了提升!
在进行数据科学时,可能会浪费大量时间编码并等待计算机运行某些东西。所以我选择了一些 Python 库,可以帮助你节省宝贵的时间。原创 2024-01-15 14:21:19 · 1313 阅读 · 0 评论 -
PyGWalker,一款超级强大的数据分析和数据可视化的工具库
PyGWalker可以有效简化Jupyter笔记本的数据分析和数据可视化工作流程,方法是将panda数据帧转换为Tableau风格的用户界面进行可视化探索。PyGWalker被命名为“的Python绑定”的缩写。它集成了Jupyter笔记本(或其他基于Jupyter的笔记本)和,后者是Tableau的另一种开源替代品。它允许数据科学家通过简单的拖放操作分析数据并可视化模式。原创 2024-01-14 10:42:27 · 3326 阅读 · 0 评论 -
面试必备!机器学习模型全面总结!
机器学习是一种通过让计算机自动从数据中学习规律和模式,从而完成特定任务的方法。附注:除了以上两大类模型,还有半监督学习和强化学习等其他类型的机器学习模型。半监督学习是指在有部分标签数据的情况下,结合监督学习和无监督学习的方法进行模型训练。强化学习是指通过让计算机自动与环境交互,学习出如何最大化奖励的策略。不同的机器学习模型适用于不同的任务和场景。在实际应用中,需要根据具体的问题和数据特点选择合适的模型和方法。同时,机器学习也需要结合具体领域的知识和业务需求来进行深入研究和应用。转载 2024-01-10 15:55:56 · 1422 阅读 · 0 评论 -
实战案例!风控实战催收评分卡(附 Python 源码)
在风控环节中,传统观念A卡为主、B卡C卡为辅,但是在市场逐步饱和、政策利率要求越来越低的背景下,B卡和C卡也越来越重要。本文以简易贷后数据实战催收评分模型,预测在用户逾期后、未来能否催回。数据来源某比赛网站,包括逾期用户的年龄、收入情况、家庭人员数、债务情况、历史逾期情况等等,预测变量为订单是否会逾期90天+,数据集中均为数值型变量、且字段较少,所以适合零基础、初学者上手练习。计算iv及特征缺失率,可以看到仅有两个变量存在少部分缺失,其中历史的逾期变量iv整体偏高。。原创 2024-01-09 14:41:15 · 1811 阅读 · 0 评论 -
实战案例!一文详解银行营销响应模型(附 Python 代码)
数据来源某比赛网站(下图仅为部分字段),该数据集包含有关葡萄牙银行机构电话营销活动的信息,为了评估产品(银行定期存款)是否会被认购,通常需要与同一客户进行多次联系,最终电话营销后是否进行定期存款为目标变量,以此来识别哪些是营销响应的客户,通过训练模型可以预测出未来哪些客户响应概率高、从而优化电话营销动作的人力配置。文末获取数据集。原创 2024-01-09 09:51:21 · 2601 阅读 · 0 评论 -
yyds,4 个 Pandas 必备神器!
上面的这些包可以在Jupyter Notebook中将dataframe转换为交互式表。Itables 和Qgrid比较轻量,可以让我们快速的查看数据,但是如果你想进行更多的操作,例如生成一些简单的可视化图表,那么Pivottablejs和Pygwalker是一个很好的工具。原创 2024-01-09 09:27:46 · 667 阅读 · 0 评论 -
基于Python +Echarts+Mysql ,我搭建了一个招聘分析系统(附源码)
大家好,今天给大家分享一个招聘分析系统,使用的技术有:Pycharm + Python3.7 + Requests库爬取 + Mysql + Echarts首页有各类图表的综合分析,用户在打开招聘分析系统后在首页就能看到相应的图表分析。通过后端的爬虫程序在各类在线平台或者招聘网站上获取的数据信息,保存到mysql数据库表,再经过可视化技术传回给前端界面,就能实现饼图、直方图、折线图、扇图等丰富的展示形式。原创 2024-01-06 10:51:41 · 1802 阅读 · 0 评论 -
机器学习模型超参数优化,最频繁使用的5个工具包
优化超参数始终是确保模型性能最佳的关键任务。通常,网格搜索、随机搜索和贝叶斯优化等技术是主要使用的方法。今天分享几个常用于模型超参数优化的 Python 工具包,如下所示:scikit-learn:使用在指定参数值上进行的网格搜索或随机搜索。HyperparameterHunter:构建在scikit-learn之上,以使其更易于使用。Optuna:使用随机搜索、Parzen估计器(TPE)和基于群体的训练。Hyperopt:使用随机搜索和TPE。原创 2024-01-06 10:16:42 · 694 阅读 · 0 评论 -
10个显著提高生产力的 Jupyter Notebook 插件
这个扩展通过提供自动代码完成建议来提高编码效率。Hinterland提供了一个潜在匹配列表,加快了编码过程,这在处理长或复杂的函数名时特别有用。它减少了打字错误和语法错误的可能性,简化了开发工作流程。使用 Jupyter Notebook 可以方便地进行数据探索、模型训练、报告撰写等任务。而扩展组件可以扩展Jupyter Notebook 的基本功能,无论是在操作数据、可视化趋势还是展示发现,扩展都可以增强工作流程,使数据科学工作更加简便和高效。原创 2024-01-02 23:12:07 · 1920 阅读 · 0 评论 -
我用 Python 自动生成图文并茂的数据分析报告
reportlab是Python的一个标准库,可以画图、画表格、编辑文字,最后可以输出PDF格式。它的逻辑和编辑一个word文档或者PPT很像。有两种方法:1)建立一个空白文档,然后在上面写文字、画图等;2)建立一个空白list,以填充表格的形式插入各种文本框、图片等,最后生成PDF文档。因为需要产生一份给用户看的报告,里面需要插入图片、表格等,所以采用的是第二种方法。原创 2024-01-02 23:04:18 · 1503 阅读 · 0 评论 -
功能真强大!5个令人惊叹的 Jupyter 黑科技
Jupyter 是一种功能强大的交互式计算环境,被广泛应用于数据分析、机器学习、科学计算等领域。除了常见的基本功能外,Jupyter还隐藏着许多令人惊叹的黑科技,这些功能可以帮助用户更高效地完成工作,提升工作体验。在本文中,我来总结了5个Jupyter黑科技,与大家分享按照老规矩,原创 2024-01-01 17:18:51 · 1223 阅读 · 0 评论 -
企业级实战项目:基于 pycaret 自动化预测公司是否破产
本文系数据挖掘实战系列文章,我跟大家分享一个数据挖掘实战,与以往的数据实战不同的是,用自动机器学习方法完成模型构建与调优部分工作,深入理解由此带来的便利与效果。原创 2023-12-26 22:09:51 · 1678 阅读 · 0 评论 -
不用再找了,这是机器学习算法最全面的总结(实战案例、面试总结)
哈喽,这几天老有人问,我该怎么才能最高效的学习机器学习算法?其实说白了,就是很多初学者比较迷茫,不知道该如何下手。想要在有限的时间范围内,更加高效的学到应该学到的知识。想要学到的知识能更快地应用于公司实践的项目、或者社招、校招面试中。原创 2023-12-25 11:42:43 · 670 阅读 · 0 评论 -
强烈推荐!7个强大的无代码数据科学工具!
无代码数据科学工具通过可视化界面和自动化流程,使数据分析、建模和可视化等任务变得简单。本文介绍了7个强大的无代码数据科学工具,帮助您快速入门和探索数据科学领域。原创 2023-12-24 10:23:28 · 935 阅读 · 0 评论 -
这6个探索性数据分析工具,太实用了!
当进行数据分析时,探索性数据分析(EDA)是一个至关重要的阶段,它能帮助我们从数据中发现模式、趋势和异常现象。而选择合适的EDA工具又能够极大地提高工作效率和分析深度。在本文中,笔者将介绍6个极其实用的探索性数据分析(EDA)工具,这些工具能够帮助您更好地理解数据、发现隐藏的信息,并为后续分析和决策提供有力支持。让我们一起来看看这些工具是如何帮助我们探索数据世界的吧!技术交流技术要学会交流、分享,不建议闭门造车。一个人可以走的很快、一堆人可以走的更远。好的文章离不开粉丝的分享、推荐,资料干货、资料分原创 2023-12-24 10:08:52 · 1638 阅读 · 0 评论 -
几行代码教你自动操作 PPT
在本文中,我们介绍了如何使用库创建、编辑和转换PPT文件。这个库非常简单易用,并且提供了完整的文档。如果需要操作PPT文件,这个库是非常好的选择。原创 2023-12-21 21:49:40 · 958 阅读 · 0 评论 -
最强 Pandas 平替工具库:Polars
Polars 的目标是提供一个闪电般快速的。原创 2023-12-21 21:44:09 · 1399 阅读 · 0 评论 -
Keras 3.0正式发布:可用于TensorFlow、JAX和PyTorch
经过 5 个月的更新迭代,Keras 3.0 终于来了。「大新闻:我们刚刚发布了 Keras 3.0 版本!」Keras 之父 François Chollet 在 X 上激动的表示。「现在你可以在 JAX、TensorFlow 以及 PyTorch 框架上运行 Keras……」对于这一更新,Keras 官方表示,这一版本足足花了他们 5 个月的时间进行公测才完成。原创 2023-12-16 23:37:00 · 1001 阅读 · 0 评论 -
用 Python 分析旅游热门城市,告诉你哪些景点性价比更高
通过对厦门景点介绍文本进行词云图绘制,我们很容易看出厦门的特点。典型的海滨休闲城市,帆船、鼓浪屿、游艇等词被大量提及,建筑、博物馆等词也有一定提及,体现出厦门浓厚的人文气息。#绘制词云图size=653,原创 2023-12-16 23:21:56 · 2227 阅读 · 1 评论 -
推荐4个优秀的 Python 时间序列分析库
本文向您介绍了时间序列分析的四个基本Python库:statmodels、tslearn、tssearch和tsfresh。时间序列分析是金融和医疗保健等各个领域的重要工具,在这些领域,我们需要了解数据随时间的变化趋势,以便做出明智的决策和预测。每个库都专注于时间序列分析的不同方面,选择哪个库取决于具体问题。通过结合使用这些库,可以处理各种与时间相关的挑战,从预测财务趋势到对医疗保健中的活动进行分类。当要开始自己的时间序列分析项目时,请记住这些库,结合着使用它们可以帮助你解决很多的实际问题。原创 2023-12-10 23:34:23 · 2646 阅读 · 0 评论 -
Pandas 库最常用方法、函数集合
Pandas 是Python数据分析处理的核心第三方库,它使用二维数组形式,类似Excel表格,并封装了很多实用的函数方法,让你可以轻松地对数据集进行各种操作。技术群的小伙伴自动发起,一起梳理了 Pandas 中常用的函数和方法,今天分享给大家,方便大家查询使用。原创 2023-12-10 23:18:11 · 1049 阅读 · 0 评论 -
再见Pandas,又一数据处理神器!
cuDF是一个基于Apache Arrow列内存格式的Python GPU DataFrame库,用于加载、连接、聚合、过滤和其他数据操作。cuDF还提供了类似于pandas的API。cuDF是一个Python GPU DataFrame库,它基于Apache Arrow的列式内存格式,用于加载、连接、聚合、过滤和以类似pandas的DataFrame风格API操纵表格数据。它允许数据工程师和数据科学家通过类似于pandas的API轻松加速其工作流程,而无需深入研究CUDA编程的细节。原创 2023-12-10 10:53:29 · 1015 阅读 · 0 评论 -
实战干货|Python 数据分析消费者用户画像
今天给大家介绍一个聚类和降维结合的项目,分为两块内容:直接使用原数据,经过数据预处理和编码后,基于原生的K-Means和PCA/T-SNE实现用户的聚类使用基于Transformer的预训练模型转换后的高维数据,再使用K-Means和PCA/T-SNE实现用户的聚类本文先介绍第一种方案的完整过程。原创 2023-12-10 10:15:06 · 2257 阅读 · 0 评论 -
使用贝叶斯网络检测因果关系,提升模型效果更科学(附Python代码)
虽然机器学习技术可以实现良好的性能,但提取与目标变量的因果关系并不直观。换句话说,就是:哪些变量对目标变量有直接的因果影响?机器学习的一个分支是贝叶斯概率图模型(Bayesian probabilistic graphical models),也称为贝叶斯网络(Bayesian networks, BN),可用于确定这些因果因素。在我们深入讨论因果模型的技术细节之前,让我们先复习一些术语:包括"相关性"(correlation)和"关联性"(association)。原创 2023-12-09 22:47:03 · 5194 阅读 · 0 评论 -
解释AI决策,这10个强大的 Python 库记得收藏!
XAI(Explainable AI)的目标是为模型的行为和决策提供合理的解释,这有助于增加信任、提供问责制和模型决策的透明度。XAI 不仅限于解释,还以一种使推理更容易为用户提取和解释的方式进行 ML 实验。在实践中,XAI 可以通过多种方法实现,例如使用特征重要性度量、可视化技术,或者通过构建本质上可解释的模型,例如决策树或线性回归模型。方法的选择取决于所解决问题的类型和所需的可解释性水平。原创 2023-12-09 22:20:23 · 1306 阅读 · 0 评论 -
基于相关性的四种机器学习聚类方法
在这篇文章中,基于20家公司的股票价格时间序列数据。根据股票价格之间的相关性,看一下对这些公司进行分类的四种不同方式。原创 2023-12-02 01:09:25 · 1463 阅读 · 0 评论 -
数据挖掘实战:基于 Python 的个人信贷违约预测
可用的训练数据包括用户的基本属性user_info.txt、银行流水记录bank_detail.txt、用户浏览行为browse_history.txt、信用卡账单记录bill_detail.txt、放款时间loan_time.txt,以及这些顾客是否发生逾期行为的记录overdue.txt。(注意:并非每一位用户都有非常完整的记录,如有些用户并没有信用卡账单记录,有些用户却没有银行流水记录。原创 2023-12-01 22:50:51 · 1689 阅读 · 0 评论