- 博客(92)
- 资源 (3)
- 收藏
- 关注

原创 使用python查询mongodb指定一段时间数据
mongodb中保存的数据是使用ISODate类型"lastAccessTime" : ISODate("2015-02-13T11:57:27.003Z")在mongodb中,如果想获取11月14号之后的数据,可以直接这样来写查询条件{'crawler.date':{'$gte':ISODate("2018-11-14T00:00:00Z")} }但是python中没有ISODate类型...
2018-11-14 09:40:37
44590
2

原创 【2018】python面试题大全【爬虫阶段】
96. git常见命令作用某个文件夹中的内容进行版本管理:进入文件夹,右键git bashgit init 初始化,当前所在的文件夹可以被管理且以后版本相关的数据都会存储到.git文件中git status 查看当前文件夹以及子目录中文件是否发生变化:内容修改/新增文件/删除,已经变化的文件会变成红色,已经add的文件会变成绿色git add . 给发生变化的文件(贴上一个标签...
2018-07-26 19:35:54
37994

原创 使用python抓取App数据
App中的数据可以用网络爬虫抓取么答案是完全肯定的:凡是可以看到的APP数据都可以抓取。 下面我就介绍下自己的学习经验和一些方法吧 本篇适合有过web爬虫基础的程序猿看 没有的的话学的可能会吃力一些App接口爬取数据过程使用抓包工具手机使用代理,app所有请求通过抓包工具获得接口,分析接口反编译apk获取key突破反爬限制需要的工具:夜神模拟器Fiddler...
2018-07-24 12:50:37
67665
6
原创 【数据分析实战】马来西亚吉隆坡景点评论分析:多维度游客体验与运营优化洞察
本次分析揭示了吉隆坡景点的多维游客体验,结合评论数据提出了切实可行的优化建议。未来,可以引入时间维度分析游客感受的变化趋势,并拓展数据来源,如社交媒体评论,进一步提升研究的全面性和深度。ps:需要数据集或定制数据可以联系作者该分析仅供学习交流使用,禁止用于商业用途,不构成任何投资建议。大数据分析为运营和各行业带来了前所未有的机会,使企业能够更敏锐地洞察市场、优化运营,并更有效地应对竞争和变革。在信息时代,充分利用大数据分析,将成为企业取得竞争优势的不可忽视的关键要素。
2025-01-15 11:10:08
1726
原创 【数据分析实战】24年T4某二手车交易平台数据分析
本次分析使用的数据来自某大型二手车交易平台,数据涵盖了全国范围内第四季度363089 条二手车源,包括车况、品牌、价格、车龄、公里数、挂牌城市等多个维度。我们对数据进行了严格的清洗和预处理,确保分析结果的准确性。车辆基本信息:品牌、车型、排量、变速箱类型等。市场交易信息:价格、挂牌城市、过户次数、挂牌及更新日期等。附加特征:新车指导价、车龄、公里数、环保标准等。通过对二手车交易平台363089 条公开数据的深入分析,我们发现品牌、车龄以及地域差异等因素显著影响着二手车的价格和市场走势。
2024-12-31 13:42:41
1681
原创 【年终总结】2025对公司各项工作的50条意见与建议
这些建议涉及公司各个方面的改进和提升,旨在帮助公司优化运营、加强管理、提升团队协作以及提升员工幸福感与企业文化建设
2024-12-17 16:14:49
11300
原创 【大模型】FAISS向量数据库记录:从基础搭建到实战操作
RAG系统的成功在很大程度上取决于其高效地获取和处理海量信息的能力。向量数据库又在其中发挥了不可替代的作用,并构成了RAG系统的核心。向量数据库专门用于存储和管理高维向量数据,它们能把文本、图像、音频甚至视频转换为向量并存储。RAG系统最终能实现的效果就取决于这些底层向量数据库的表现。在众多向量数据库和向量库中,每个都有自己的一些特点,选择一个适合自己应用场景的也需要经过评估,本文将介绍FAISS的基本搭建和使用。本文介绍了FAISS在RAG系统中的重要作用以及其基本使用方法。
2024-07-16 18:09:27
3880
2
原创 【数据分析】用Python做事件抽取任务-快速上手方案
OmniEvent库和大模型各有优缺点,适用于不同的应用场景。如果您需要快速实现事件抽取并且对特定领域有较高的定制化需求,OmniEvent是一个不错的选择。如果您追求高精度和强泛化能力,并且预算充足,可以考虑使用大模型。无论选择哪种方法,都需要根据具体需求和资源情况进行权衡。希望本文能为您的事件抽取任务提供一些有价值的参考。大数据分析为运营和各行业带来了前所未有的机会,使企业能够更敏锐地洞察市场、优化运营,并更有效地应对竞争和变革。
2024-06-17 09:15:00
1466
1
原创 【数据分析实战】华住与锦江市场布局与未来趋势解析Python数据分析采集爬虫
华住和锦江作为酒店行业的两大龙头企业,通过对它们在市场布局、战略定位和资源分配等方面的分析,我们发现锦江更加注重在二、三线及以下城市的布局和发展,致力于提升单个门店的规模和品质,更加注重品质提升和服务创新,在高端市场有一定的竞争优势;而华住则更倾向于在一线城市布局更多的门店,在市场扩张方面表现出更为积极的态势,通过在各级城市广泛布局,取得了较大的市场份额。随着城市发展和旅游需求的变化,华住和锦江都面临着新的挑战和机遇。
2024-05-09 09:25:11
930
原创 【数据分析实战】印尼雅加达咖啡市场分析:品牌排名与市场趋势解读
印尼,作为位于赤道的“万岛之国”,拥有得天独厚的地理和气候条件,以及丰富多样的文化和种族,孕育了多元化的咖啡文化。当地人对咖啡的热爱如火如荼,在雅加达的街头,各种咖啡店、小推车以及特色饮品无不展示着印尼人对于咖啡的热情。无论是平价的街头小推车咖啡,还是国际大牌的高品质享受,抑或是本土连锁的性价比之选,印尼人在咖啡选择上有着丰富的体验。在这个竞争激烈的市场中,消费者更偏爱哪种咖啡方式?印尼咖啡市场将在哪些方面迎来增长?咖啡品牌商应如何抓住消费者的需求?最近,我对印尼雅加达。
2024-04-03 10:28:04
1900
原创 【数据分析实战】用猛男必备的可视化库做春节档最火电影【第二十条】影评数据分析-1
综合分析来看,《第二十条》在观众中引起了较大的关注,大部分观众给予了较高的评分,表明电影在整体上获得了一定程度的认可和喜爱。通过NER抽取,我们也了解到观众对于电影中的主要演员和导演的关注程度,这有助于我们进一步了解电影的受众群体和市场表现。接下来,我们将在下一篇博客中继续深入挖掘评论中的好评和差评,以更全面地了解观众对于这部电影的评价。敬请期待!需要采集数据的可以联系我~该分析仅供学习交流使用,禁止用于商业用途,不构成任何投资建议。
2024-02-29 16:33:18
1451
原创 【数据分析实战】冰雪大世界携程景区游客客源分布pyecharts地图
通过对冰雪大世界5528条携程用户公开评价的深入分析,我们深入了解了客源的情况,以及景区在哪些地区推广较弱等。该分析仅供学习交流使用,禁止用于商业用途,不构成任何投资建议。大数据分析为运营和各行业带来了前所未有的机会,使企业能够更敏锐地洞察市场、优化运营,并更有效地应对竞争和变革。在信息时代,充分利用大数据分析,将成为企业取得竞争优势的不可忽视的关键要素。本人数据分析领域的从业者,拥有专业背景和能力,可以为您的数据挖掘和分析需求提供支持。
2024-01-16 17:50:57
1645
原创 【数据分析实战】冰雪大世界携程景区评价信息情感分析采集词云
通过对冰雪大世界5528条携程用户公开评价的深入分析,我们深入了解了游客的评价情况,以及景区在不同方面的优势和改进空间。该分析仅供学习交流使用,禁止用于商业用途,不构成任何投资建议。大数据分析为运营和各行业带来了前所未有的机会,使企业能够更敏锐地洞察市场、优化运营,并更有效地应对竞争和变革。在信息时代,充分利用大数据分析,将成为企业取得竞争优势的不可忽视的关键要素。本人数据分析领域的从业者,拥有专业背景和能力,可以为您的数据挖掘和分析需求提供支持。
2024-01-05 09:53:19
3110
4
原创 【数据分析实战】华住集团酒店行业洞察:节假日与工作日表现对比
随着旅游业的蓬勃发展和疫情逐渐得到控制,酒店行业正在逐渐走出低谷。华住集团,作为行业的佼佼者,其门店在假日和工作日的表现成为了投资者和行业观察者关注的焦点。今天我们通过对采集到的数据分析下各酒店类型入住率和日均价数据,了解华住集团在不同时间段的运营特点。我们通过华住会和其他公开渠道采集到了8026条酒店数据,其中包括了各个门店的基本信息、评分、房间数、房型剩余、房型价格等多维度数据。这些数据是我们分析的基础,通过Python中的数据处理库和可视化工具,我们得以深入挖掘这一海量信息中的有价值的洞见。
2023-12-14 18:01:36
1704
3
原创 【数据分析实战】酒店行业华住集团门店分布与评分多维度分析
近年来,随着旅游业的迅猛发展和疫情后经济的复苏,酒店行业备受关注。华住集团作为中国领先的酒店集团之一,通过分析它的门店分布和各方面的评分数据,能够更深入地了解这个行业的运作和表现。为了更全面地洞察酒店行业的运营状况,我采集了华住网站上的公开数据,并结合Python中的pyecharts和pandas等工具进行了详尽的分析。通过这些分析,我们希望看到华住集团在门店分布、服务品质等方面的独特之处,以及如何适应旅游业和经济波动的挑战。
2023-12-08 14:00:54
2066
原创 【咖啡品牌分析】Google Maps数据采集咖啡市场数据分析区域分析热度分布分析数据抓取瑞幸星巴克
瑞幸咖啡: 瑞幸咖啡在近年来取得了令人瞩目的增长,成为市场上的新兴力量。市场多样性: 新加坡的咖啡市场呈现出多样性,包括国际品牌(如Starbucks、The Coffee Bean & Tea Leaf)和本地品牌(如Craftsmen Coffee)等。这表明消费者在咖啡选择上有广泛的品牌和类型可供挑选。本地品牌竞争力: 一些本地品牌在市场中表现出色,具有较高的评分和品牌知名度。反映了本地品牌成功创造独特价值、吸引消费者的能力。国际品牌的存在。
2023-11-17 16:31:14
2560
5
原创 牛!playwright 一行命令一键把html网页保存为pdf,太方便了!
今天介绍将HTML网页抓取下来,然后以PDF保存,也可以将自己写好生成的HTML转成PDF。废话不多说直接进入教程。
2023-10-16 09:35:16
1912
原创 【问大家】电商问答数据的采集与深度分析-2
本篇介绍了评价、问答相关的实际案例,展示了数据分析如何在实际场景中产生积极影响。这些案例说明数据分析在产品决策、市场营销等方面的重要性。无论是产品还是运营,数据分析都是其日常工作中不可忽略的一个板块。期待着能够与您共同探索更多有意义的数据洞见,为您的项目和业务提供数据分析方面的帮助。数据分析领域的从业者,拥有专业背景和能力,可以为您的数据挖掘和分析需求提供支持.
2023-09-15 17:38:13
1595
原创 全量数据采集:不同网站的方法与挑战
在当今数字化时代中,有数据就能方便我们做出很多决策。数据的获取与分析已经成为学术研究、商业分析、战略决策以及个人好奇心的关键驱动力。本文将分享不同网站的全量数据采集方法,以及在这一过程中可能会遇到的挑战。数据采集是探索数字世界的关键一步。通过了解不同网站的全量数据采集方法,我们能够更深入地了解特定领域、市场和用户行为。然而,我们要谨慎行事,遵守法律和伦理规定,以确保数据采集的合法性和合规性。爬虫工具是有用的,但思路更加重要,它们可以帮助我们解决数据获取和分析中的各种问题。
2023-09-15 14:41:13
1652
原创 【问大家】电商问答数据的采集与深度分析
本篇介绍了评价、问答相关的实际案例,展示了数据分析如何在实际场景中产生积极影响。这些案例说明数据分析在产品决策、市场营销等方面的重要性。无论是产品还是运营,数据分析都是其日常工作中不可忽略的一个板块。期待着能够与您共同探索更多有意义的数据洞见,为您的项目和业务提供数据分析方面的帮助。数据分析领域的从业者,拥有专业背景和能力,可以为您的数据挖掘和分析需求提供支持.
2023-09-02 16:54:24
1697
1
原创 【产品分析】如何利用咖喱外卖店铺数据进行营销分析Python
在外卖平台上经营咖喱店铺时,海量的订单数据和用户评价等信息将成为商家优化营销策略的重要依据。然而,面对大量的数据,如果没有合适的分析方法,这些数据就变得毫无意义。本文将介绍如何使用Python中常用的可视化工具和方法,对咖喱店铺数据进行分析和可视化展示,以辅助商家制定更好的营销策略。首先,商家需要收集并清理所需的数据。这些数据包括商品、商品销量、商品好评率、店铺评分、店铺销量、位置、品牌等信息。本人收集了全国31个城市开通外卖并且销售咖喱商品的店铺,该分析分享选取【北京】这个城市,作为本次数据分析的数据,共
2023-04-28 17:45:29
1012
原创 【产品分析】战斗民族电子商务平台OZON-美妆类目采集分析分析
近年来,美妆行业在全球迎来蓬勃发展,海外美妆市场体量在不断提升,不少国产美妆也在塑造自身品牌的同时寻求出海机遇。以前科技并不怎么发达,不仅没有这么多形形色色的化妆品,也不知道哪些化妆品卖得好?化妆品的价格分布是怎样的呢?什么地方的化妆品销量最高呢?简直有十万个为什么,希望别人给我们解答。随着科技的飞速发展,互联网沟通了你我他。我们通过Ozon上美妆的销量,就可以解决我们想要知道的好多问题。基于此,我爬取了平台上3000多条月饼的销售数据,为大家展示了一幅漂亮的可视化大屏,解决大家心目中的问题。
2023-02-23 16:18:32
3626
2
原创 2023年Python面试题(真题)【入门】
Python是目前编程领域最受欢迎的语言。在本文中,我将总结大厂Python面试中最常见的多个问题。每道题都提供参考答案,希望能够帮助你在2023年求职面试中脱颖而出,找到一份高薪工作。这些面试题涉及Python基础知识、Python编程、数据分析以及Python函数库等多个方面。
2023-01-12 13:40:55
694
原创 【产品分析】amazon数据采集亚马逊数据分析评论分析竞品
通过观察国外平台蓝海关键词,发现Gun这类商品在平台较受欢迎。本文将采集呀马逊上的Gun这个类目作为今天产品分析的数据。采集数据使用的是Python1、呀马逊对于国外的IP友好,对于国内IP不友好。2、小规模采集可以使用香港VPN或者美国IP直接通过 request请求即可数据集展示:本次采集了1501条数据,过滤掉没有价格或已售空或不支持售卖地区的商品还剩1096条可用数据集;数据仅供参考~定期更新以技术的角度分析产品的文章。
2022-12-09 17:37:25
1482
原创 【产品分析】某红书数据采集数据分析评论分析笔记爬虫采集
伴随着购买力及消费水平的日益提高,健康养生的观念日益普及,我国居民消费者更加注重自身健康管理及生活品质的提高。提前摄取保健品提高健康水平、并减少药品治疗的健康理念得到社会广泛认同,营养保健食品消费日渐成为习惯。同时环境污染等问题日益突出,亦扩大了功能性软糖等营养保健食品行业的市场需求。随着国内消费者对功能性软糖产品认可度的提升,近年来国内外厂商积极布局功能性软糖市场。今天就来分享下软糖的产品设计辅助分析方法1、抓取相关关键词的大量笔记。2、抽取关键数据,如笔记中提到的口味、使用场景、购买渠道等。
2022-11-14 12:26:21
3872
6
原创 某人均月薪十万社交平台数据问题采集分析-某乎
在平台上看到一个《有哪些不怎么知名,待遇却很好的公司?》的话题,有15,473关注者,被浏览次数达8,043,171,看来很多人在默默关注这类信息,于是决定通过爬虫技术、自然语言处理技术对该话题进行统计分析。...
2022-07-21 11:51:56
216
2
原创 【爬虫】Laza大商品采集维度数据分析
Laza大东南亚地区最大的在线购物网站之一。 获得德国创业孵化器RocketInternet桑威尔兄弟(SamwerBrothers)支持,目标主要是印尼、马来西亚、菲律宾以及泰国用户。 该集团自2016年起成为阿里巴巴集团东南亚旗舰电商平台。采集目标采集新加坡地区的手机分类商品,并通过个维度指标进行占比分析。爬虫代码开发该网站没有设置复杂反爬虫机制,只需要挂上随机ip请求即可。这里就不在分析反爬虫解析了。爬虫code直接上采集代码import requestsimport reimp
2022-03-07 18:03:53
1549
1
原创 【app爬虫】某宝详情页《问大家》数据采集分析
背景介绍问大家这个版块对于卖家和买家都有很重要的作用。就买家来说,现在越来越依赖“问大家”作为参考。里面的问题很多都直接指向产品质量和服务质量,从而判断是否值得购买。但是同时对于卖家来说也直接影响到产品的转化,通过问题和答案可以很好地反映出当前产品的优点和不足,所以做好一板块至关重要。接口分析抓包由于手机tb有链接分享功能,所以可跳过app抓包,直接复制链接到浏览器打开,通过谷歌浏览器开发者工具的帮助可对接口请求进行分析采集。1、打开手机淘宝,随意浏览个宝贝2、进入宝贝详情页,进入问大家主
2022-03-04 09:55:12
3304
2
原创 ptyhon获取修改当前工作路径
import osos.chdir("目标目录") #修改当前工作目录os.getcwd() #获取当前工作目录
2021-12-31 16:44:10
352
原创 python 获取内存和cpu的使用率
获取远端设备的内存使用率和CPU使用率Python前辈封装了一个Paramiko模块,允许我们通过SSH对远程系统进行操作,上传和下载文件非常方便。他的使用很直观,下面是使用Paramiko封装的一个获取cpu、内存使用率的一个例子;import paramikoimport timelinux = ['192.168.11.111']def connectHost(ip, uname='root', passwd='bjzh@2020#7120'): ssh = paramiko..
2021-07-29 14:41:21
15382
6
原创 python requests 库 跳过ssl 验证
# -*- coding: utf-8 -*-import requestsimport sysreload(sys)sys.setdefaultencoding('utf-8')#import ssl#ssl._create_default_https_context = ssl._create_unverified_contextproxy_handler = {'http': ...
2020-03-06 12:05:04
38931
1
原创 Elasticsearch-head 请求头 Content-Type header 设置
ElasticSearch搭建完成后准备使用es-head建立索引时发现Content-Type错误了看一下网络流可知报406 错误{ "error" : "Content-Type header [application/x-www-form-urlencoded] is not supported", "status" : 406}解决办法进入head插件安装目录编辑/u...
2019-12-20 10:30:15
38930
2
原创 使用Docker安装部署ElasticSearch和ElasticSearch-Head
什么是 Elasticsearch想查数据就免不了搜索,搜索就离不开搜索引擎,百度、谷歌都是一个非常庞大复杂的搜索引擎,他们几乎索引了互联网上开放的所有网页和数据。然而对于我们自己的业务数据来说,肯定就没必要用这么复杂的技术了,如果我们想实现自己的搜索引擎,方便存储和检索,Elasticsearch 就是不二选择,它是一个全文搜索引擎,可以快速地储存、搜索和分析海量数据。为什么要用 Elast...
2019-12-20 10:20:44
34804
原创 对公司的建议_工作总结
1、一些实验操作方法能够制作成视频或者把操作规程做成牌子挂在相应的仪器或设备旁边。有利新员工的培训及老员工养成规范性操作的习惯。2、体检:公司能够每年为员工组织一次健康体检,在公司指定的医院进行。3、有的制度无法有效的推行。培养员工的认识水平和自觉意识,然后相关部门应当加强监管,持之以恒。4、关爱员工让员工感觉到家的温暖,提高工作热情。5、公司应当认真的对待每一个员工提出的推荐,组织相关人...
2019-12-17 17:54:13
43536
原创 Python 技巧十则
根据Stack Overflow的介绍,Python是增长最快的编程语言。福布斯》的最新 报告 指出,Python去年增长了456%。Netflix使用Python,IBM使用Python,其他数百家公司都使用Python。让我们不要忘记Dropbox。Dropbox也是用Python创建的。根据 Dice的研究, Python也是拥有的最热门的技能之一,并且根据“编程语言索引的流行度”,...
2019-12-04 09:40:46
32470
2
原创 Python 海象运算符 (:=) 的三种用法
随着Python 3.8的发布,赋值表达式运算符(也称为海象运算符)也发布了。运算符使值的赋值可以传递到表达式中。 这通常会使语句数减少一个。 例如:my_list = [1,2,3]count = len(my_list)if count > 3: print(f"Error, {count} is too many items")# 当转换为海象运算符时...if ...
2019-11-30 21:42:23
19434
6
印尼雅加达咖啡店Googlemap数据集202403
2024-04-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人