- 博客(967)
- 收藏
- 关注
原创 采集网页数据必备的6个爬虫工具
亮数据平台提供了强大的数据采集工具,比如Web Scraper IDE、亮数据浏览器、SERP API等,能够自动化地从网站上抓取所需数据,无需分析目标平台的接口,直接使用亮数据提供的方案即可安全稳定地获取数据。Data Miner是一款简单易用的网页数据挖掘工具,专注于深度数据抓取,提供多任务管理和自动化处理功能,以满足用户全面的数据采集需求。Scrapy是一个基于Python的开源爬虫框架,以其强大的扩展性、灵活性和活跃的社区支持,成为开发者进行复杂网页数据采集的首选工具。
2025-11-24 23:44:51
667
原创 推荐一个低代码爬虫工具,适合采集复杂网页
这里的snapshot id先不用管,你发送数据请求后爬下来的数据就会临时存储到亮数据平台上,然后会生成一个snapshot id(用于下载数据),接着你可以通过snapshot id再提取你想要的数据,snapshot id是唯一的,不用担心数据丢失。Scraper APIs是亮数据专门为批量采集数据而开发的接口,支持上百个网站,200多个专门API采集器,例如Linkedin的职位、公司、人员数据采集器,Tiktok的商品、短视频数据采集器,当然这些数据都是公开可抓取的,不会涉及任何隐私安全问题。
2025-11-24 23:39:58
468
原创 为什么周围人都推荐用vscode,真的好用吗?
vscode最受欢迎的功能是它的插件库,和Python有点像,Python因为第三方库生态极为丰富好用,成为最流行的编程语言,vscode也是囊括了成千上万种插件,比如python、jupyter、C++、docker、maven等常用插件。这需要从vscode本身的特性说起,其实它设计之初是一款基于Web的代码编辑器,主打跨平台、轻量化、插件丰富,后来逐步发展成了桌面端软件,成为了集编辑器、编译器、代码调试、插件库于一体的轻量化IDE。等,安装非常简单,直接能在代码框中使用,不需要额外安装软件。
2025-11-23 20:51:41
185
原创 数据分析为什么常用Jupyter而不是直接使用Python脚本或Excel?
Jupyter主要是用来做数据科学,其包含数据分析、数据可视化、机器学习、深度学习、机器人等等,任何Python数据科学第三方库都能在Jupyter上得到很好的应用和支持。其实它是集编程、笔记、数据分析、机器学习、可视化、教学演示、交互协作等于一体的超级web应用,而且支持python、R、Julia、Scala等超40种语言。在产品上,Jupyter不仅有简洁的Notebook ,还有工作台式的Lab,甚至线上平台化部署的Hub,对个人、团队、企业都可以完美支持。6、课堂编程相关的内容展示、实验。
2025-11-23 20:50:15
213
原创 如何评价Notion笔记软件?
近几年notion最重要的一个功能是notion AI,可以算是notion的大脑,不光可以创作文本和代码,还支持管理知识库,类似ima的功能,现在它又可以作为AI助理跨页面和知识库进行全面的管理,比如你传进去一段会议录音,它可以自动创建会议纪要,形成专业的结论报告。一来说明它的用户数量是巨大的,其次其用户质量是高的,从付费意愿就能看出来。另一方面,notion有个很重要的数据库设计,数据库可以是页面的合集,也可以是单个页面,你能在数据库页面编辑文字、添加资料、修改背景,这就形成了你的专属知识库。
2025-11-23 20:49:41
207
原创 目前适合落地的agent有哪些值得推荐的框架?
其次要用到Trae编辑器,这是一个AI原生的代码编辑器,是基于VsCode内核开发的,所以它有VsCode的几乎所有功能,最重要的是它支持直接部署大模型、智能体、MCP等,可以理解它就是一个超级编程智能体。首先是SQLite数据库,这是一个轻量化的开源数据库,它没有服务器,无需复杂的配置安装,就可以直接用,很适合制作AI应用。这是我将AI应用到实际工作的一个尝试,虽然有很多地方还不算满意,比如处理速度、研究深度等,但AI已经能达到初级工程师的水平,这是毋庸置疑的,再经过调教优化,会逐步进阶到中高级水平。
2025-11-23 20:48:41
567
原创 sqlite用的人多吗?
SQLite是一个轻量化的开源数据库,它没有服务器,无需复杂的配置安装,就可以直接用,很适合集成在APP、Web、小程序等应用里。里,SQLite MCP,能直接从集市里添加,然后在配置信息里输入前面的my_db.db数据库路径地址,保存即可。想要使用SQLite,一般是在Dbeaver这样的数据库管理工具里,Dbeaver也是开源工具,非常好用。所以说SQLite的应用场景非常广,绝对是良心数据库,体积小、安装快、无需配置,简直就是数据库中的小钢炮。对SQLite数据库进行操作,会用到SQLite库。
2025-11-23 20:48:01
171
原创 Vaex :突破pandas,快速分析100G大数据量
而vaex只会对数据进行内存映射,而不是真的读取数据到内存中,这个和spark的懒加载是一样的,在使用的时候 才会去加载,声明的时候不加载。Python中的pandas是大家常用的数据处理工具,能应付较大数据集(千万行级别),但当数据量达到十亿百亿行级别,pandas处理起来就有点力不从心了,可以说非常的慢。这里用的是hdf5文件,hdf5是一种文件存储格式,相比较csv更适合存储大数据量,压缩程度高,而且读取、写入也更快。换上今天的主角vaex,读取同样的数据,做同样的平均值计算,需要多少时间呢?
2025-11-20 18:16:01
734
原创 如何理解Python中的yield用法?
的函数是一个生成器,这个生成器有一个方法就是next,next就相当于“下一步”生成哪个数,这一次的next开始的地方是接着上一次的next停止的地方执行的。但是,如果数据集有某种逻辑,就不必存储在一个列表中,只需编写一个生成器,它将在需要时生成这些值,基本不占用内存。所以调用next的时候,生成器并不会从函数的开始执行,只是接着上一步停止的地方开始,然后遇到。的同胞兄弟来看,他们都在函数中使用,并履行着返回某种结果的职责。第三次调用也是如此,返回生成的值(3),生成器耗尽,程序终止;的函数被称为生成器。
2025-11-20 18:15:04
252
原创 如何最简单、通俗地理解Python的pandas库?
它可以帮助你任意探索数据,对数据进行读取、导入、导出、连接、合并、分组、插入、拆分、透视、索引、切分、转换等,以及可视化展示、复杂统计、数据库交互、web爬取等。pandas支持读取和输出多种数据类型,包括但不限于csv、txt、xlsx、json、html、sql、parquet、sas、spss、stata、hdf5。上面大部分库我都用过,用的最多也最顺手的是Pandas,可以说这是一个生态上最完整、功能上最强大、体验上最便捷的数据分析库,称为编程界的Excel也不为过。
2025-11-19 16:35:54
730
原创 我常用的一个MCP宝藏库,有点东西
这里简单科普下MCP,它是模型上下文协议,是Claude提出来的,用于在模型中调用外部的工具和数据,比如说调用google搜索、高德地图、支付宝、12306等功能,给大模型增加了很多能力。魔搭还有个比较好玩的功能-MCP广场,我很喜欢里面各种新奇好玩的MCP服务,配合DeepSeek、qwen等大模型一起用,能有想象不到的强大功能。魔搭广场的MCP非常齐全,有点类似于GitHub的仓库,包括了开发者工具、搜索工具、日程管理、浏览器自动化等常用的MCP,应该有上千个。最终大模型会调用MCP查询到相关火车票。
2025-11-18 17:07:16
429
原创 PDF提取Excel太麻烦?这个工具或许能帮你~
首先,pdfplumber能轻松访问有关PDF对象的所有详细信息,且用于提取文本和表格的方法高级可定制,使用者可根据表格的具体形式来调整参数。这次介绍一个开源python工具库-pdfplumber,可以方便地获取pdf的各种信息,包括文本、表格、图表、尺寸等。目前市场上有很多pdf工具,大部分是阅读类,也有支持对pdf的修改、转换等功能,但这部分工具不少是收费的。一个小小的脚本,不到十行代码,便将pdf表格提取并转化为dataframe格式,最终保存到excel。
2025-11-18 10:12:00
162
原创 最新网页爬虫利器,无代码采集复杂网站数据
最近用到一个非常简单的高级爬虫工具,亮数据的Scraper APIs,你可以理解成一种爬虫接口,它帮你绕开了IP限制、验证码、加密等问题,无需编写任何的反爬机制处理、动态网页处理代码,后续也无需任何维护,就可以“一键”获取Tiktok、Amazon、Linkedin、Github、Instagram等全球各大主流网站数据。1、在云上向Tiktok发出http数据请求 2、模拟登陆、配置IP代理、动态访问、识别验证码、破解加密数据等 3、解析获取的HTML,提取重要的字段,输出为json格式。
2025-11-17 16:53:12
1418
原创 我经常用到的数据采集工具,支持低代码爬虫
总得来说,对于代码能力不强的童鞋来说,现成的爬虫软件是比较好的选择,直接图形化界面点点点,能避免很多麻烦。而且要主要遵守各网站的规则协议,不能获取非合理数据,这个是底线。
2025-11-17 16:52:07
2554
原创 为什么这么多人质疑SQLite数据库?
比如在Trae里,SQLite MCP,能直接从集市里添加,然后在配置信息里输入前面的my_db.db数据库路径地址,保存即可。你也可以在Python对SQLite数据库进行操作,会用到SQLite库,这是Python标准库,不需要额外安装。说回来,SQLite是一个轻量化的开源数据库,它没有服务器,无需复杂的配置安装,就可以直接用,非常适合单机场景。所以说SQLite的应用场景非常广,绝对是良心数据库,体积小、安装快、无需配置,简直就是数据库中的小钢炮。最近看到有个问题:SQLite用的人多吗?
2025-11-16 11:06:55
323
原创 使用RPA实现自动化采集数据,适合小白入手
这里解释下RPA的操作原理,以八爪鱼RPA为例,它有循环、条件判断、流程等过程指令,通过网页自动化、桌面自动化、Excel操作、八爪鱼爬虫、飞书、AI等交互动作实现复杂操作,最终通过中台的任务调度将这些指令动作串起来实现自动化。现在普遍降本增效的大环境下,RPA绝对是企业和个人自媒体提升运营效率的一大利器,而且随着八爪鱼RPA AI生成功能的出现,任何技术小白都可以运用好RPA,让我想起一句话:不用担心你的工作会被AI取代,但被会用AI的人取代。八爪鱼RPA现在注册能直接领取上百个应用免费使用,可以试试。
2025-11-14 17:34:44
839
原创 SQLite数据库安装和使用教程
SQLite是一个轻量化的开源数据库,它没有服务器,无需复杂的配置安装,就可以直接用,很适合集成在APP、Web、小程序等应用里。里,SQLite MCP,能直接从集市里添加,然后在配置信息里输入前面的my_db.db数据库路径地址,保存即可。想要使用SQLite,一般是在Dbeaver这样的数据库管理工具里,Dbeaver也是开源工具,非常好用。所以说SQLite的应用场景非常广,绝对是良心数据库,体积小、安装快、无需配置,简直就是数据库中的小钢炮。对SQLite数据库进行操作,会用到SQLite库。
2025-11-14 17:31:06
382
原创 使用Trea配置SQLite数据库MCP,实现AI自动化数据处理
最近一直在摸索如何用AI解决实际的业务问题,发现AI在调用数据库和处理数据上有些发挥的空间,于是我做了一个自动化数据处理的智能体,名叫“数分神器”,有以下3个核心功能:1、支持连接SQLite数据库,并实现抽取、写入的功能2、支持SQL、Python处理数据,按要求进行数据清洗、转换、透视等3、支持导出数据报告,并生成matplotlib图表这3个功能能涵盖ETL和数据分析的基本工作,也就是说AI可以替代这些初级岗位,而且能把活干的更高效、漂亮。要搭建这个智能体,需要用到3个至关重要的工具。
2025-11-13 18:12:06
933
原创 python读写excel等数据文件方法汇总
如:txt、csv、excel、json、剪切板、数据库、html、hdf、parquet、pickled文件、sas、stata等等。fromfile方法可以读取简单的文本数据或二进制数据,数据来源于tofile方法保存的二进制数据。python用于读写excel文件的库有很多,除了前面提到的pandas,还有xlrd、xlwt、openpyxl、xlwings等等。python处理数据文件第一步是要读取数据,文件类型主要包括文本文件(csv、txt等)、excel文件、数据库文件、api等。
2025-11-13 18:11:46
877
原创 使用AI生成RPA自动化流程
就在前不久,我参观了一家专门做直播获客卖车的企业,它们有一个流程设计吸引到我,通过直播留资来的意向用户会被自动拉进企微群,群里有专门的客服机器人发送车型信息、咨询,回复购车政策等问题,并定时总结客户信息回传到数据库,7*24小时不停业,这中间完全不需要人来参与,极大的提升了运营效率。现在普遍降本增效的大环境下,RPA绝对是企业和个人自媒体提升运营效率的一大利器,而且随着八爪鱼RPA AI生成功能的出现,任何技术小白都可以运用好RPA,让我想起一句话:不用担心你的工作会被AI取代,但被会用AI的人取代。
2025-11-12 17:01:53
580
原创 为什么notion能把笔记应用做到上百亿估值?
近几年notion最重要的一个功能是notion AI,可以算是notion的大脑,不光可以创作文本和代码,还支持管理知识库,类似ima的功能,现在它又可以作为AI助理跨页面和知识库进行全面的管理,比如你传进去一段会议录音,它可以自动创建会议纪要,形成专业的结论报告。一来说明它的用户数量是巨大的,其次其用户质量是高的,从付费意愿就能看出来。另一方面,notion有个很重要的数据库设计,数据库可以是页面的合集,也可以是单个页面,你能在数据库页面编辑文字、添加资料、修改背景,这就形成了你的专属知识库。
2025-11-12 17:00:01
437
原创 学习python中的pandas有没有好的教程推荐?
Pandas作为领域最顶级的库之一,就像excel之于office,是处理数据必备工具。Pandas的学习教程自然不会少,在上搜索Pandas,会出现超过6万个项目,可见其受众之多。如果说学习Pandas最好的教程是什么,那毫无疑问是官方文档,从小白到高手,它都给你安排的妥妥的,这个后面详细介绍。下面我会从入门、进阶、练习四个三面给你们推荐相应的教程和资源。如果你对Pandas还不了解,可以先看我这篇介绍。
2025-11-11 13:23:22
918
原创 计算机学院的学生该怎样提高自己的编程能力?
豆包不光包含传统AI编程的代码生成、补全、解释、debug等功能,还支持代码文件导入、github仓库连接等操作,可以说对计算机专业在校学生来说非常的友好,对提升代码能力也是相当有帮助。
2025-11-11 13:22:49
869
原创 可以用 Python 编程语言做哪些神奇好玩的事情?
Python像是叮当猫的口袋,几乎什么都能做,适合外行小白们去摸索学习,能极大的增加对编程的兴趣。有些工具用python来实现不一定是技术上的最优选择,但可能是最简洁、最面向大众的。介绍几个不错的处理图像的案例,并附上代码,尽可能让大家能拿来就用。
2025-11-11 13:21:25
885
原创 非常好用的Python爬虫库集合,收藏!
Python中有非常多用于网络数据采集的库,功能非常强大,有的用于抓取网页,有的用于解析网页,这里介绍6个最常用的库。
2025-11-10 13:34:11
917
原创 适合新手的爬虫利器,低代码采集跨境电商数据
就我个人经验来看,数据爬虫是很费时间的技术,特别对于中小公司和个人,我曾经想研究下某音用户短视频的评论情感倾向,需要大概100万条级以上的数据,光是写代码有上千行,虽然是公开数据,但会面临各种反爬手段,最后脚本磨了两三天才能正常稳定的运行。
2025-11-10 13:31:02
2755
原创 高效的10个Pandas函数,你都用过了吗?
我们只知道当年度的值value_1、value_2,现在求group分组下的累计值,比如A、2014之前的累计值,可以用cumsum函数来实现。比如有一个序列[1,7,5,3],使用rank从小到大排名后,返回[1,4,3,2],这就是前面那个序列每个值的排名位置。Query是pandas的过滤查询函数,使用布尔表达式来查询DataFrame的列,就是说按照列的规则进行过滤操作。Rank是一个排名函数,按照规则(从大到小,从小到大)给原序列的值进行排名,返回的是排名后的名次。
2025-11-09 20:24:08
715
原创 泣血整理,Jupyter Notebook最常用的五大配置技巧
在Jupyter上,可以使用python做数据处理、统计建模、可视化、机器学习、教学演示、网页抓取等各种各样的事情,只有你想不到,没有它做不到。说到Jupyter Notebook(以下简称Jupyter),想必很多人都不陌生,这是一款神奇的web应用,权且可以把它当作python超级笔记本,当然它还支持R、Julia、Scala、Js等几十种语言。经过这四个步骤,工作目录就修改好了,这时候不管你是通过快捷键还是命令行进入Jupyter Notebook,都能看到最新设置的目录,干净清爽。
2025-11-09 20:23:30
848
原创 在Cline中开发可视化看板,非常炫酷~
前几天我测试在Cline中测试新出来的MiniMax M2模型,来制作图表和搭建可视化看板,既用了matplotlib,还用到HTML+CSS前端技术,效果有点超乎意料,做起来也很简单。Cline是一款VsCode上的AI编程插件,功能类似于Cursor、Claude Code,能支持连接DeepSeek、ChatGPT、Gemini等各类大模型,还可以部署MCP服务,算是功能齐全、最受欢迎的AI编程工具之一。首先咱们需要在VsCode中安装Cline插件,它是安装即用的。
2025-11-09 11:34:42
348
原创 鸿蒙AppLinking技术解析,可能是链接跳转的最优解
AppLinking在我看来是链接跳转技术的一大进步,解决了以往存在的各种问题,比如包括安全性不足、上下文丢失和安装摩擦等,不管是对开发者还是对普通用户,都大大提升了效率,难能可贵。当然它还会存在一些问题,比如对设备的严苛要求、配置不当会引发闪退、第三方平台可能会拦截非白名单的AppLinking等等,还需要慢慢优化。
2025-11-09 10:53:20
993
原创 段永平说10年后能活下来的AI大模型,为什么是它?
最后,Google更会“讨好”用户,换句话说用户的好感度更强,就拿Nano Banana来说,在Gemini上使用Nano Banana生成图片是免费的,而且像Deep Research、2.5 Pro也有免费试用的机会,日常使用足够了,对普通用户而言,你不用花钱也能体验到当前最好的大模型,这不就是技术平权嘛。相比较传统的AI图像生成模型比如Midjourney,Nano banana最大的特点在于不光能高精度生成图片,还可以理解图片中的物体,像神来之手般编辑图像,并将多个图片进行融合,宛如PS高手。
2025-11-07 10:25:41
473
原创 在Trae上使用Bright Data MCP采集数据,实时获取iPhone17价格信息
不知道你发现没,由于现在ChatGPT、DeepSeek、Gemini、豆包等AI大模型的兴起,大家的搜索习惯发生了很大变化,传统的谷歌、百度、必应搜索像是老古董,已经没法满足用户对信息准确性、及时性、高质量的要求了,甚至懒得点开一个个网页去找答案。
2025-11-07 10:25:04
964
原创 什么是自助式BI?和传统BI(商业智能)相比有何优劣势?
Python适合多数非程序员群体编程,自助式BI也更适合普通业务人员上手,这些BI都有友好的软件客户端,能更容易地进行可视化分析,而且一般是高频的分析场景,包括研究统计分布、制作图表、搭建看板、上传报表等,代表BI工具有Tableau、Java适合专业程序员开发软件,传统BI同样需要程序员来开发,需要懂一些前端、数据库、ERP知识,因为传统BI核心任务是搭建看板和大屏,不是那么高频的需求,但追求稳定、大气、酷炫,能支持大数据的接入,起码在国内是这样。等,还有些用BI软件搭建,比如。
2025-11-05 23:48:39
271
原创 目前最好用得RPA是哪款?
就在前不久,我参观了一家专门做直播获客卖车的企业,它们有一个流程设计吸引到我,通过直播留资来的意向用户会被自动拉进企微群,群里有专门的客服机器人发送车型信息、咨询,回复购车政策等问题,并定时总结客户信息回传到数据库,7*24小时不停业,这中间完全不需要人来参与,极大的提升了运营效率。现在普遍降本增效的大环境下,RPA绝对是企业和个人自媒体提升运营效率的一大利器,而且随着八爪鱼RPA AI生成功能的出现,任何技术小白都可以运用好RPA,让我想起一句话:不用担心你的工作会被AI取代,但被会用AI的人取代。
2025-11-05 23:48:05
778
原创 推荐我常用的5个爬虫插件&软件,非常实用~
爬虫,又称为网络爬虫或网页爬虫,是一种自动浏览互联网的程序,它按照一定的算法顺序访问网页,并从中提取有用信息。爬虫软件通常由以下几部分组成:模拟浏览器访问,避免被网站识别为机器人。发送HTTP请求,获取网页内容。使用正则表达式或DOM解析技术提取所需数据。将提取的数据保存到数据库或文件中。处理请求超时、服务器拒绝等异常情况。下面介绍几个我经常用的爬虫插件和工具,入门非常简单。
2025-11-04 15:29:32
2141
原创 notion为什么是最好的笔记应用?
近几年notion最重要的一个功能是notion AI,可以算是notion的大脑,不光可以创作文本和代码,还支持管理知识库,类似ima的功能,现在它又可以作为AI助理跨页面和知识库进行全面的管理,比如你传进去一段会议录音,它可以自动创建会议纪要,形成专业的结论报告。另一方面,notion有个很重要的数据库设计,数据库可以是页面的合集,也可以是单个页面,你能在数据库页面编辑文字、添加资料、修改背景,这就形成了你的专属知识库。一来说明它的用户数量是巨大的,其次其用户质量是高的,从付费意愿就能看出来。
2025-11-04 15:28:17
412
原创 为什么建议你用Jupyter?
Jupyter主要是用来做数据科学,其包含数据分析、数据可视化、机器学习、深度学习、机器人等等,任何Python数据科学第三方库都能在Jupyter上得到很好的应用和支持。其实它是集编程、笔记、数据分析、机器学习、可视化、教学演示、交互协作等于一体的超级web应用,而且支持python、R、Julia、Scala等超40种语言。在产品上,Jupyter不仅有简洁的Notebook ,还有工作台式的Lab,甚至线上平台化部署的Hub,对个人、团队、企业都可以完美支持。6、课堂编程相关的内容展示、实验。
2025-11-03 09:54:58
449
原创 技术大佬推荐的7个高级爬虫工具,抓取网页非常快~
亮数据平台提供了强大的数据采集工具,比如Web Scraper IDE、亮数据浏览器、SERP API等,能够自动化地从网站上抓取所需数据,无需分析目标平台的接口,直接使用亮数据提供的方案即可安全稳定地获取数据。在当今数据驱动的时代,自动化爬虫工具和软件成为了许多企业和个人获取数据的重要手段,特别是跨境电商、外贸等业务,对数据的需求非常大,比如对amazon、tiktok、shopee等网站数据的监测和获取。八爪鱼是一款功能强大的桌面端爬虫软件,主打可视化操作,即使是没有任何编程基础的用户也能轻松上手。
2025-11-03 09:54:35
2481
原创 Modin,只需一行代码加速你的Pandas
它的语法和pandas非常相似,因其出色的性能,能弥补Pandas在处理大数据上的缺陷。PS:对于小白来说学习python不是件容易的事,需要花相当的时间去适应python的语法逻辑,而且要坚持亲手敲代码,不断练习。但Dask对Pandas并没有很好的兼容性,没办法像Modin那样,只需改变一行代码,就可以轻松使用Pandas处理大数据集。Vaex的核心在于惰性加载,类似spark,但它有独立的一套语法,使用起来和Pandas差异很大。只要你有使用Pandas的经验,就可以轻松上手Modin。
2025-11-02 20:05:26
768
原创 高效的10个Pandas函数,你都用过了吗?
我们只知道当年度的值value_1、value_2,现在求group分组下的累计值,比如A、2014之前的累计值,可以用cumsum函数来实现。比如有一个序列[1,7,5,3],使用rank从小到大排名后,返回[1,4,3,2],这就是前面那个序列每个值的排名位置。Query是pandas的过滤查询函数,使用布尔表达式来查询DataFrame的列,就是说按照列的规则进行过滤操作。Rank是一个排名函数,按照规则(从大到小,从小到大)给原序列的值进行排名,返回的是排名后的名次。
2025-11-02 20:04:55
942
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅