- 博客(22)
- 收藏
- 关注
原创 收费的 Cursor 用不了?免费平替 Cline 搭配 DeepSeek,编程能力非常强大
选择deepseek后,你可以设置对应的模型,比如deepseek-reasoner,Cline会显示该模型的功能,是否支持图片等,还会显示调用tokens计费规则,以及自定义设置system prompt。这个计算器UI太朴素了,我想优化下界面风格,参照IPhone计算器来个大变身,只需要把需求提给Cline即可,它会帮你改代码,实现想法!安装好后,便可以直接使用Cline,选择你想用的大模型API,比如deepseek,然后填入key密钥即可。但是当我使用计算器来计算6*8时,它居然报错了!
2025-12-25 17:11:37
459
原创 Python selenium爬虫被检测到,该怎么破?
当使用Selenium进行网络爬虫操作时,经常会被目标网站检测到并采取了反爬措施,有几种方法可以尝试规避。1、 用无头模式(Headless Mode):Selenium支持在无头浏览器模式下运行,这样就不会触发与真实用户操作相关的检测机制。2、模拟真实浏览器行为:设置合理的浏览器配置,如启用JavaScript、设置User-Agent等,以模拟真实浏览器的行为,降低被检测的风险。3、控制访问频率和间隔:合理控制爬虫的数据获取速度,避免过于频繁的请求,以减少对网站的冲击,同时模拟人类用户的浏览习惯。
2025-12-25 17:10:18
510
原创 AI满地爬,其实你更应该学Python,这个原因很重要!
咱们平常接触到的大模型都是大公司开发好的聊天窗口,像DeepSeek、ChatGPT、豆包,你问一句,它们答一句,顶多让你上传个PDF、Excel、图片,AI帮你解读解读。要知道开卷考试,有人考99分,也有人考59分,AI生成代码,也需要你有阅读代码和程序开发的能力,才能将AI生成的代码变成一款优秀的应用,不然只是AI垃圾。所以,想要用好大模型API,你得学会用Python,能处理数据的输入输出,微调各种模型参数,使得大模型更适合专业领域。你会我会大家会,这其中的使用门槛非常之低,并且浪费了大模型的能力。
2025-12-24 16:33:32
134
原创 7个实用的数据挖掘模型和技巧,强烈推荐!
数据分析是通过分析原始数据提取有意义见解的过程,这一过程包括使用分析和统计工具对数据进行检查、清洗、转换和建模,最终提炼出有价值的信息。这些信息用于确定业务决策——比如何时推出营销活动最合适?哪些客户群体最可能购买新产品?但究竟如何将原始数据转化为有用信息?这才是最难的。下面推荐真实业务场景中最常使用的7种分析模型和方法,非常有帮助。
2025-12-24 16:32:46
644
原创 如何使用低代码爬虫工具采集复杂网页数据?
爬虫越来越难,对于一般的非技术童鞋,可以直接用现成的爬虫工具,不需要自己写代码,这些爬虫工具主要分三大类,无代码/低代码采集工具、网页API接口、半自动化爬虫框架。这里推荐6个适合大家用的爬虫工具,可以按照需求来选择合适的技术方案。
2025-12-23 14:41:18
1736
原创 飞书多维表格可能是notion+deepseek+excel的最优解组合
没想到飞书表格能顶一个IT团队,我试了下不光能支持多维表格、协同编辑,还可以进行数据库管理、搭建自动化流程、AI智能问答、动态数据看板等,完全可以充当数字化开发工具,这可能是AI与表格搭配最合适的形态。说到飞书多维表格,突然发现好多公司在用它,像影视飓风、元气森林等,他们把业务运营看板、经销商管理系统搭载了多维表格上,我发现完全取代了传统BI的功能。1. 多视图切换:6种视图随心换,表格/看板/甘特图全覆盖,同一份数据怎么看都顺眼~ 不用重复建表,切换即适配场景,视觉清爽不费眼。
2025-12-23 10:04:03
724
原创 推荐6款爬虫软件&插件,非常强!
无论是需要简单的数据抓取,还是复杂的数据挖掘和分析,市场上的爬虫工具都能提供相应的解决方案。同时,使用爬虫软件时,也应遵守相应的法律法规,尊重数据的版权和隐私。亮数据是一款强大的数据采集工具,以其全球代理IP网络和强大数据采集技术而闻名。它能够轻松采集各种网页数据,包括产品信息、价格、评论和社交媒体数据等。HTTrack是一款免费且功能强大的网站爬虫软件,它允许用户下载整个网站到本地计算机。八爪鱼是一款面向非技术用户的桌面端爬虫软件,以其可视化操作和强大的模板库而受到青睐。
2025-12-22 15:28:16
907
原创 这样学Python就是在浪费时间~
电影领着观众走向一个方向,绘画是不会动的。编程语言这东西并不重要,重要的是你用这些 语言做的事情... 不要被围绕某一种语言的宗教把你扯进去, 这只会让你忘掉了语言的真正目的,也就是作为你的工具来实现有趣的事情。人的大脑可以分为反射、思考、记忆三个功能,大脑可以通过大量的反复练习让思考演变成习惯,最后跳过思考只需要反射的指令操控就能完成,从而达到“生巧”的效果。自学 Python 很久却还是不会用,就像你学英语十几年还是不会说,原因是一样的,你没有把Python当做工具去用,而是一味地学,等同于纸上谈兵。
2025-12-21 11:55:12
665
原创 三款Github Copilot的免费替代
研发的一款先进的编程辅助插件,它可以在我们日常编写代码的过程中,根据代码的上下文内容、注释等信息自动推断生成高质量的代码,很大程度上提升我们的代码编写效率。除了常规的根据上下文和提示生成代码的功能以外,我从其推出至今就一直在使用,使用体验非常接近。,生成的代码质量很不错,并且还带有类似。,相信很多人都听说过甚至使用过,作为。是由初创公司研发的一款对标。中我们可以通过安装插件。,来使用集成在其内部的。
2025-12-21 11:54:37
120
原创 使用Python爬虫,selenium能否替代requests?
答案基本是可以的,selenium适合动态网页抓取,因为它可以控制浏览器去点击、加载网页,requests则比较适合静态网页采集,它非常轻量化速度快,没有浏览器开销,占用资源少。首先这次测试的采集目标是某跨境电商网站的智能手机商品数据,基于Scraping Browser服务,使用Python Selenium库来请求和解析数据,Selenium是主流的浏览器自动化工具,也支持其API接口,操作起来比较方便。打开bright data,然后打开后台控制面板界面,找到“浏览器API“,创建新的通道。
2025-12-17 15:10:10
1532
原创 一文搞懂Python错误和异常
结合上面的示例,处理异常的规则是:把执行的语句放在 try 代码块中,将错误处理器代码放置在 except 代码块中,except会引发ZeroDivisionError异常来提醒Coder,这段代码的错误是零不能作为被除数。然后,如果异常的类型和 except 关键字后面的异常匹配,则执行 except 子句 ,然后继续执行 try 语句之后的代码。上面示例可以看到,针对语法错误,python解析器会输出错误的那一行,并且在最先找到的错误的位置标记了一个箭头。
2025-12-12 16:59:10
461
原创 什么是机器学习中类别数据的转换?
什么是类别数据呢?类别数据是有分类特征的数据,相对应的是数值数据。比如说,在一个电影数据集中,电影类型特征列中就有一些类别数据(科幻、爱情、恐怖、乡村等等)。以下用电影数据集为例说明:利用Pandas写的DataFrame数据框。
2025-12-12 16:57:17
730
原创 Trae搭配Bright Data MCP自动化采集数据
不知道你发现没,由于现在ChatGPT、DeepSeek、Gemini、豆包等AI大模型的兴起,大家的搜索习惯发生了很大变化,传统的谷歌、百度、必应搜索像是老古董,已经没法满足用户对信息准确性、及时性、高质量的要求了,甚至懒得点开一个个网页去找答案。
2025-12-09 21:35:56
1141
原创 老实说,还有必要学习爬虫吗?
其实对于大部分人来说,想要采集网上数据没必要单独去学复杂的爬虫技术,像Python scrapy、JS逆向啥的,学习成本太高,后续应用机会又很有限。我建议直接用现成的爬虫软件,类似于Excel图形界面,只需要点点点就配置好爬虫,还能自动解锁网页验证码、IP轮换等,非常的方便。下面是4个我常用的爬虫软件,基本属于零代码或者低代码操作,非常的便捷。八爪鱼算是非常流行的数据采集软件了,在我上高中时就用过。它是一款完全图形化操作桌面端爬虫应用,通过模拟人类浏览行为(点击、滚动、输入),它能自动化抓取各类结构化数据(
2025-12-09 17:29:02
2145
原创 通过 MCP 实现 AI Agent 目前有哪些最佳实践?
首先要介绍下什么是MCP,它的学名是“模型上下文协议”,你可以理解成它是连接AI大模型和外部工具的一个媒介,类似于电脑和互联网的关系,大模型原先只是封闭的大脑,有了MCP后它就连接了无数的信息、工具、数据,可以做更多的事情,比如Bright Data MCP能实现复杂网站的数据采集。总的来说,AI爬虫已经成为不可逆的趋势,完全不需要写代码处理网页,几乎零门槛,而且能很好的和一些智能体结合,做出不错的产品,比如手机的价格监测应用,运营的好也能带来不错的效果。
2025-12-08 22:18:45
808
原创 为什么Mac打字更舒服,其他电脑做不到呢?
以上是我用Mac下来的几点感受,但这仅代表Mac在编程开发上的优势,也包括设计、自媒体等,如果是普通场景使用电脑,比如日常办公、娱乐消遣、打游戏等,其实Windows更好用。3、Mac系统更加流畅,这和iPhone一样,哪怕是8G/256G的丐版,打开五六个IDE也不会卡,对于编程来说,卡顿或者无缘无故死机真的没法忍受。程序员很多系统都是基于Linux开发的,除了游戏开发、客户端开发之外,Mac开发的东西能无缝部署到Linux,不需要处理兼容的问题。这有一种专业术语,叫作剪刀脚设计。
2025-12-08 22:16:58
278
原创 pandas 数据清洗实战教程:从基础到机器学习应用
数据清洗作为数据预处理的核心环节,直接决定了后续分析和建模的质量上限。根据行业调研显示,数据分析师约 60% 的工作时间都投入在数据清洗上。这一比例充分说明了数据清洗在整个数据处理流程中的关键地位。在实际应用中,数据质量问题可能导致严重后果。根据 Gartner 的报告,数据质量不佳导致企业每年平均损失 1,290 万美元。这些损失主要源于基于错误数据做出的决策,包括错误的市场预测、不当的资源配置以及错失的商业机会。对于机器学习而言,数据清洗的重要性更是不言而喻。
2025-12-05 17:15:17
765
原创 最常用的6大Python爬虫库推荐
而且亮数据有个很强大的功能:Scraper APIs,你可以理解成一种爬虫接口,它帮你绕开了IP限制、验证码、加密等问题,无需编写任何的反爬机制处理、动态网页处理代码,后续也无需任何维护,就可以“一键”获取Tiktok、Amazon、Linkedin、Github、Instagram等全球各大主流网站数据。爬虫其实就是请求http、解析网页、存储数据的过程,并非高深的技术,但凡是编程语言都能做,连Excel VBA都可以实现爬虫,但Python爬虫的使用频率最高、场景最广。
2025-12-04 00:00:18
1523
原创 爬虫这么难,其实可以用低代码采集工具
它是一款完全图形化操作桌面端爬虫应用,通过模拟人类浏览行为(点击、滚动、输入),它能自动化抓取各类结构化数据(文本/图片/表格/视频),并内置电商、社交媒体、新闻门户等主流平台的预置模板,大幅降低采集门槛。Instant Data Scraper 是一款非常简单易用的网页数据爬虫插件,在Chrome或Edge上安装使用,你不需要任何代码知识,只需要点几下鼠标,就可以把你想要的数据下载到表格里面。总得来说,对于代码能力不强的童鞋来说,现成的爬虫软件是比较好的选择,直接图形化界面点点点,能避免很多麻烦。
2025-12-03 23:23:30
1933
原创 记住这6点,让python爬虫规避检测
如果是技术小白,不会写上面提到的那些规避措施代码,就可以尝试用亮数据的这样的采集api,它把各种规避检测的技术、IP代理池都封装到一个接口里,还提供专门的云上浏览器,用selenium接入,和普通浏览器一样,有头无头都支持,但不需要再写各种反爬措施之类的脚本,比较简单直接。因为很多网站会直接识别headless模式,也就是无头模式,只有selenium这样的自动化工具才会这么干,真人只会在浏览器界面访问,所以用selenium时要打开真实浏览器界面,这样不容易被检测。
2025-12-03 22:27:41
579
原创 从PDF中提取Excel,这个工具真的好用
首先,pdfplumber能轻松访问有关PDF对象的所有详细信息,且用于提取文本和表格的方法高级可定制,使用者可根据表格的具体形式来调整参数。这次介绍一个开源python工具库-pdfplumber,可以方便地获取pdf的各种信息,包括文本、表格、图表、尺寸等。目前市场上有很多pdf工具,大部分是阅读类,也有支持对pdf的修改、转换等功能,但这部分工具不少是收费的。一个小小的脚本,不到十行代码,便将pdf表格提取并转化为dataframe格式,最终保存到excel。
2025-12-02 23:04:01
194
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅