- 博客(21)
- 收藏
- 关注
原创 finebi 函数介绍
打开右侧数据流这边有两个选项,左边是更新Excel,右边是切换数据回到建立的分析主题“02finebi数据处理”打开成绩表2比如这份表,有姓名、考试结果和录入时间。如果想更新数据就可以点击更新Excel。点击之后,追加数据,替换数据都可以想要追加的话,有一个新的Excel追加到下方了。如果是替换,就是整个内容都替换掉了切换数据。现在的成绩表2,当中有姓名,考试结果,录入时间。上一篇针对考试结果拆分成了语数外三列。如果有一张表的结构和它是一样的,也要去进行相同的处理操作的话,可以直接点击切换数据。
2025-12-14 10:41:57
1194
原创 浏览器 driver (Chrome & Edge)驱动安装、Selenium 安装,使用Selenium进行网页自动化操作与数据抓取(Edge)
先补充一下之前一篇的代码。在这篇文章的最后展示了豆瓣电影Top250榜单爬取,但是只爬取了一页,而且是用打印的方式输出来的。现在补充一下该网站的多页抓取,并且将信息存在文件中的完整代码,如下接下来介绍 Selenium:一般来说,使用协议抓取搞不定的,就可以用 Selenium 的方式去做。
2025-12-13 12:03:02
1652
原创 算法:线性回归
模型的概念:经验天气预报,根据过去数十年天气的特征,对应的天气,建立出模型。然后把新的特征(乌云,风,降温,7月)放模型当中,来预测未来的天气(60%的概率两个小时内有雨)。公式:这里的是特征。
2025-12-07 19:55:11
681
原创 finebi 第一个仪表板制作
点击自定义图表之后,生成了毛利额,毛利率关于时间的条形图毛利额,单位是非常大的。环比增长率,数值在0到1之间,显然不能共用一根轴。希望环比增长率用右边的轴。找到环比增长率,点击倒三角,点击设置值轴,把左直轴改为右直轴,点击确定设置好之后的效果是这样的,显然还需要微调一下毛利额希望不是柱子的形式,是折线的形式来到图形属性这里,有一个全部,把它折叠起来,找到它下方的两个。一个是毛利额,一个是环比增长率展开毛利额,把柱形图改为线效果是这样的,整体再去微调一下。
2025-12-05 13:01:05
1134
原创 jsonpath 爬取招聘网站信息
这个网址从问号后面都是拼接的信息:timestamp=1763435195846&countryId=1&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword=&pageIndex=1&pageSize=10&language=zh-cn&area=cn。只适用于有严格的结构化的数据。name、 time, desc 这三个是一一对应的,如果取出来的条数不同,很难配上。一旦错位,数据就错了。,找到 url = '
2025-11-18 17:59:44
383
原创 Json数据类型 & Xpath 用法 & 爬取豆瓣电影信息
在接收数据的时候,数据是两种数据类型的其中一种。一种是嵌套到页面当中的,需要通过 Xpath 去取,另一种直接发的是 Json 格式的字符串。在 request 当中有一个 对象.json() 方法。所以本篇要引入一下 json 相关的知识点,理解了 json,对后续写代码会用很大的帮助。
2025-11-17 08:15:17
1484
1
原创 爬虫案例2——百度贴吧内容爬取
去贴吧翻翻页,看看第二页,第三页,第四页的链接。发现第一页有点儿不一样,剩下的都差不多,只有 pn 那个地方不同,但都是 50 的倍数。request.get() 的第一个参数 url 已经拿到,接下来第二个参数 headers 字典我们要去找一下,去看一下请求都带哪些参数。运行之后在同目录下会生成一个 刘亦菲.html 的文件,进入到文件中查看一下,点击这个检查。,最后放上的案例是爬小仓鼠的图片,本篇内容为爬神仙姐姐刘亦菲的百度贴吧内容。如果还拿不到就继续往里加,为什么拿这里的参数,参考上一篇。
2025-11-15 14:23:32
2466
原创 认识爬虫(HTTP/HTTPS、会话技术、Proxy代理)
HTTPS(全称:Hyper Text Transfer Protocol over Secure Socket Layer 或 Hypertext TransferProtocol Secure,超⽂本传输安全协议),是以安全为⽬标的HTTP通道,简单讲是HTTP的安全版http协议是基于TCP/IP协议的,⽽https是在http协议的基础之上,再加了⼀层SSL/TLS协议,数据在传输过程中是加密的。HTTPS协议的默认端⼝是443。
2025-11-13 17:50:39
1959
3
原创 Python 正则表达式、元字符
白话文:从最开始的位置一个个比对着匹配,第一个字符和要匹配的第一个字符配对,第二个就和要匹配的第二个字符配对,配不上就会返回 None,如果想匹配的字符串出现在待搜索的字符串中间或者后面位置,就会匹配失败。表示字面连字符:如果想在字符类中表示“字面上的 -”,可把 - 放在首位或末位(如 [-a-z] 或 [a-z-]),或对它进行转义 -“范围(-)”在字符类 [] 里是一个非常常用的写法,意思是“从某个字符到另一个字符的连续区间(包含端点)”你想从哪个字符里找到这个匹配的信息出来,就把哪个字符扔里头。
2025-11-07 14:36:57
1052
原创 Python 异常处理、包管理
如果某一段代码有错误,它会一级一级向上抛这段代码运行之后的结果是:File "/Users/xiaoya198320/Desktop/things/1029/异常.py", line 6, in <module>b()File "/Users/xiaoya198320/Desktop/things/1029/异常.py", line 4, in ba()File "/Users/xiaoya198320/Desktop/things/1029/异常.py", line 2, in a。
2025-11-07 11:15:17
900
原创 Python 函数
def 函数名(参数1, 参数2, ..., 参数n):函数体上面那两行是定义函数的格式。函数名起的见名知义一点儿。参数有几个都行,也可以没有。最后写一句函数名()就可以调用(需要参数写参数)先定义再调用,否则报错返回一个值,returnres = 5+1return res。
2025-10-29 16:45:57
1089
原创 Python 流程控制、循环控制
控制流程有顺序执行、选择执行和循环执行顺序:从上到下依次执行。比较简单选择执行:符合条件就会执行,否则不执行本篇主要讲解条件语句和循环语句。
2025-10-28 16:23:17
1230
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅