Power Query与R、Python在数据处理与可视化中的应用
1. Power Query中的网页数据抓取
1.1 关键注意事项
在使用Power Query进行数据处理时,务必仔细检查代码和查询结果的每一行,确保公式在所有情况下都能正常工作,而不仅仅是在可见的前几行有效。因为Power Query可能会误解逻辑,例如在示例中空白字符位于第四位时,它可能会去查找文本中的第五个字符,而不是空白后的第一个字符。
1.2 网页抓取概述
“网页抓取”指的是将网页作为数据源。在Power Query中,可以从网页获取数据。下面将介绍经典方法,即Power Query会分析网页以发现数据表。
从网页https://www.nbda.com/articles/industry-overview-2015-pg34.htm 可以获取1981年至2015年间自行车销售的统计数据,这与示例数据库AdventureWorksDW中2010年至2013年间某虚拟公司的自行车订单数量数据相匹配,加载网页数据后可以对比该公司与全球市场的表现。
1.3 加载网页数据的步骤
- 选择数据源 :在Power Query中,通过菜单选择“主页”➤“新建源”➤“Web”;若未打开Power Query,在Power BI中可通过功能区选择“主页”➤“获取数据”➤“Web”。
- 输入URL :输入网页的URL。对于公共网页,输入URL即可;特殊情况下,可点击“高级”单选按钮,设置可选的命令超时或HTTP请求头参数,还能结合硬编
Power Query与R/Python数据处理及可视化
超级会员免费看
订阅专栏 解锁全文
682

被折叠的 条评论
为什么被折叠?



