打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Power Query 爱淘宝数据抓取的方法
 EXCEL数据处理与分析 2019-04-17 10:17:04

如果你到爱淘宝上搜索一个关键词,就会出来很多结果,任意一个关键词对应的至少也有几十页的内容:

如果你要把所有这些页面的数据抓取下来做分析,看看销售金额,看看哪些店铺销售的好:

哪些产品卖得好:

接下来,我们就来做这个网站数据的抓取。

网址分析

  1. 打开爱淘宝网站,输入关键字得到搜索结果

  2. 网页上右键,检查

  3. 然后点选几个页面的数字

网址分析的过程就是一个找规律的过程:

我们点选页码时会有对应的网址URL,我们要观察这个网址的变化规律,其中我们注意到两点:

  • page=4

  • key=Excel

前后都是用&符号连接的,当我们选不同的页面时,page会变化,正好对应的时页码,我们就知道,这个page对应的就是:

而key对应的就是我们搜索的关键字--“Excel”。

自定义抓取函数

  1. 数据>从网站

  2. 输入我们找到的实际网址URL

  3. 修改成我们想要的函数

这个函数有两个参数:

  • page:要抓取的页码

  • key:搜索关键字

用这两个参数替换掉URL中的页码数字和“Excel”

尝试抓取

  1. 建一个列表1-100,转换到表,并且转换为文本格式

  2. 自定义列,调用自定义函数

爱淘宝的数据格式是json,Power Query可以直接解析。

转换数据

  1. 展开记录

  2. 删除不需要的列

  3. 替换格式码

数据很整齐,除了产品声明中有些格式符号,统一替换掉就行,另外图片URL和其他跳转的URL都没有https,如果你要在Power BI中制作图片墙,就需要替换“//”为“https://”,这样这个图片URL才是有效的URL。

上面的这个数据抓取的过程在Excel中与Power BI Desktop中几乎是一样的,如果你在Power BI Desktop中抓取了数据,就可以直接在Power BI Desktop中做出漂亮的图片墙。

Power BI Desktop图片URL这个问题好像是修复了,之前我们还需要用二进制保存图片到本地,才能显示图片,今天试了一下,可以直接通过图片URL显示图片了。

最后总结一下:

这次的抓取没有遇到断网的情况,这个网站视乎不反对大家抓取数据,而且使用Power Query抓取关键字Excel共100页一共5991条数据,用不了几秒钟,速度也可以。对于不愿意写代码,又有网络抓取需求的朋友来说,Power Query也算是一种选择吧。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
批量汇总文件数据,有多种文件类型怎么办?
Power Query—Excel这个高冷系的功能是个什么鬼
利用Power Query快速进行商品目录管理
Power BI和Excel的关系以及为什么要用Power BI
Power Query 处理数据的过程---连接、转换、组合、共享
PQ系列连载:Power Query是什么?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服