网页数据抓取公式之京东商品数据抓取

京东商品数据抓取到Excel表格可通过以下步骤实现,核心是利用Excel网络函数库的GetWebContentByXPathW公式结合网页XPath解析

安装工具

下载并安装Excel网络函数库(免费开源工具,支持网页数据抓取功能)。

推荐使用Chrome浏览器(用于分析网页结构和获取XPath)。

明确目标数据

确定需抓取的京东商品字段(如商品名称、价格、销量、评论数等)。

示例目标数据:

网页数据抓取公式之京东商品数据抓取

示例URL:https://search.jd.com/Search?keyword=手机&enc=utf-8

注意:若需抓取特定商品详情页,需单独构造详情页URL(如https://item.jd.com/商品ID.html)。

在Chrome浏览器中打开目标网页(如搜索结果页或商品详情页)。

右键点击目标数据字段(如商品名称),选择检查,打开开发者工具。

在开发者工具中定位到对应HTML元素,右键选择Copy → Copy XPath

示例XPath(商品名称)://*[@id="J_goodsList"]/ul/li[1]/div/div[3]/a/em

示例XPath(价格)://*[@id="J_goodsList"]/ul/li[1]/div/div[4]/strong/i

网页数据抓取公式之京东商品数据抓取

公式语法

参数说明

url:构造的京东商品页面URL(需用英文引号包裹)。

xpath:上一步复制的XPath路径(需用英文引号包裹)。

示例

抓取第一个商品的名称:

注意:若XPath或URL中包含引号,需用双引号转义(如""J_goodsList"")。

将URL和XPath参数化(如用单元格引用替代固定值)。

拖动公式填充其他单元格,实现批量抓取。

示例

A1单元格:https://search.jd.com/Search?keyword=手机

B1单元格://*[@id="J_goodsList"]/ul/li[1]/div/div[3]/a/em(商品名称XPath)

C1公式:=GetWebContentByXPathW(A1, B1)

在Excel网络函数库中配置网页抓取任务,设置定时刷新。

或手动按F9键重新计算公式。

网页数据抓取公式之京东商品数据抓取

抓取失败

检查URL是否有效(直接粘贴到浏览器能否打开)。

确认XPath是否正确(开发者工具中手动验证)。

京东部分数据由JavaScript动态加载,需确保Excel网络函数库支持动态内容抓取。

反爬机制

京东可能限制频繁请求,建议:

控制抓取频率(如每秒1次以下)。

使用代理IP(需额外配置)。

数据清洗

抓取的价格可能包含“¥”符号,可用SUBSTITUTE函数清理:

网页数据抓取公式之京东商品数据抓取

通过以上步骤,可实现京东商品数据的自动化抓取与更新,适用于电商选品、价格监控等场景。