如何用python或者R来抓取一个网页的隐藏源代码?
隐藏源代码?我想知道你的意思。我有两个理解。第一,不是上一段显示的,而是不时查看源代码。第二,异步加载的内容在前端和源代码中是不可见的。第一个很好解决,你一定是指第二个。有三种解决方案:
模拟浏览器,动态访问,可以用杀手硒工具。
使用这种方法,只要能看到的都可以抓取,比如鼠标滑动,异步加载等。,因为它的行为可以和浏览器一模一样,但这种方式效率最低,一般不到万不得已不推荐使用。
执行js代码
在python中执行异步加载js代码,得到鼠标滑动、下拉加载等一些东西。然而,当前网站中有大量的js代码,要找到要执行的目标js代码是非常困难和耗时的。另外python和js兼容性不是很好,不建议使用。
寻找异步加载的json文件是最常用、最方便、最好的方法。这是我平时抓取动态异步加载网站时最常用的方法,可以解决我99%的问题。具体使用方法是打开浏览器的开发者工具,进入网络选项,然后重新加载网页,在网络中的列表中找到需要动态异步加载的json文件。以JD.COM为例,如图,第一个找到异步加载的库存信息的json文件,第二个找到异步加载的评论信息的json文件:
具体更详细的方法可以谷歌或者百度。