您现在的位置是:亿华云 > 应用开发
Python微博移动端爬虫实例(附代码)
亿华云2025-10-04 03:44:50【应用开发】2人已围观
简介本文简要讲述用Python爬取微博移动端数据的方法。可以看一下Robots协议。另外尽量不要爬取太快。如果你毫无节制的去爬取别人数据,别人网站当然会反爬越来越严厉。至于为什么不爬PC端,原因是移动端较
本文简要讲述用Python爬取微博移动端数据的微博方法。可以看一下Robots协议。移动另外尽量不要爬取太快。端爬代码如果你毫无节制的虫实去爬取别人数据,别人网站当然会反爬越来越严厉。例附至于为什么不爬PC端,微博原因是移动移动端较简单,很适合爬虫新手入门。端爬代码有时间再写PC端吧!虫实
环境介绍
Python3/Windows-10-64位/微博移动端
网页分析
以获取评论信息为例(你可以以自己的例附喜好获得其他数据)。如下图:
在这里就会涉及到一个动态加载的微博概念,也就是移动我们只有向下滑动鼠标滚轮才会加载出更多的服务器租用评论数据。这也是端爬代码网页经常使用的方式。接下来就应该找到评论信息的虫实真实网址,找到真实网址的例附方法就是打开浏览器的开发者工具,火狐/谷歌是F12键。打开如下:
打开以后点击网络,网络用来记录浏览器和服务器交换的信息。接下来将鼠标滚轮缓慢向下滚动,在这个过程中就会弹出类似于上图的高防服务器信息,也就是评论信息加载出来了。找到评论信息,应该会在***条。如下图:
真实网址:https://m.weibo.cn/api/comments/show?id=4160547165300149&page=3
将网址在火狐里面打开如下图:
上面的网址其实pages=3就代表第三页,所以只需模拟网址即可,pages=4,5,6。。。。
另外由于是Json文件,所以提取数据非常方便,只需用切片操作即可。
源码库很赞哦!(6)
上一篇: 二、如何选择合适的域名
下一篇: 旧域名的外链是否会对新建站点产生影响?
相关文章
热门文章
站长推荐
国际域名转移的费用和处理步骤是什么?
IBM携手腾讯联合发布《无边界零售》白皮书:洞察行业新格局,赋能企业“无边界零售”转型
万国数据与临港浦江国际科技城、壁仞科技达成战略合作,共建算力共享平台
NVIDIA为HPC数据中心运营商带来数字孪生模拟
3、不明先知,根据相关征兆预测可能发生的事件,以便提前做好准备,赶紧注册相关域名。;不差钱域名;buchaqian抢先注册,就是这种敏感类型。预言是最敏感的状态。其次,你应该有眼力。所谓眼力,就是善于从社会上时不时出现的各种热点事件中获取与事件相关的域名资源。眼力的前提是对域名领域的熟悉和丰富的知识。
欧盟计划将数据中心送入太空,云计算真的要上天了?
智能百科 | 关于以太网供电(PoE )的常见问题
“600个”数据中心项目,空调系统企业中谁能分得“一杯羹”?