开放期刊系统

基于 Python 的豆瓣音乐数据爬虫的设计与实现

王英杰, 毛红霞

摘要

本文是基于 Python 来对某豆瓣音乐网站进行定向爬取网页数据的爬虫程序，现在是大数据的时代了，大家平时上网都会有种很明显的体验，你刚在一个网页搜索了某个东西，下一秒打开淘宝天猫就会发现主页在给推送相关的东西。这就是数据的力量，而网络爬虫就是我们对数据抓取很有力并且高效的一个工具了，所以如何使用网络爬虫也就变的十分重要了。今天就通过对豆瓣音乐排行榜的数据抓取来简要介绍网络爬虫的基本知识。之后如果想要统计最近最火的音乐榜单就可以通过网络爬虫去实现了。了解 xpath 语法删选数据的用法，最后详细介绍 Beautiful Soup 的用法。其中用到的核心库有 requests 网页请求库和 BeautifulSoup 网页数据爬取库。

关键词

图片爬取；xpath 语法；requests 网页请求库；BeautifulSoup 网页数据爬取库

全文:

PDF

参考

[1] 张誉曜,陈媛媛. 基于 Python 下的爬虫综述及应用[J]. 中国新通信. 2019(06) [2] 李琳. 基于 Python 的网络爬虫系统的设计与实现[J]. 信息通信. 2017(09) [3] 王碧瑶.基于 Python 的网络爬虫技术研究[J].数字技术与应用,2017(5):76. [4] 魏程程.基于 Python 的数据信息爬虫技术[J]. 电子世界. 2018(11) [5] 郭丽蓉. 基于 Python 的网络爬虫程序设计[J]. 电子技术与软件工程. 2017(23)

(185 摘要 Views, 349 PDF Downloads)

Refbacks

当前没有refback。

用户名
密码
记住我