跳转至

程序设计训练（Python）

爬虫

python-course/python-docs

爬虫¶

数据爬取¶

从任意音乐网站中爬取歌曲和歌手信息。
- 例如：网易云音乐、QQ音乐、酷我音乐等。
歌曲需爬取以下信息：
- 歌曲名
- 歌手名
- 歌词（去除时间轴，仅保留歌词文本）
- 歌曲图片（如专辑封面）
- 歌曲原始网站URL
- 可选但不要求：评论（每首歌曲约3条评论，包含文本、评论时间）
- 其它可能需要的信息
歌手需爬取以下信息：
- 歌手名
- 歌手图片
- 歌手简介
- 歌手原始网站URL
- 其他可能需要的信息

相关要求¶

爬取的歌曲数量不少于2000，歌手数量不少于100，每位歌手至少需爬取一首歌曲。
请勿爬取音视频内容！

注意事项¶

注意网站可能存在的反爬机制，并调整爬虫策略
- 不要野蛮抓取、两次爬取中间建议停顿一定时间（建议两次爬取之间设置一定时间间隔，如1秒）
- 设置与常规访问一致的 HTTP 头
- 使用动态 User-Agent
- 更换不同的 Cookie
- 更换不同的 IP 地址
- （有条件）使用代理池进行请求
提示：建议在本地存储已爬到的页面URL和HTML文件，防止爬虫程序意外崩溃或被反爬激活后损失数据，并能有效地继续爬取。
如被反爬机制封禁，允许保留已有数据，换其他网站继续爬取。
不限制爬虫所使用的Python第三方库(bs4、Scrapy等)

作者：xujz18 (34.21%), Rishubi (13.16%), lambda (52.63%)