爬虫小记


笔者的一个项目需要收集小红书|抖音|微博等平台上关于杭州的花景的数据集以进行语义分析训练模型。

在 Github 上看到一个 Star数高达 10K+的爬虫项目,遂在其基础上二次开发以便在自己的项目上使用,并提交了 PR 。

Repository

https://github.com/NanmiCoder/MediaCrawler

star 图

Contributions

  1. feat(core): 新增控制爬虫 search 参数起始页面的页数start_page,原项目固定只能从第一页开始爬取,不方便爬取时间跨度更大的内容信息。

修改 search 函数

  1. perf(argparse): 向命令行解析器添加程序参数起始页面页数和关键字

原项目的命令行解析器程序参数提供的比较少,新增了 start_page 和 keyword 接口直接在命令行填写,方便后续编写 shell 脚本自动化爬取需求,原本需要前往 base_config 手动修改参数,现在可以直接在命令行上调整起始页面和查询关键字。

增加命令行解析器程序参数

通过上述改写源码,爬取了杭州春天花景的”最热门”的200 多条数据,以及最新的 2024 年 3 月至 4 月的200 多条数据,圆满完成任务,并提交了 PR。

提交 PR


文章作者: Tiancy
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Tiancy !
评论
  目录