爬虫小记

crawler

项目学习

发布日期: 2024-04-10

更新日期: 2024-12-08

文章字数: 312

阅读时长: 1 分

笔者的一个项目需要收集小红书|抖音|微博等平台上关于杭州的花景的数据集以进行语义分析训练模型。

在 Github 上看到一个 Star数高达 10K+的爬虫项目，遂在其基础上二次开发以便在自己的项目上使用，并提交了 PR 。

Repository

star 图

feat(core): 新增控制爬虫 search 参数起始页面的页数start_page，原项目固定只能从第一页开始爬取，不方便爬取时间跨度更大的内容信息。

修改 search 函数

原项目的命令行解析器程序参数提供的比较少，新增了 start_page 和 keyword 接口直接在命令行填写，方便后续编写 shell 脚本自动化爬取需求，原本需要前往 base_config 手动修改参数，现在可以直接在命令行上调整起始页面和查询关键字。

增加命令行解析器程序参数

通过上述改写源码，爬取了杭州春天花景的”最热门”的200 多条数据，以及最新的 2024 年 3 月至 4 月的200 多条数据，圆满完成任务，并提交了 PR。

提交 PR

Tiancy

https://tianci-king.github.io/2024/04/10/crawler-1/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 Tiancy !

crawler

砰！

2024-04-13 CTF

PWN

加油 HUAWEI，加油 China😇

2024-03-05 后端学习

OpenGauss Docker SQL