新的应用市场爬虫设计思路

新的应用市场爬虫设计思路

2021年11月20日

·

97 次浏览

该话题包含 1 个回复，2 人参与，最后由 rawchen 更新于 2年、 5月前。

正在查看 2 个帖子：1-1 (共 1 个帖子)

作者

帖子
#21970
孙锡源
- 文章数量： 704
@ibadboy

楼主
2021年11月20日上午9:41
目前的爬虫是 Python 写的。具体思路就是定时遍历 WordPress 的插件、主题的 SVN 目录，获取项目的 Slug，然后使用 Slug 拼接出网页 URL 再爬取数据并提取有用信息入库。

这样做的缺点在于无法针对性的增量更新，每次必须全量采集一遍数据才能对比版本号再决定是否入库。而且爬虫使用 Python 编写再通过 WordPress 的 Rest API 来入库的话老实说性能损耗比较严重。

在新的设计方案中，计划直接监控 WordPress 的 SVN 更新日志。在 SVN 客户端中内置提供了一个 log 命令，可以显示出仓库中在某一段时间内的所有更新日志，于是就可以借此来追踪哪些文件被更新过，并从文件路径中解析出 Slug，拿到 Slug 后就可以将其压入队列，等待爬虫抓取数据并入库了。而爬虫则打算基于 WordPress 重新开发一个，这主要是因为使用增量更新的话更新的规模可控，直接使用 WordPress 的 Cron 做队列也不至于阻塞掉整个系统。

来自, 山东, 中国
#21999
rawchen
- 文章数量： 196
@rawchen
2021年11月24日下午9:24
来自成都, 四川省, 中国
作者

帖子

正在查看 2 个帖子：1-1 (共 1 个帖子)

哎呀，回复话题必需登录。

话题信息

AI 智能回复

有奖参与论坛社区问答