新的应用市场爬虫设计思路

正在查看 2 个帖子:1-1 (共 1 个帖子)
  • 作者
    帖子
  • 孙锡源
    • 文章数量: 704
    @ibadboy
    楼主

    目前的爬虫是 Python 写的。具体思路就是定时遍历 WordPress 的插件、主题的 SVN 目录,获取项目的 Slug,然后使用 Slug 拼接出网页 URL 再爬取数据并提取有用信息入库。

    这样做的缺点在于无法针对性的增量更新,每次必须全量采集一遍数据才能对比版本号再决定是否入库。而且爬虫使用 Python 编写再通过 WordPress 的 Rest API 来入库的话老实说性能损耗比较严重。

    在新的设计方案中,计划直接监控 WordPress 的 SVN 更新日志。在 SVN 客户端中内置提供了一个 log 命令,可以显示出仓库中在某一段时间内的所有更新日志,于是就可以借此来追踪哪些文件被更新过,并从文件路径中解析出 Slug,拿到 Slug 后就可以将其压入队列,等待爬虫抓取数据并入库了。而爬虫则打算基于 WordPress 重新开发一个,这主要是因为使用增量更新的话更新的规模可控,直接使用 WordPress 的 Cron 做队列也不至于阻塞掉整个系统。

    来自, 山东, 中国
    rawchen
    • 文章数量: 196
    @rawchen

    来自成都, 四川省, 中国
正在查看 2 个帖子:1-1 (共 1 个帖子)
  • 哎呀,回复话题必需登录。

话题信息