平台开发中,欢迎参与测试。你可以在 QQ群:1046115671 中与我们交流,或是直接在社区发帖。

    新的应用市场爬虫设计思路

    • 孙锡源
      楼主

      目前的爬虫是 Python 写的。具体思路就是定时遍历 WordPress 的插件、主题的 SVN 目录,获取项目的 Slug,然后使用 Slug 拼接出网页 URL 再爬取数据并提取有用信息入库。

      这样做的缺点在于无法针对性的增量更新,每次必须全量采集一遍数据才能对比版本号再决定是否入库。而且爬虫使用 Python 编写再通过 WordPress 的 Rest API 来入库的话老实说性能损耗比较严重。

      在新的设计方案中,计划直接监控 WordPress 的 SVN 更新日志。在 SVN 客户端中内置提供了一个 log 命令,可以显示出仓库中在某一段时间内的所有更新日志,于是就可以借此来追踪哪些文件被更新过,并从文件路径中解析出 Slug,拿到 Slug 后就可以将其压入队列,等待爬虫抓取数据并入库了。而爬虫则打算基于 WordPress 重新开发一个,这主要是因为使用增量更新的话更新的规模可控,直接使用 WordPress 的 Cron 做队列也不至于阻塞掉整个系统。

  • 不凡
    参与者
  • 正在查看 1 条回复
    • 哎呀,回复话题必需登录。