贡献带宽以帮助我们更好的抓取资源

正在查看 0 个帖子
  • 作者
    帖子
  • 孙锡源
    • 文章数量: 704
    @ibadboy
    楼主

    前言

    litepress.cn的数据很大程度上依赖从wordpress.org抓取,同时翻译平台的机器翻译填充也依赖对谷歌翻译的网页抓取,于是代理IP就成了刚需。

    但目前市面上商用的代理IP价格较高(通常5000一年),而自己抓取的又不稳定,所以希望能有一些志愿者将自己服务器的带宽贡献一部分出来帮助我们完成数据抓取工作。

    贡献带宽是否会对服务器上的业务产生影响

    首批计划收集20个代理IP,我们会把爬虫并发量严格限制在总IP数量的一半,也就是每秒10个,也就是说平均每两秒只会有一条请求流经你的服务器,同时因为我们只对动态页抓取,所以本身一次请求也不会占太大带宽(通常gzip压缩后在50kb以下)

    需要的是哪些地理位置的IP

    中国香港以及美国西海岸

    如何参与

    创建一个WEB站点,无需PHP和MySQL且站点域名随便填,然后把以下配置贴到站点的Nginx配置中即可(完整替换原有内容)

    server {
        listen              80;
        server_name         translate.wordpress.org;
        server_name         translate.google.cn;
        server_name         wordpress.org;
        server_name         developers.wordpress.org;
        server_name         clients1.google.com;
        server_name         clients2.google.com;
        server_name         clients3.google.com;
        server_name         clients4.google.com;
        server_name         clients5.google.com;
        if ($http_user_agent ~* (baiduspider|360spider|googlebot|soso|bing|sogou|yahoo|yisouspider|sohu-search|yodao|YoudaoBot|robozilla|msnbot|MJ12bot|NHN|Twiceler)) {
            return  404;
        }
        keepalive_timeout   75s;
        keepalive_requests  100;
        gzip                on;
        gzip_comp_level     6;
        gzip_min_length     1k;
        gzip_types          text/plain text/css text/xml text/javascript text/x-component application/json application/javascript application/x-javascript application/xml application/xhtml+xml application/rss+xml application/atom+xml application/x-font-ttf application/vnd.ms-fontobject image/svg+xml image/x-icon font/opentype;
        location / {
            resolver              114.114.114.114 8.8.8.8;
            proxy_pass            https://$host:443;
            proxy_ssl_verify off;
            proxy_set_header      X-Real-IP $remote_addr;
            proxy_set_header      X-Forwarded-For $proxy_add_x_forwarded_for;
            proxy_set_header      Upgrade $http_upgrade;
            client_max_body_size  1m;
        }
    }

     

    考虑到直接在帖子中回复IP可能造成IP地址泄露,所以配置成功后请加QQ群:1046115671,之后在群内艾特我提交IP即可~

    来自秦皇岛, 河北, 中国
正在查看 0 个帖子
  • 哎呀,回复话题必需登录。

话题信息