前言
litepress.cn的数据很大程度上依赖从wordpress.org抓取,同时翻译平台的机器翻译填充也依赖对谷歌翻译的网页抓取,于是代理IP就成了刚需。
但目前市面上商用的代理IP价格较高(通常5000一年),而自己抓取的又不稳定,所以希望能有一些志愿者将自己服务器的带宽贡献一部分出来帮助我们完成数据抓取工作。
贡献带宽是否会对服务器上的业务产生影响
首批计划收集20个代理IP,我们会把爬虫并发量严格限制在总IP数量的一半,也就是每秒10个,也就是说平均每两秒只会有一条请求流经你的服务器,同时因为我们只对动态页抓取,所以本身一次请求也不会占太大带宽(通常gzip压缩后在50kb以下)
需要的是哪些地理位置的IP
中国香港以及美国西海岸
如何参与
创建一个WEB站点,无需PHP和MySQL且站点域名随便填,然后把以下配置贴到站点的Nginx配置中即可(完整替换原有内容)
server {
listen 80;
server_name translate.wordpress.org;
server_name translate.google.cn;
server_name wordpress.org;
server_name developers.wordpress.org;
server_name clients1.google.com;
server_name clients2.google.com;
server_name clients3.google.com;
server_name clients4.google.com;
server_name clients5.google.com;
if ($http_user_agent ~* (baiduspider|360spider|googlebot|soso|bing|sogou|yahoo|yisouspider|sohu-search|yodao|YoudaoBot|robozilla|msnbot|MJ12bot|NHN|Twiceler)) {
return 404;
}
keepalive_timeout 75s;
keepalive_requests 100;
gzip on;
gzip_comp_level 6;
gzip_min_length 1k;
gzip_types text/plain text/css text/xml text/javascript text/x-component application/json application/javascript application/x-javascript application/xml application/xhtml+xml application/rss+xml application/atom+xml application/x-font-ttf application/vnd.ms-fontobject image/svg+xml image/x-icon font/opentype;
location / {
resolver 114.114.114.114 8.8.8.8;
proxy_pass https://$host:443;
proxy_ssl_verify off;
proxy_set_header X-Real-IP $remote_addr;
proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
proxy_set_header Upgrade $http_upgrade;
client_max_body_size 1m;
}
}
考虑到直接在帖子中回复IP可能造成IP地址泄露,所以配置成功后请加QQ群:1046115671,之后在群内艾特我提交IP即可~