生活百味交流 :探索生活中的点滴乐趣。

 找回密码
 立即注册
查看: 2|回复: 0

linux运维:K掉口碑 欢迎百度

[复制链接]

主题

帖子

5

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
5
发表于 2024-2-18 04:09:15 | 显示全部楼层 |阅读模式
相信很多有经验的站长和我一样,每天观察流量统计,同样,今天也不例外。早上上班后就发现今天流量PV(点击量)有点低,但是IP并没低多少,当时也没在意,因为周三流量通常比周二要低一点。
    我的网站使用的是linux环境,晚上的时候就发现网站速度比较慢,因为刚刚把服务器换到电信A类机房,所以速度还是有点信心的。于是使用top命令检查负载,发现负载超过40,一般负载超过10速度就会慢下来,按照往常的经验,who、ps等命令检查链接和进程,接着使用netstat -a -n检查访问请求,发现119.42.245.*有几个IP异常(后面会提到如何判断异常IP),链接IP138检查IP来源,发现是阿里巴巴的(汗一下!阿里的IP段都是写的公司名称)。
    笔者网站唯一爱来网是老牌的休闲类网站,而阿里旗下的口碑网是国内最大的分类信息站,百度收录量1400万,而赶集、58、百姓、唯一爱来网收录都在一万以内(看来业精于勤啊,再汗一把)。
    立即,使用iptables -I INPUT -s 119.42.245.0/16 -j DROP 命令封掉IP段,ok,一切搞定,负载逐步降低到5以下。
    接下来的时间继续做功课,分析当日流量,删除垃圾信息(很重要,笔者以前曾经写过分类信息站淘汰法则被垃圾、违法信息淹死?推荐大家看看)以及构思产品的改进策略。过了一会有检查了一下负载,发现又上升到7了,于是依葫芦画瓢,又一个IP段出现我我视野61.135.249.*,这个IP段有点熟悉,似乎是搜索引擎爬虫,于是每2分钟netstat -a -n一下,COPY到ultraedit编辑器里,取3次记录,然后总结,发现这个IP段出现的次数都在35~40之间(百度爬虫的频率一般是37,不知道有站长研究过没),百度爬虫有61.135开头的爬虫段。
    访问下网站,发现速度正常,看来专业爬虫的技术就是好,不会把人弄宕机。另补充说明下如何判断异常IP:看IP段 ,一些爬虫会自动换IP,防止被封。所以要看IP段出现的频率。不能确定的话可以隔段时间再看。看IP地址,一般国外IP我都是直接封IP。看抓取频率,搜索引擎的爬虫抓取频率会很合适,绝对不会长时间以超过你网站承受能力的频率抓。
    OK,祝福各位站长身体事业两不误。
    (请注明原创地址: 唯一爱来网 站长供稿!)
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|生活百味交流

GMT+8, 2024-11-23 17:13 , Processed in 0.031341 second(s), 19 queries .

Powered by Discuz! X3.4

快速回复 返回顶部 返回列表