1. 先明确评估目标:确认是偏重可用性(抗DDoS)、安全性(入侵检测)或运维效率(自动化与成本)。
1.1 建议频率:周检(指标、告警),月检(配置、补丁),季度(演练、骨干链路评估),年度(全栈安全审计)。
1.2 输出物:每次评估产生一份可执行的清单(issue list)并在工单系统中跟踪到闭环。
2. 在评估开始时,先自动化收集资产与当前配置:主机、IP、ASN、端口、运行服务、容器与虚拟化信息。
2.1 常用命令(SSH到服务器执行并收集输出到中央仓库):uname -a;cat /etc/os-release;ip addr;ss -tuna;netstat -tunlp;docker ps -a;lsof -i。
2.2 将输出存入版本控制:例如运行脚本把上述命令结果上传到Git或S3,便于对比历史基线。
3. 检查与高防供应商的链路(Scrubbing、BGP、Anycast)与路由策略,确认策略与SLA。
3.1 使用traceroute / mtr检测到高防节点路径:traceroute -n <目标IP>;注意是否存在路由黑洞或非预期跳数。
3.2 校验BGP/AS是否正确:确认公告前缀、Origin、社区(community)是否按策略标注;对接供应商排查转发规则。
4. 使用工具或手工检查防火墙规则并修复冗余及冲突:iptables -L -n -v 或 nft list ruleset。
4.1 快速检查示例命令与修复:查看连接追踪:conntrack -S;若conntrack溢出,调整 /proc/sys/net/netfilter/nf_conntrack_max。
4.2 建议规则实践:启用默认拒绝、只开放必要端口;示例限速(仅作参考并在测试环境验证): iptables -N SYN_LIMIT; iptables -A INPUT -p tcp --syn -m hashlimit --hashlimit-name synlimit --hashlimit 100/s --hashlimit-burst 200 -j ACCEPT;
5. 检查并固化内核参数,以提高抗爆发连接与稳定性。编辑 /etc/sysctl.conf 并应用 sysctl -p。
5.1 推荐项(按需调整并测试):net.ipv4.tcp_syncookies=1;net.ipv4.tcp_max_syn_backlog=4096;net.netfilter.nf_conntrack_max=262144;fs.file-max=200000。
5.2 调整打开文件与进程限制:在 /etc/security/limits.conf 设置 * soft nofile 65536;重启服务或会话生效。
6. 建立集中化日志(ELK/EFK或Graylog)与指标监控(Prometheus + Grafana),定义关键告警并设置自动化响应脚本。
6.1 关键监控指标及阈值示例:连接数(connections)>100k 持续5分钟;SYN速率>10000/s;带宽利用>90%。
6.2 告警自动化:Alertmanager路由到值班、短信/微信/钉钉,并触发自动化Runbook(脚本切换黑洞、更新ACL)。
7. 将所有防护配置与补丁流程纳入CM(如Ansible/GitOps),并在变更前通过CI测试与预发布环境验证。

7.1 示例Ansible任务片段(伪代码):tasks: - name: 把iptables规则复制到服务器 copy: src=iptables.rules dest=/etc/iptables.rules notify: reload-iptables。
7.2 例行任务:每日备份防火墙与路由配置(crontab示例):0 3 * * * /usr/local/bin/backup-configs.sh && git add . && git commit -m "daily backup" && git push。
8. 安排控制的演练步骤:1)提前通知供应商与业务部门;2)在低峰窗口执行;3)执行故障切换并验证。
8.1 模拟流量测试:仅在实验环境或获得供应商授权下使用流量回放/生成器(如tcpreplay、合法的压力测试服务),不要对生产互联网发起未经授权的攻击。
8.2 恢复与回滚步骤:确保有可用配置快照与数据备份(数据库与配置),制定明确的回滚命令与负责人并演练恢复时间目标(RTO)。
问:多久一次评估最合适?
答:答:建议分层:关键指标每日/每小时检查、月度做配置与补丁核查、季度做链路与演练、年度做深度安全审计。频率可根据业务敏感度与变更频率上调。
问:如何在不影响业务的情况下做抗DDoS验证?
答:答:必须在测试环境或与高防供应商协同下进行。使用供应商提供的流量注入或授权的压力测试服务,并在低峰窗口、限速、分阶段执行,实时监控并预设回滚黑洞策略。
问:评估后发现问题如何量化并跟踪修复?
答:答:为每个发现的问题定义严重度(P0/P1/P2)、影响范围、修复建议与预估工时,建立工单并赋责,使用SLA与定期回顾跟踪直到关闭,同时在下次评估验证改动效果。