关于nf_conntrack以及和ip_conntrack的区别

Posted On 2013年11月30日

网上关于ip_conntrack的介绍并不少。 Linux内核的ip_conntrack模块会记录每一个tcp协议的estiablished connection记录。关且一个默认的timeout值是432000秒（五天时间）。每个ip_conntrack记录约会占用292Bytes的内存，所以系统所能记录的ip_conntrack也是有限的，如果超过了这个限度，就会出现内核级错误“ip_conntrack: table full, dropping packet”，其结果就是无法再有任何的网络连接了。

今天又研究了下iptables, 随在系统里寻找ip_conntrack的设置，却怎么也找不到了。莫明其妙的，竟然模块lsmod里，有一个nf_conntrack。看样子和ip_conntrack一样，而且cat /proc/net/nf_conntrack 也能看到类似与ip_conntrack的内容。所以一顿搜索，终于发现。这2个其实是一个东西啊。 找不到ip_conntracks的同学们，不必慌张了。新内核的linux系统里，你基本都是用的nf_conntrack了。

在netfilter 的一个group emails ,有这么一句话：
ip_conntrack_* helper modules have been replaced by nf_conntrack_* when available and moved from net/ipv4/netfilter to net/netfilter.

ip_conntrack 的helper modules 都被替换成了nf_conntrack ，而且在proc的文件系统里，也换了位置。所以你找不到也就不奇怪了。

nf_contrack 设置位于新的位置：

cat /proc/net/nf_conntrack

cat /proc/sys/net/netfilter/nf_* 看所有的配置参数都在这里了。当然除了动态的修改和优化nf_conntrack外，你也需要在sysctl.conf中进行配置。

==================================
附上网上关于nf_conntrack优化的一篇文章：

解决 nf_conntrack: table full, dropping packet 的几种思路
Posted on August 16, 2012
nf_conntrack 工作在 3 层，支持 IPv4 和 IPv6，而 ip_conntrack 只支持 IPv4。目前，大多的 ip_conntrack_* 已被 nf_conntrack_* 取代，很多 ip_conntrack_* 仅仅是个 alias，原先的 ip_conntrack 的 /proc/sys/net/ipv4/netfilter/ 依然存在，但是新的 nf_conntrack 在 /proc/sys/net/netfilter/ 中，这个应该是做个向下的兼容：
$ pwd
/proc/sys/net/ipv4/netfilter
$ ls
ip_conntrack_buckets ip_conntrack_tcp_loose ip_conntrack_tcp_timeout_syn_recv
ip_conntrack_checksum ip_conntrack_tcp_max_retrans ip_conntrack_tcp_timeout_syn_sent
ip_conntrack_count ip_conntrack_tcp_timeout_close ip_conntrack_tcp_timeout_syn_sent2
ip_conntrack_generic_timeout ip_conntrack_tcp_timeout_close_wait ip_conntrack_tcp_timeout_time_wait
ip_conntrack_icmp_timeout ip_conntrack_tcp_timeout_established ip_conntrack_udp_timeout
ip_conntrack_log_invalid ip_conntrack_tcp_timeout_fin_wait ip_conntrack_udp_timeout_stream
ip_conntrack_max ip_conntrack_tcp_timeout_last_ack
ip_conntrack_tcp_be_liberal ip_conntrack_tcp_timeout_max_retrans

$ pwd
/proc/sys/net/netfilter
$ ls
nf_conntrack_acct nf_conntrack_tcp_timeout_close
nf_conntrack_buckets nf_conntrack_tcp_timeout_close_wait
nf_conntrack_checksum nf_conntrack_tcp_timeout_established
nf_conntrack_count nf_conntrack_tcp_timeout_fin_wait
nf_conntrack_events nf_conntrack_tcp_timeout_last_ack
nf_conntrack_events_retry_timeout nf_conntrack_tcp_timeout_max_retrans
nf_conntrack_expect_max nf_conntrack_tcp_timeout_syn_recv
nf_conntrack_generic_timeout nf_conntrack_tcp_timeout_syn_sent
nf_conntrack_icmp_timeout nf_conntrack_tcp_timeout_time_wait
nf_conntrack_log_invalid nf_conntrack_tcp_timeout_unacknowledged
nf_conntrack_max nf_conntrack_udp_timeout
nf_conntrack_tcp_be_liberal nf_conntrack_udp_timeout_stream
nf_conntrack_tcp_loose nf_log/
conntrack_tcp_max_retrans

查看当前的连接数：
# grep ip_conntrack /proc/slabinfo
ip_conntrack 38358 64324 304 13 1 : tunables 54 27 8 : slabdata 4948 4948 216

nf_conntrack/ip_conntrack 跟 nat 有关，用来跟踪连接条目，它会使用一个哈希表来记录 established 的记录。nf_conntrack 在 2.6.15 被引入，而 ip_conntrack 在 2.6.22 被移除，如果该哈希表满了，就会出现：
nf_conntrack: table full, dropping packet

解决此问题有如下几种思路。

1.不使用 nf_conntrack 模块
首先要移除 state 模块，因为使用该模块需要加载 nf_conntrack。确保 iptables 规则中没有出现类似 state 模块的规则，如果有的话将其移除：
-A INPUT -m state –state RELATED,ESTABLISHED -j ACCEPT

注释 /etc/sysconfig/iptables-config 中的：
IPTABLES_MODULES=”ip_conntrack_netbios_ns”

移除 nf_conntrack 模块：
$ sudo modprobe -r xt_NOTRACK nf_conntrack_netbios_ns nf_conntrack_ipv4 xt_state
$ sudo modprobe -r nf_conntrack

现在 /proc/net/ 下面应该没有 nf_conntrack 了。

2.调整 /proc/ 下面的参数
可以增大 conntrack 的条目(sessions, connection tracking entries) CONNTRACK_MAX 或者增加存储 conntrack 条目哈希表的大小 HASHSIZE
默认情况下，CONNTRACK_MAX 和 HASHSIZE 会根据系统内存大小计算出一个比较合理的值：
对于 CONNTRACK_MAX，其计算公式：
CONNTRACK_MAX = RAMSIZE (in bytes) / 16384 / (ARCH / 32)
比如一个 64 位 48G 的机器可以同时处理 48*1024^3/16384/2 = 1572864 条 netfilter 连接。对于大于 1G 内存的系统，默认的 CONNTRACK_MAX 是 65535。

对于 HASHSIZE，默认的有这样的转换关系：
CONNTRACK_MAX = HASHSIZE * 8
这表示每个链接列表里面平均有 8 个 conntrack 条目。其真正的计算公式如下：
HASHSIZE = CONNTRACK_MAX / 8 = RAMSIZE (in bytes) / 131072 / (ARCH / 32)
比如一个 64 位 48G 的机器可以存储 48*1024^3/131072/2 = 196608 的buckets(连接列表)。对于大于 1G 内存的系统，默认的 HASHSIZE 是 8192。

可以通过 echo 直接修改目前系统 CONNTRACK_MAX 以及 HASHSIZE 的值：
$ sudo su -c “echo 100000 > /proc/sys/net/netfilter/nf_conntrack_max”
$ sudo su -c “echo 50000 > /proc/sys/net/netfilter/nf_conntrack_buckets”

还可以缩短 timeout 的值：
$ sudo su -c “echo 600 > /proc/sys/net/ipv4/netfilter/ip_conntrack_tcp_timeout_established”

3.使用 raw 表，不跟踪连接
iptables 中的 raw 表跟包的跟踪有关，基本就是用来干一件事，通过 NOTRACK 给不需要被连接跟踪的包打标记，也就是说，如果一个连接遇到了 -j NOTRACK，conntrack 就不会跟踪该连接，raw 的优先级大于 mangle, nat, filter，包含 PREROUTING 和 OUTPUT 链。
当执行 -t raw 时，系统会自动加载 iptable_raw 模块(需要该模块存在)。raw 在 2.4 以及 2.6 早期的内核中不存在，除非打了 patch，目前的系统应该都有支持:
$ sudo iptables -A FORWARD -m state –state UNTRACKED -j ACCEPT
$ sudo iptables -t raw -A PREROUTING -p tcp -m multiport –dport 80,81,82 -j NOTRACK
$ sudo iptables -t raw -A PREROUTING -p tcp -m multiport –sport 80,81,82 -j NOTRACK

上面三种方式，最有效的是 1 跟 3，第二种治标不治本。

ref:
http://www.digipedia.pl/usenet/thread/16263/7806/
http://serverfault.com/questions/72366/how-do-i-disable-the-nf-conntrack-kernel-module-in-centos-5-3-without-recompilin

http://wiki.khnet.info/index.php/Conntrack_tuning

此篇文章已被阅读5234 次

Tags:iptables

About The Author

The Tester

技术交流，生活学习

相关文章

Related Posts

科学上网trojan的安装和使用

nginx multiple server block in same port

创建受限制的linux用户

About The Author

The Tester

Add a Comment