HTB内部实现分析（转）

xiaoxiao2021-02-28 94

htb internel 转自：http://blog.csdn.net/liujianfeng1984/article/details/41922085 之前通过《默认FIFO_FAST出口排队规则分析》、《ingress入口排队规则分析》分析，已经对排队规则的基础架框有了简单的了解。那两种排队规则都是无类的，这里选出可以分类的HTB排队规则进行分析。

当前实例分析的基本对象关联图

一、当前分析的配置范例

//在eth0设备上创建一个根HTB排队规则，当未匹配任何过滤器时，将报文放入ID为20 //的分类中 tc qdisc add dev eth0 root handle 1: htb default 20

//在根HTB排队规则上创建ID为1的分类 tc class add dev eth0 parent 1: classid 1:1 htb rate 6mbit burst 15k

//在ID为1的分类上分别创建两个ID为10、ID为20的分类 tc class add dev eth0 parent 1:1 classid 1:10 htb rate 5mbit burst 15k tc class add dev eth0 parent 1:1 classid 1:20 htb rate 3mbit ceil 6mbit burst 15k

//创建两个U32分类器 U32=”tc filter add dev eth0 protocol ip parent 1:0 prio 1 u32” U32matchipdport800xffffflowid1:10 U32 match ip sport 25 0xffff flowid 1:20

二、创建根HTB排队规则

1、用户层分析

//初始化，获取每纳秒对应多少TICKET tc_core_init(); fp = fopen(“/proc/net/psched”, “r”); fscanf(fp, “xxx”, &t2us, &us2t, &clock_res); fclose(fp);

if (clock_res == 1000000000) t2us = us2t;

clock_factor = (double)clock_res / TIME_UNITS_PER_SEC; tick_in_usec = (double)t2us / us2t * clock_factor;

//创建一个ROUTE类型的netlink套接口 rtnl_open(&rth, 0) rtnl_open_byproto(rth, subscriptions, NETLINK_ROUTE); rth->fd = socket(AF_NETLINK, SOCK_RAW | SOCK_CLOEXEC, protocol); setsockopt(rth->fd,SOL_SOCKET,SO_SNDBUF,&sndbuf,sizeof(sndbuf)) setsockopt(rth->fd,SOL_SOCKET,SO_RCVBUF,&rcvbuf,sizeof(rcvbuf)) rth->local.nl_family = AF_NETLINK; rth->local.nl_groups = subscriptions; //0 bind(rth->fd, (struct sockaddr*)&rth->local, sizeof(rth->local)) rth->seq = time(NULL);

do_cmd(argc-1, argv+1); if (matches(*argv, “qdisc”) == 0) //执行设置排队规则的命令 do_qdisc(argc-1, argv+1); if (matches(*argv, “add”) == 0) tc_qdisc_modify(RTM_NEWQDISC, NLM_F_EXCL|NLM_F_CREATE, argc-1, argv+1); req.n.nlmsg_len = NLMSG_LENGTH(sizeof(struct tcmsg)); req.n.nlmsg_flags = NLM_F_REQUEST|flags; req.n.nlmsg_type = cmd; //RTM_NEWQDISC req.t.tcm_family = AF_UNSPEC;

while (argc > 0) if (strcmp(*argv, “dev”) == 0) NEXT_ARG(); strncpy(d, *argv, sizeof(d)-1); //eth0 else if (strcmp(*argv, “root”) == 0) req.t.tcm_parent = TC_H_ROOT; else if (strcmp(*argv, “handle”) == 0) NEXT_ARG(); get_qdisc_handle(&handle, *argv) req.t.tcm_handle = handle; //0x00010000 else //如果有/usr/lib/tc/htb.so动态库中则从中获 //取htb_qdisc_util符号结构，否则检测当前tc //程序是否有htb_qdisc_util符号结构则从中获取 //，否则返回q 为空。 q = get_qdisc_kind(k);

//在消息尾部追加KIND属性 //rta->rta_type = type; //TCA_KIND //rta->rta_len = len; //属性值为 “htb” addattr_l(&req.n, sizeof(req), TCA_KIND, k, strlen(k)+1);

//当前q为htb_qdisc_util，使用其中parse_qopt回调进行其它参数 //解析，当前回调函数为htb_parse_opt q->parse_qopt(q, argc, argv, &req.n) htb_parse_opt //默认参数 opt.rate2quantum = 10; opt.version = 3;

while (argc > 0) if (matches(*argv, “default”) == 0) NEXT_ARG(); get_u32(&opt.defcls, *argv, 16) //20

//添加扩展属性OPTIONS，标记后面都是htb的选项 addattr_l(n, 1024, TCA_OPTIONS, NULL, 0);

//添加扩展属性HTB_INIT addattr_l(n, 2024, TCA_HTB_INIT, &opt, NLMSG_ALIGN(sizeof(opt)));

//根据接口名获取接口索引 if (d[0]) idx = ll_name_to_index(d) req.t.tcm_ifindex = idx;

//给内核发送该netlink消息 rtnl_talk(&rth, &req.n, 0, 0, NULL)

rtnl_close(&rth);

2、内核层分析

用户侧发出RTM_NEWQDISC套接口消息后，在内核侧对应的处理回调函数为tc_modify_qdisc，该函数是在pktsched_init中初始化的。

tc_modify_qdisc tcm = NLMSG_DATA(n); clid = tcm->tcm_parent; //当前用户侧传入值为 TC_H_ROOT

//根据设备索引获取设备对象，上面用户侧传入设备名为eth0 dev = __dev_get_by_index(tcm->tcm_ifindex)

if (clid) if (clid != TC_H_ROOT) //当前为根排队规则，不走此流程 else q = dev->qdisc_sleeping;

//当前设备存储的是默认的排队规则，则忽略 if (q && q->handle == 0) q = NULL;

if (!q || !tcm->tcm_handle || q->handle != tcm->tcm_handle) if (tcm->tcm_handle) //用户侧传入为特定的0x1 //当前设备的qdisc_list排队规则链表中不含有此规则，进行创建 if ((q = qdisc_lookup(dev, tcm->tcm_handle)) == NULL) goto create_n_graft;

create_n_graft:

//创建排队规则 q = qdisc_create(dev, tcm->tcm_handle, tca, &err); //从已经注册到qdisc_base链表中获取匹配排队规则，当前htb已经注册 //，则ops = htb_qdisc_ops ops = qdisc_lookup_ops(kind);

sch = qdisc_alloc(dev, ops); INIT_LIST_HEAD(&sch->list); skb_queue_head_init(&sch->q); //初始化规则中的SKB队列 sch->ops = ops; //htb_qdisc_ops sch->enqueue = ops->enqueue; //ingress_enqueue sch->dequeue = ops->dequeue; //ingress_dequeue sch->dev = dev; //eth0设备对象 dev_hold(dev); //设备对象引用递增 sch->stats_lock = &dev->queue_lock; atomic_set(&sch->refcnt, 1);

sch->handle = handle; //0x00010000

//使用排队规则中的初始化回调进行初始化，当前htb的回调函数为 //htb_init ops->init(sch, tca[TCA_OPTIONS-1]) htb_init(tca[TCA_OPTIONS-1]) htb_sched *q = qdisc_priv(sch);

//HTB_INIT属性 gopt = RTA_DATA(tb[TCA_HTB_INIT - 1]);

//初始化根类链表 INIT_LIST_HEAD(&q->root);

for (i = 0; i < HTB_HSIZE; i++) INIT_HLIST_HEAD(q->hash + i);

for (i = 0; i < TC_HTB_NUMPRIO; i++) INIT_LIST_HEAD(q->drops + i);

init_timer(&q->timer); skb_queue_head_init(&q->direct_queue); q->direct_qlen = sch->dev->tx_queue_len; if (q->direct_qlen < 2) q->direct_qlen = 2; q->timer.function = htb_timer; q->timer.data = (unsigned long)sch;

//启动了速率定时器，每秒触发一下，其中htb_rate_timer函数在每秒 //触发会都会根据q->recmp_bucket索引来获取q->hash中的一个 //HASH链表，对该HASH链表所有条目进行速率计算，之后递增 //q->recmp_bucket索引，准备下一秒后对下一个HASH链表进行速 //率计算。当前计算方法也比较简单 //#define RT_GEN(D,R) R+=D-(R/HTB_EWMAC);D=0 //RT_GEN(cl->sum_bytes, cl->rate_bytes); //RT_GEN(cl->sum_packets, cl->rate_packets); init_timer(&q->rttim); q->rttim.function = htb_rate_timer; q->rttim.data = (unsigned long)sch; q->rttim.expires = jiffies + HZ; add_timer(&q->rttim);

if ((q->rate2quantum = gopt->rate2quantum) < 1) //用户默认值为10 q->rate2quantum = 1;

q->defcls = gopt->defcls; //20

//将当前排队规则加入到设备的qdisc_list链表中 qdisc_lock_tree(dev); list_add_tail(&sch->list, &dev->qdisc_list); qdisc_unlock_tree(dev);

//排队规则嫁接处理 qdisc_graft(dev, p, clid, q, &old_q); if (parent == NULL) //当前为根排队规则，未有父类 dev_graft_qdisc(dev, new); //设备激活的情况下，先去激活 if (dev->flags & IFF_UP) dev_deactivate(dev);

oqdisc = dev->qdisc_sleeping;

//假设当前仅使用的默认的fifo_fast排队规则，则当前这个老的排队规则 //已经存在，需要将老的排队规则进行复位，这里fifo_fast的reset回调函 //数为pfifo_fast_reset if (oqdisc && atomic_read(&oqdisc->refcnt) <= 1) qdisc_reset(oqdisc); pfifo_fast_reset //丢弃每个频道队列中的所有报文 for (prio = 0; prio < PFIFO_FAST_BANDS; prio++) __qdisc_reset_queue(qdisc, list + prio);

qdisc->qstats.backlog = 0; qdisc->q.qlen = 0;

//将新建的排队规则设置到qdisc_sleeping，qdisc的当前规则指向空规则 //noop_qdisc dev->qdisc_sleeping = qdisc; dev->qdisc = &noop_qdisc;

if (dev->flags & IFF_UP) //设备激活 dev_activate(dev); if (dev->qdisc_sleeping == &noop_qdisc) //当前已经有根排队规则，不走此流程

//没有载波则直接返回 if (!netif_carrier_ok(dev)) return;

//当前使用的排队规则设置为已经选择的根排队规则 //启动看门狗。 rcu_assign_pointer(dev->qdisc, dev->qdisc_sleeping); if (dev->qdisc != &noqueue_qdisc) dev->trans_start = jiffies; dev_watchdog_up(dev);

//发送netlink消息，告知添加成功，并且老的已经删除 qdisc_notify(skb, n, clid, old_q, q);

//将老的排队规则去除 qdisc_destroy(old_q); //属于内建规则，或者还有其它模块引用，则不进行去除。 if (qdisc->flags & TCQ_F_BUILTIN || !atomic_dec_and_test(&qdisc->refcnt)) return;

//从设备的排队规则链表中去除 list_del(&qdisc->list);

//如果老的排队规则有reset、destroy回调，则进行处理 if (ops->reset) ops->reset(qdisc); if (ops->destroy) ops->destroy(qdisc);

//资源销毁 module_put(ops->owner); dev_put(qdisc->dev); call_rcu(&qdisc->q_rcu, __qdisc_destroy);

三、创建ID为1的分类

1、用户层分析

//初始化，获取每纳秒对应多少TICKET tc_core_init(); fp = fopen(“/proc/net/psched”, “r”); fscanf(fp, “xxx”, &t2us, &us2t, &clock_res); fclose(fp);

if (clock_res == 1000000000) t2us = us2t;

clock_factor = (double)clock_res / TIME_UNITS_PER_SEC; tick_in_usec = (double)t2us / us2t * clock_factor;

do_cmd(argc-1, argv+1); if (matches(*argv, “class”) == 0) do_class(argc-1, argv+1); //创建新的类 tc_class_modify(RTM_NEWTCLASS, NLM_F_EXCL|NLM_F_CREATE, argc-1, argv+1); req.n.nlmsg_len = NLMSG_LENGTH(sizeof(struct tcmsg)); req.n.nlmsg_flags = NLM_F_REQUEST|flags; req.n.nlmsg_type = cmd; //RTM_NEWTCLASS req.t.tcm_family = AF_UNSPEC;

while (argc > 0) if (strcmp(*argv, “dev”) == 0) NEXT_ARG(); strncpy(d, *argv, sizeof(d)-1); //eth0 else if (strcmp(*argv, “parent”) == 0) NEXT_ARG(); get_tc_classid(&handle, *argv) req.t.tcm_parent = handle; //0x00010000 else if (strcmp(*argv, “classid”) == 0) NEXT_ARG(); get_tc_classid(&handle, *argv) req.t.tcm_handle = handle; //0x00010001 else //如果有/usr/lib/tc/htb.so动态库中则从中获取htb_qdisc_util符 //号结构，否则检测当前tc程序是否有htb_qdisc_util符号结构则 //从中获取，否则返回q 为空。 q = get_qdisc_kind(k);

//添加KIND属性项，当前值为“htb” addattr_l(&req.n, sizeof(req), TCA_KIND, k, strlen(k)+1);

//使用当前扩展排队规则的parse_copt回调去解析后续命令字符，当前 //htb的回调为htb_parse_class_opt q->parse_copt(q, argc, argv, &req.n) htb_parse_class_opt mtu = 1600;

while (argc > 0) if (strcmp(*argv, “rate”) == 0) NEXT_ARG(); get_rate64(&rate64, argv) //6 1000000 / 8 else if (matches(*argv, “burst”) == 0) NEXT_ARG(); //buffer = 15 * 1024 //cell_log = -1 get_size_and_cell(&buffer, &cell_log, *argv) if (!ceil64) ceil64 = rate64;

//超出32位最大值，则转换为全1？ opt.rate.rate = (rate64 >= (1ULL << 32)) ? ~0U : rate64; opt.ceil.rate = (ceil64 >= (1ULL << 32)) ? ~0U : ceil64;

//如果cbuffer为设置，则取值为当前mtu值加上最大速率下 //每ticket单位的比特数 if (!cbuffer) cbuffer = ceil64 / get_hz() + mtu;

opt.ceil.overhead = overhead; //0 opt.rate.overhead = overhead; //0

opt.ceil.mpu = mpu; //0 opt.rate.mpu = mpu; //0

//计算最小速率表 //cell_log = -1 //mtu = 1600 //linklayer = LINKLAYER_ETHERNET tc_calc_rtable(&opt.rate, rtab, cell_log, mtu, linklayer) //根据最大传输单元计算需要多少槽我理解是不可能每个 //字节都有准确速率，所以划定字节范围，从多少字节到 //多少字节的速率相同。 if (cell_log < 0) cell_log = 0; while ((mtu >> cell_log) > 255) cell_log++;

for (i=0; i<256; i++) //校正当前槽位的字节大小。这个算法比较简单，当前 //链路类型为以太网，则包根据原值处理，不会影响包 //大小。Mpu为最小包大小，如果槽位字节小于mpu， //则校正为mpu的值。 sz = tc_adjust_size((i + 1) << cell_log, mpu, linklayer);

//根据当前槽位字节大小，及用户配置的速率，计算当 //前槽位所需ticket时间 rtab[i] = tc_calc_xmittime(bps, sz);

r->cell_align=-1; r->cell_log=cell_log; r->linklayer = (linklayer & TC_LINKLAYER_MASK);

//计算单包正常速率下的传送峰值，这里通过包大小转换成所 //需要的ticket时间 opt.buffer = tc_calc_xmittime(rate64, buffer);

//计算最大速率表，仅在发包速率大于最小速率后，租借模式下 //有效。 tc_calc_rtable(&opt.ceil, ctab, ccell_log, mtu, linklayer)

//计算单包在租借模速率作用下，传送的峰值。 opt.cbuffer = tc_calc_xmittime(ceil64, cbuffer);

//添加扩展属性OPTIONS，标记后面都是htb的选项 addattr_l(n, 1024, TCA_OPTIONS, NULL, 0);

//超出32位，则添加扩展属性HTB_RATE64 //超出32位，则添加扩展属性HTB_CEIL64 if (rate64 >= (1ULL << 32)) addattr_l(n, 1124, TCA_HTB_RATE64, &rate64, sizeof(rate64)); if (ceil64 >= (1ULL << 32)) addattr_l(n, 1224, TCA_HTB_CEIL64, &ceil64, sizeof(ceil64));

//添加扩展属性HTB_PARMS addattr_l(n, 2024, TCA_HTB_PARMS, &opt, sizeof(opt));

//添加扩展属性HTB_RTAB addattr_l(n, 3024, TCA_HTB_RTAB, rtab, 1024);

//添加扩展属性HTB_CTAB addattr_l(n, 4024, TCA_HTB_CTAB, ctab, 1024);

//根据接口名获取接口索引 if (d[0]) idx = ll_name_to_index(d) req.t.tcm_ifindex = idx;

//给内核发送该netlink消息 rtnl_talk(&rth, &req.n, 0, 0, NULL)

rtnl_close(&rth);

2、内核层分析

用户侧发出RTM_NEWTCLASS套接口消息后，在内核侧对应的处理回调函数为tc_ctl_tclass，该函数是在pktsched_init中初始化的。

tc_ctl_tclass pid = tcm->tcm_parent //父类ID 0x00010000 clid = tcm->tcm_handle; //创建类ID 0x00010001 qid = TC_H_MAJ(clid); //队列ID 0x00010000

//eth0设备对象 dev = __dev_get_by_index(tcm->tcm_ifindex))

if (pid != TC_H_ROOT) pid = TC_H_MAKE(qid, pid); //0x00010000

//从当前设备的qdisc_list链表中找到已经创建的排队规则，当前q为之前创建的HTB q = qdisc_lookup(dev, qid)

//HTB的回调组为 cops = htb_class_ops cops = q->ops->cl_ops;

clid = TC_H_MAKE(qid, clid); //0x00010001

//get的回调函数为htb_get cl = cops->get(q, clid); htb_get htb_class *cl = htb_find(classid, sch); //使用类ID做HASH KEY在当前队列的HASH链表中查找已经创建的类 hlist_for_each_entry(cl, p, q->hash + htb_hash(handle), hlist) if (cl->classid == handle) return cl; return NULL;

//如果找到则增加引用计数 if (cl) cl->refcnt++; return (unsigned long)cl;

//当前环境还没有该类存在，进行新类的属性设置 new_cl = cl; //当前回调为 htb_change_class cops->change(q, clid, pid, tca, &new_cl);/ htb_change_class //opt指向扩展属性基值索引，后续rtattr_parse_nested进行属性查找都从该 //基值索引之外进行查找。 rtattr *opt = tca[TCA_OPTIONS - 1];

//查看枚举定义，TCA_HTB_RTAB值是最后一个，所以rtattr_parse_nested //函数会把用户设置的所有扩展参数存储到临时变量tb中。 //enum //{ // TCA_HTB_UNSPEC, // TCA_HTB_PARMS, // TCA_HTB_INIT, // TCA_HTB_CTAB, // TCA_HTB_RTAB, // __TCA_HTB_MAX, //}; rtattr_parse_nested(tb, TCA_HTB_RTAB, opt)

//parentid = 0x00010000 //以类ID为HASH KEY向当前队规则的hash链表中查找父类，当前还未存在。 parent = htb_find(parentid, sch); htb_sched *q = qdisc_priv(sch); hlist_for_each_entry(cl, p, q->hash + htb_hash(handle), hlist) if (cl->classid == handle) return cl; return NULL;

//取用户配置工具设置的HTB参数属性 hopt = RTA_DATA(tb[TCA_HTB_PARMS - 1]);

//将最小速率表加入到全局qdisc_rtab_list链表中 rtab = qdisc_get_rtab(&hopt->rate, tb[TCA_HTB_RTAB - 1]);

//将最大速率表加入到全局qdisc_rtab_list链表中 ctab = qdisc_get_rtab(&hopt->ceil, tb[TCA_HTB_CTAB - 1]);

//当前为新类进行创建 if (!cl) cl = kzalloc(sizeof(*cl), GFP_KERNEL) cl->refcnt = 1; INIT_LIST_HEAD(&cl->sibling); INIT_HLIST_NODE(&cl->hlist); INIT_LIST_HEAD(&cl->children); INIT_LIST_HEAD(&cl->un.leaf.drop_list); RB_CLEAR_NODE(&cl->pq_node);

for (prio = 0; prio < TC_HTB_NUMPRIO; prio++) RB_CLEAR_NODE(&cl->node[prio]);

//创建默认的pfifo排队规则，同时将该排队规则的父亲设置为当前类 //sch->parent = parentid; 0x00010001 new_q = qdisc_create_dflt(sch->dev, &pfifo_qdisc_ops, classid);

//当前新建的类的默认排队规则设置为pfifo cl->un.leaf.q = new_q;

cl->classid = classid; //0x00010001 cl->parent = parent; //NULL

cl->tokens = hopt->buffer; //正常速率下单包峰值 cl->ctokens = hopt->cbuffer; //借用速率下单包峰值 cl->mbuffer = PSCHED_JIFFIE2US(HZ * 60); PSCHED_GET_TIME(cl->t_c); cl->cmode = HTB_CAN_SEND; //初始时可以发送报文

//当新建的类加入到根排队规则的hash表中 hlist_add_head(&cl->hlist, q->hash + htb_hash(classid));

//将新建的类加入到根排队规则的root链表中 list_add_tail(&cl->sibling, &q->root);

if (!cl->level) //在htb_init时，rate2quantum值默认为1 //设置quantum值，该值用于在进行带宽租借时的单位量 cl->un.leaf.quantum = rtab->rate.rate / q->rate2quantum; if (!hopt->quantum && cl->un.leaf.quantum < 1000) cl->un.leaf.quantum = 1000; if (!hopt->quantum && cl->un.leaf.quantum > 200000) cl->un.leaf.quantum = 200000;

cl->un.leaf.prio = hopt->prio; //0

cl->quantum = cl->un.leaf.quantum; cl->prio = cl->un.leaf.prio;

cl->buffer = hopt->buffer; //正常速率下单包峰值 cl->cbuffer = hopt->cbuffer; //借用速率下单包峰值

//设置当前类的最小、最大速率表 cl->rate = rtab; cl->ceil = ctab;

//发送netlink消息，告知添加成功 tclass_notify(skb, n, q, new_cl, RTM_NEWTCLASS);

四、创建ID为20的分类

1、用户层分析

//初始化，获取每纳秒对应多少TICKET tc_core_init(); fp = fopen(“/proc/net/psched”, “r”); fscanf(fp, “xxx”, &t2us, &us2t, &clock_res); fclose(fp);

if (clock_res == 1000000000) t2us = us2t;

clock_factor = (double)clock_res / TIME_UNITS_PER_SEC; tick_in_usec = (double)t2us / us2t * clock_factor;

while (argc > 0) if (strcmp(*argv, “dev”) == 0) NEXT_ARG(); strncpy(d, *argv, sizeof(d)-1); //eth0 else if (strcmp(*argv, “parent”) == 0) NEXT_ARG(); get_tc_classid(&handle, *argv) req.t.tcm_parent = handle; //0x00010001 else if (strcmp(*argv, “classid”) == 0) NEXT_ARG(); get_tc_classid(&handle, *argv) req.t.tcm_handle = handle; //0x00010014 (0x14 = 20) else //如果有/usr/lib/tc/htb.so动态库中则从中获取htb_qdisc_util符 //号结构，否则检测当前tc程序是否有htb_qdisc_util符号结构则 //从中获取，否则返回q 为空。 q = get_qdisc_kind(k);

//添加KIND属性项，当前值为“htb” addattr_l(&req.n, sizeof(req), TCA_KIND, k, strlen(k)+1);

//使用当前扩展排队规则的parse_copt回调去解析后续命令字符，当前 //htb的回调为htb_parse_class_opt q->parse_copt(q, argc, argv, &req.n) htb_parse_class_opt mtu = 1600;

while (argc > 0) if (strcmp(*argv, “rate”) == 0) NEXT_ARG(); get_rate64(&rate64, argv) //3 1000000 / 8 else if (matches(*argv, “burst”) == 0) NEXT_ARG(); //buffer = 15 * 1024 //cell_log = -1 get_size_and_cell(&buffer, &cell_log, *argv) else if (strcmp(*argv, “ceil”) == 0) NEXT_ARG(); get_rate64(&ceil64, argv); //6 1000000 / 8