JasonLe's TechBlog

Checkpoint/Restore in user space:CRIU

March 20th, 2015 by JasonLe's Tech 1,540 views

Update 2015-3-23

CRIU 是一款目前流行的应用程序级的检查点恢复程序，这个基于OpenVZ 项目，但是OpenVZ项目最大的弊端是需要修改原有kernel。而CRIU则尽可能将程序主体放在用户空间，内核空间只保留必要的system call。

目前OpenVZ的开发，只停留在kernel 2.6.32上面，主要开发人员已经把他们的开发重点放在CRIU上面。

用户态下的CRIU程序我们不会细说，我们主要关注kernel中CRIU。包括两部分：1）需要一种mechanism去dump kernel关于该进程的某个特定信息。2）将状态信息传递给内核进行恢复。

CRIU的目标是允许整个application的运行状态可以被dump，这里就要去dump非常多的与这个application相关的信息，主要包括[1]:

virtual memory map
open files
credential
timer
PID
parent PID
share resources

dump 一个特定application的途径就是:

Parasite code[2] 这个代码可以hack进一个特定进程，对进程透明的进行监控，获取文件描述符。dump memory content。实际原理就是在正常程序执行前，先执行Parasite code，实际的例子就是getitimer()和sigaction()。
Ptrace 可以迅速freeze processes，注入parasite code。
Netlink 获取 sockets，netns信息。
获取procfs 中特定PID的内容，/proc/PID/maps /proc/PID/map_files/ /proc/PID/status /proc/PID/mountinfo ，其中/proc/PID/map_files。这个map_files包括文件，网络等

Parasite code不是专门为CRIU设计，而是kernel的加入的特性，而CRIU使用了Parasite code去调用某些只能是application自己调用的system call，比如getitimer()。

除了一些特殊的system call，另外一些call可以由任意形式的程序进行调用，比如sched_getscheduler()获取调度器，使用sche_getparam()获取进程调度参数。

Ptrace 是一个system call，使用这个ptrace，可以做到控制目标进程，包括目标状态的内部信息，常用于debug和其他的代码分析工具。在kernel 3.4之前，ptrace非常依赖signal与目标进程交互，这就意味会打断进程执行，非常类似于gdb等工具，而加入PTRACE_SEIZE并不会停止进程。

ptrace新特性的引入，使得CRIU可以用来对于某个特定application进行checkpoint。

Restore一个application：

Collect shared object
Restore namespace
创建进程树，包括SID，PGID，恢复继承
files，socket，pipes
Restore per-task properties
Restore memory
Call sigreturn

特定kernel的feature:

Parasite code[2]
如果一个程序打开了一系列的各种形式的文件，kernel在内核中会保存一个文件描述符表来记录该application打开哪些文件，在恢复时，CRIU要重新打开该这些文件，以相同的fd号。在恢复某些特定的pid 的application，发现pid被占用，如果我们想要恢复这个进程，而且继续使用这个pid值，CRIU在内核中加入一个API来控制下几个fork即将分配的pid值，主要是/proc/sys/kernel/ns_last_pid 。主要是向具体参见：http://lwn.net/Articles/525723/
kernel还添加了kcmp()的system call，用来比较两个进程是否共享一个kernel资源。这个就用在父进程打开一系列的share resource，然后fork()。子进程继承父进程的resource，这时kcmp()派上用场。
/proc/PID/map_files
prctl拓展来设置匿名的，私有的对象。eg: task/mm object
通过netlink dump socket信息。在scoket恢复中，相比于/proc file，通过这个可以获取更多的socket信息，通过这些信息，CRIU使用getsockopt(),setsockopt()恢复socket链接。
TCP repair mode
virtual net device indexes，在一个命名空间中恢复网络设备
socket peeking offset
Task memory tracking，用于增量快照与线上迁移。

总的来说CRIU与OpenVZ有几分相似，二者最大的区别就是OpenVZ需要修改内核，非常不便，而CRIU依赖kernel加入的systemcall完成，对于内核没有要求，非常轻便。

而BLCR也是根据某个特定kernel 版本开发，它由两个kernel module，用户态lib工具组成。使用BLCR恢复进程，进程必须依赖libcr库，或者编译时将libcr加入。这个显然对于老旧代码非常不便。BLCR最新版本发布的时候2013.1

而CRIU 截止目前最新版本发布在2015.3.2 ，可以看出CRIU开发非常活跃。

CRIU.pdf

参考:

[1] http://lwn.net/Articles/525675/

[2] http://lwn.net/Articles/454304/

BCLR:

http://blog.csdn.net/myxmu/article/details/8948258

http://blog.csdn.net/myxmu/article/details/8948265

Posted in Linux, Linux容器

物理内存管理:请求PFN函数层次结构分析

March 13th, 2015 by JasonLe's Tech 1,888 views

http://www.lizhaozhong.info/archives/1254

上篇讲到的伙伴系统是alloc_pages()族函数运行的基础，下面我来简单说明下alloc_pages()的结构。

alloc_pages()函数下存在五个子函数，他们最后都会调用到alloc_pages()，唯一的区别就是传入的参数不同。

1.alloc_pages()

这个宏用来分配2的order次方个连续的页框，如果申请成功返回第一个所分配页框的描述符地址，这个地址是全局唯一的！申请失败的话返回NULL。

#define alloc_pages(gfp_mask, order) \
                alloc_pages_node(numa_node_id(), gfp_mask, order)

2.alloc_page()

这个函数是alloc_pages的特殊情况，它只分配一个页框，也就是order等于0。

#define alloc_page(gfp_mask) alloc_pages(gfp_mask, 0)

3.__get_free_pages()

这个函数可以申请长为2的order次方大小的连续页框，但是它返回的是这段连续页框中第一个页所对应的线性地址（区别页框的描述符地址）。该函数内部仍然调用了alloc_pages（），并利用page_address（）将页描述符地址转换为线性地址。

unsigned long __get_free_pages(gfp_t gfp_mask, unsigned int order)
{
        struct page *page;
        VM_BUG_ON((gfp_mask & __GFP_HIGHMEM) != 0);
        page = alloc_pages(gfp_mask, order);
        if (!page)
                return 0;
        return (unsigned long) page_address(page);
}

4.__get_free_page()

该宏函数可以看作是__get_free_pages()的特殊情况，它用于申请一个单独的页框,然后返回这个单独页的线性地址。

#define __get_free_page(gfp_mask) \
        __get_free_pages((gfp_mask),0)

5.get_zeroed_page()

该函数用来获取一个填满0的页框，其中__GFP_ZERO参数用来体现这一点，类似于memset()清零的效果。

unsigned long get_zeroed_page(gfp_t gfp_mask)
{
        return __get_free_pages(gfp_mask | __GFP_ZERO, 0);
}

6.__get_dma_pages()

该宏函数获得的页框用于DMA操作。

#define (gfp_mask, order) \
                __get_free_pages((gfp_mask) | GFP_DMA,(order))

请求页框的标志通过查阅手册，我可以发现有非常多的mask。
如下代码

 13 #define ___GFP_DMA              0x01u
 14 #define ___GFP_HIGHMEM          0x02u
 15 #define ___GFP_DMA32            0x04u
 16 #define ___GFP_MOVABLE          0x08u
 17 #define ___GFP_WAIT             0x10u
 18 #define ___GFP_HIGH             0x20u
 19 #define ___GFP_IO               0x40u
 20 #define ___GFP_FS               0x80u
 21 #define ___GFP_COLD             0x100u
 22 #define ___GFP_NOWARN           0x200u
 23 #define ___GFP_REPEAT           0x400u
 24 #define ___GFP_NOFAIL           0x800u
 25 #define ___GFP_NORETRY          0x1000u
 26 #define ___GFP_MEMALLOC         0x2000u
 27 #define ___GFP_COMP             0x4000u
 28 #define ___GFP_ZERO             0x8000u
 29 #define ___GFP_NOMEMALLOC       0x10000u
 30 #define ___GFP_HARDWALL         0x20000u
 31 #define ___GFP_THISNODE         0x40000u
 32 #define ___GFP_RECLAIMABLE      0x80000u
 33 #define ___GFP_NOTRACK          0x200000u
 34 #define ___GFP_NO_KSWAPD        0x400000u
 35 #define ___GFP_OTHER_NODE       0x800000u
 36 #define ___GFP_WRITE            0x1000000u

使用最多的莫过于___GFP_DMA，___GFP_HIGHMEM，___GFP_DMA32。
当我们在写内核模块的时候，我们会用到kmalloc()函数，里面的标志位最多的应该就是GFP_KERNEL、GFP_USER和GFP_ATOMIC。这三个参数经过层层解析被系统解析为

106 #define GFP_ATOMIC      (__GFP_HIGH)
109 #define GFP_KERNEL      (__GFP_WAIT | __GFP_IO | __GFP_FS)
112 #define GFP_USER        (__GFP_WAIT | __GFP_IO | __GFP_FS | __GFP_HARDWALL)

系统中也会按照内存zone的区域分配，总的分配顺序是HIGHMEM、NORMAL、DMA ,如果API指定分配区域，系统就按照指定区域分配。

总的函数调用关系：

get_zeroed_page()      __get_free_page()   __get_dma_pages()
      |                        |                   |
      |                        |                   |
      |----------------------------------------------
 __get_free_pages()     alloc_page()
      |                        |
      |-------------------------
alloc_pages()
      |
alloc_pages_node()
      |
__alloc_pages()
      |
__alloc_pages_nodemask()

通过上面的结构表示，alloc_pages_node()是上述API的核心，而__alloc_pages_nodemask()为页框分配的心脏！

参考：

http://www.cnblogs.com/hanyan225/archive/2011/07/28/2119628.html

http://lxr.free-electrons.com/source/include/linux/gfp.h

Posted in Kernel内核分析, Linux, 内存管理

系统中可以有多个struct task_struct 结构，并且他们的pid相同，指向同一个pid实例，这就表明系统中不只存在一个全局命名空间，多个struct task_struct中的pid(我们需要注意一点是在struct task_struct中pid是存在于struct pid_link pids[PDTYPE_MAX]中，还有一个pid_t pid仅仅是数值而已。通过这种方式每个struct task_struct被组织到struct hlist_head tasks的散列表数组上。)指向同一个struct pid实例，这个就要分类来看到底是何种类型的pid，通过上面的枚举，可以看到可以存在PID、PGID、SID。

内核只关心全局的pid，因为该pid肯定是唯一的，子namespace的pid查看，只需查找相关映射即可。

上面说到的通过pid可以查找task_struct，原理就是查找查找struct pid中task散列表数组，然后通过对应特定类型的type，查找该散列表上面的特定元素。具体查看http://lxr.free-electrons.com/source/kernel/pid.c#L434

至于那个numbers的数据，存放的就是每个命名空间的实例，虽然这个数据类型是upid，但是upid内部有成员函数pid_namespace 。

pid_namespace 包括指向直接的父namespace成员。

 24 struct pid_namespace {
...
 30         struct task_struct *child_reaper;
 31         struct kmem_cache *pid_cachep;
 32         unsigned int level;
 33         struct pid_namespace *parent;
...
 48 };

通过这个upid，我们可以找到特定pid_namespace 。依照上图，level 0的命名空间就是全局命名空间，下面的level 1 2 都是子命名空间。这种层级的组织使得父namespace可以看到子namespace的PID，反之则不行。

具体实现：http://lxr.free-electrons.com/source/kernel/pid.c#L500

除了这种树形组织结构，这些upid实例还被组织到一个pid_hash的散列表数组中。这个变量是全局的。

static struct hlist_head *pid_hash;
575 void __init pidhash_init(void)
576 {
577         unsigned int i, pidhash_size;
578
579         pid_hash = alloc_large_system_hash("PID", sizeof(*pid_hash), 0, 18,
580                                            HASH_EARLY | HASH_SMALL,
581                                            &pidhash_shift, NULL,
582                                            0, 4096);
583         pidhash_size = 1U << pidhash_shift;
584
585         for (i = 0; i < pidhash_size; i++)
586                 INIT_HLIST_HEAD(&pid_hash[i]);
587 }

每个upid又会被组织到这个pid_hash，这样可以加快搜索。

最后就是通过各种参数查找pid、task_struct、namespace的实例，理解了数据结构，使用系统提供的内核API则不难。

参考：
http://blog.chinaunix.net/uid-20687780-id-1587537.html
http://blog.chinaunix.net/uid-20687780-id-1587608.html
http://blog.chinaunix.net/uid-20687780-id-1587702.html

Posted in Kernel内核分析, Linux, 进程管理

Linux namespace分析（1）

March 9th, 2015 by JasonLe's Tech 1,819 views

在linux中实现kernel virtualization 的条件就是资源的限制与隔离，而namespace完成的系统资源的隔离。

从Linux 2.6.23开始对于namespace的框架实现基本完成，之后的patch大多是修修补补，比较重要的一个patch是linux 3.8中一个非root用户可以创建user namespace，在这个user namespace中，该用户拥有所有的权限，包括在这个namespace中创建其他类型的namespace。

Linux namespace主要包含：

UTS namespace
Mount namespace
IPC namespace
PID namespace
Network namespace
User namespace

UTS namespace主要可以使得host拥有两套nodename与domainname：最大的区别就是如果使用lxc或者docker启动一个镜像，使用uname可以获得不同的主机名。

Mount namespace使得不同namespace中的相同进程都对文件结构有不同的视角，比起chroot有更好的安全性，使用namespace特性，可以使得系统的mount namespace产生主从的结构。

IPC namespace 使得每个IPC内的进程相互通信。

PID namespace最为神奇，他使得进程在不同的PID namespace中可以拥有相同的PID，也就是说如果系统拥有root namespace、namespace A、namespace B 。其中A、B是root的子命名空间，也就是说在A、B命名空间内部可以存在两个相同的PID，比如init 。当然这两个init的PID号从root命名空间来看是不同的，这里就有了映射的概念。

Network namespace 可以使得一个物理主机的网卡，模拟出两个虚拟网卡，每个虚拟网卡都可以绑定相同的端口，访问却不受影响。

User namespace 是在linux 3.8 才完成的部分，他可以使得一个进程的User ID和group ID相比于命名空间内外不同。举例：在root namespace中的一个非特权进程在namespace A中可以是init 0 ，可以是一个特权进程！

以上这些空间可以使得linux建立起一个轻量级的虚拟机系统。比如lxc、docker。

参考：

http://lwn.net/Articles/531114/

Posted in Kernel内核分析, Linux, Linux容器

IA32下高端内存页框(ZONE_HIGHMEM)永久内核映射的分析与实现

March 6th, 2015 by JasonLe's Tech 1,602 views

一、背景

在AMD64平台下，可用的线性地址空间远远大于目前安装的RAM大小，所以在这种体系中，ZONE_HIGHMEM总是空的。

而在32位平台上，Linux设计者必须找到一种方式允许内核使用所有4GB的RAM，如果IA32支持PAE的话，则使内核可以支持64GB的RAM。

IA32架构下，之所以有这些约束，主要是为了兼容前代固有的硬件架构(i386)，例如DMA直接读取，i386 内存大于900MB的情况。

ZONE_HIGHMEM属于高于896MB的内存区域，需要通过高端内存页框分配的方式映射到内核线性地址空间，从而使得内核可以对高端内存进行访问。而低于896MB直接通过（PAGE_OFFSET）偏移映射到物理内存上。详细查看http://www.lizhaozhong.info/archives/1193

二、原理

高端内存页框分配alloc_pages()函数返回的是page frame 页描述符（page description）的线性地址，因为这些页描述符地址一旦被分配，便不再改变，所以他是全局唯一的。这些页描述符在free_area_init_nodes()初始化时，已建立好。

注：free_area_init_nodes()之前的初始化与体系结构相关，当系统调用这个函数后，开始初始化每个pg_data_t的结构体，便于体系结构再无相关，http://lxr.free-electrons.com/source/mm/page_alloc.c#L5386。。

页描述符我们可以想象成系统将所有内存按照4k等分划分形成的数组下标。所有的page descriptor组成一个大的连续的数组，每个节点起始地址存放在 struct page *node_mem_map中，因此如果知道了page descriptor的地址pd，pd-node_mem_map就得到了pd是哪个page frame的描述符，也可以知道这个页描述符是否高于896MB。

已知alloc_pages()函数分配一个page descriptor的线性地址，可由它得到它所描述的物理页是整个内存的第几页：

假设是第N个物理页，那么这个物理页的物理地址是physAddr = N << PAGE_SHIFT ，一般情况PAGE_SHIFT 为12 也就是4k。在得知该物理页的物理地址是physAddr后，就可以视physAddr的大小得到它的虚拟地址，然后对这个虚拟地址进行判断：

1.physAddr < 896M 对应虚拟地址是 physAddr + PAGE_OFFSET (PAGE_OFFSET=3G)
2.physAddr >= 896M 对应虚拟地址不是静态映射的，通过内核的高端虚拟地址映射得到一个虚拟地址（也就是内核页表映射）。

在得到该页的虚拟地址之后，内核就可以正常访问这个物理页了。

所以，我们可以将physAddr高于896M的这128M看做成为一个内核页表，这个内核页表在paging_init()初始化完成。

三、实现

内核采取三种不同的机制将page frame映射到高端内存：永久内核映射、临时内核映射、非连续内存分配。

alloc_page()函数集返回的是全是struct page* 类型的数据，返回的也都是page descriptor的线性地址。然后系统要判断该page descriptor是否是highmem,也就是void *kmap(struct page *page)
http://lxr.free-electrons.com/source/arch/x86/mm/highmem_32.c#L6 。

系统调用PageHighMem(page)，判断当前page是否是highmem，如果是返回kmap_high(page)。如果不是返回page_address(page) http://lxr.free-electrons.com/source/mm/highmem.c#L412

void *kmap(struct page *page)
{
         might_sleep();
         if (!PageHighMem(page))
                 return page_address(page);
         return kmap_high(page);
}
void *page_address(const struct page *page)
{
         unsigned long flags;
         void *ret;
         struct page_address_slot *pas;

         if (!PageHighMem(page))
                 return lowmem_page_address(page);

         pas = page_slot(page);
         ret = NULL;
         spin_lock_irqsave(&pas->lock, flags);
         if (!list_empty(&pas->lh)) {
                 struct page_address_map *pam;

                 list_for_each_entry(pam, &pas->lh, list) {
                         if (pam->page == page) {
                                 ret = pam->virtual;
                                 goto done;
                         }
                 }
         }
 done:
         spin_unlock_irqrestore(&pas->lock, flags);
         return ret;
}

在page_address（）函数中，我们要再次检查该page是否属于HIGHMEM，如果不属于，则直接计算偏移量__va(PFN_PHYS(page_to_pfn(page)))。

而pas = page_slot(page);之后的代码，是在永久映射中，系统为了方便查找，建立了一个page_address_htable散列表，系统可以很快的对于已经存放在散列表中的永久映射的page descriptor的线性地址进行查找，如果找到就返回内核线性地址，否则为NULL。

如果判断该page属于HIGHMEM，进入kmap_high(page) http://lxr.free-electrons.com/source/mm/highmem.c#L279

void *kmap_high(struct page *page)
{
         unsigned long vaddr;

/*
* For highmem pages, we can't trust "virtual" until
* after we have the lock.
*/
         lock_kmap();
         vaddr = (unsigned long)page_address(page);
         if (!vaddr)
                 vaddr = map_new_virtual(page);
         pkmap_count[PKMAP_NR(vaddr)]++;
         BUG_ON(pkmap_count[PKMAP_NR(vaddr)] < 2);
         unlock_kmap();
         return (void*) vaddr;
}

虽然判断了HIGHMEM，调用这个函数，但是我们不能信任，仍需要再次检查，顺便检查是否在page_address_htable散列表中存在该page，如果不存在，则进行映射（ map_new_virtual(page)），然后将pkmap_count数组中，这个page引用+1，然会内核就可以正常使用这个高端内存的线性地址了。

map_new_virtual()函数是进行HIGHMEM映射的核心函数，其中for(;;)循环是寻找可用的内核页表项进行高端内存页框映射，这里涉及到了页表color问题，主要为了提速查找效率。

当系统找到可用的页表项时，从line261~line268就是核心

以PKMAP_BASE为基址last_pkmap_nr为偏移在永久映射区创建内核线性地址vaddr
将vaddr加入pkmap_page_table
引用赋值为1，之后有可能会++
然后将该内核线性地址vaddr加入page，并返回内核线性地址

</pre>
<pre>217 static inline unsigned long map_new_virtual(struct page *page)
218 {
...
224 start:
225         count = get_pkmap_entries_count(color);
226         /* Find an empty entry */
227         for (;;) {
228                 last_pkmap_nr = get_next_pkmap_nr(color);
229                 if (no_more_pkmaps(last_pkmap_nr, color)) {
230                         flush_all_zero_pkmaps();
231                         count = get_pkmap_entries_count(color);
232                 }
233                 if (!pkmap_count[last_pkmap_nr])
234                         break;  /* Found a usable entry */
235                 if (--count)
236                         continue;
237
238                 /*
239                  * Sleep for somebody else to unmap their entries
240                  */
241                 {
242                         DECLARE_WAITQUEUE(wait, current);
243                         wait_queue_head_t *pkmap_map_wait =
244                                 get_pkmap_wait_queue_head(color);
246                         __set_current_state(TASK_UNINTERRUPTIBLE);
247                         add_wait_queue(pkmap_map_wait, &wait);
248                         unlock_kmap();
249                         schedule();
250                         remove_wait_queue(pkmap_map_wait, &wait);
251                         lock_kmap();
253                         /* Somebody else might have mapped it while we slept */
254                         if (page_address(page))
255                                 return (unsigned long)page_address(page);
256
257                         /* Re-start */
258                         goto start;
259                 }
260         }
261         vaddr = PKMAP_ADDR(last_pkmap_nr);
262         set_pte_at(&init_mm, vaddr,
263                    &(pkmap_page_table[last_pkmap_nr]), mk_pte(page, kmap_prot));
264
265         pkmap_count[last_pkmap_nr] = 1;
266         set_page_address(page, (void *)vaddr);
268         return vaddr;

中间line241~259 内核考虑一种情况：如果这个PKMAP都已经被映射，最少的count都是>=1的，那么需要将当前的映射操作阻塞，然后加入等待队列，然后主动让出cpu被调度，直到PKMAP中存在count=0的页表项存在，唤醒，重新执行一次。

pkmap_count引用的可能值：0/1/>1。

0意味着该内核页表项未被映射高端内存，是可用的

1意味着虽然未被映射高端内存，但是需要unmapped，如果没有任何可用的页表项了，需要调用flush_all_zero_pkmaps()刷新pkmap_count，并置零。

>1意味着该页表项被使用。

参考：

http://repo.hackerzvoice.net/depot_madchat/ebooks/Mem_virtuelle/linux-mm/zonealloc.html#INITIALIZE

http://blog.csdn.net/lcw_202/article/details/5955783

https://www.kernel.org/doc/gorman/html/understand/understand006.html#sec: Mapping addresses to struct pages

Posted in Kernel内核分析, Linux, 内存管理

Checkpoint/Restore in user space:CRIU

Update 2015-3-23

dump 一个特定application的途径就是:

Restore一个application：

特定kernel的feature:

参考:

物理内存管理:请求PFN函数层次结构分析

Linux PID namespace分析（2）

Linux namespace分析（1）

IA32下高端内存页框(ZONE_HIGHMEM)永久内核映射的分析与实现

一、背景

二、原理

所以，我们可以将physAddr高于896M的这128M看做成为一个内核页表，这个内核页表在paging_init()初始化完成。

三、实现

参考：

Recent Posts

热门文章

Checkpoint/Restore in user space:CRIU

Update 2015-3-23

dump 一个特定application的途径就是:

Restore一个application：

特定kernel的feature:

参考:

物理内存管理:请求PFN函数层次结构分析

Linux PID namespace分析（2）

Linux namespace分析（1）

IA32下高端内存页框(ZONE_HIGHMEM)永久内核映射的分析与实现

一、背景

二、原理

所以，我们可以将physAddr高于896M的这128M看做成为一个内核页表，这个内核页表在paging_init()初始化完成。

三、实现

参考：

Tags

Recent Posts

热门文章