JasonLe's TechBlog

手动创建类docker环境

March 10th, 2016 by JasonLe's Tech 2,375 views

最近docker特别的火，但是细究docker的原理机制。其实就是使用了cgroups+namespace完成资源的限制与隔离。现在我们手动创建一个namespace的容器，做到资源的隔离。

之前我们已经讨论了namespace的组成，现在我们通过手动的方式创建每种不同namespace的环境。创建不同的namespace主要使用clone()+特定关键字的方式进行。我们可以把clone返回的pid，所以container也是一种特殊的进程！

Mount namespaces	CLONE_NEWNS	Linux 2.4.19
UTS namespaces	CLONE_NEWUTS	Linux 2.6.19
IPC namespaces	CLONE_NEWIPC	Linux 2.6.19
PID namespaces	CLONE_NEWPID	Linux 2.6.24
Network namespaces	CLONE_NEWNET	始于Linux 2.6.24 完成于 Linux 2.6.29
User namespaces	CLONE_NEWUSER	始于 Linux 2.6.23 完成于 Linux 3.8)

通过这个表格我们看到每个namespace完成时间不同，但是基于目前kernel版本已经为4.0.我们可以理解namespace部分基本完成。首先我们先定义一个模板：

#define _GNU_SOURCE
#include <sys/types.h>
#include <sys/wait.h>
#include <stdio.h>
#include <sched.h>
#include <signal.h>
#include <unistd.h>

#define STACK_SIZE (1024 * 1024)

static char child_stack[STACK_SIZE];
char* const child_args[] = {
  "/bin/bash",
  NULL
};

int child_main(void* arg)
{
  printf(" - World !\n");
  execv(child_args[0], child_args);
  printf("Ooops\n");
  return 1;
}

int main()
{
  printf(" - Hello ?\n");
  int child_pid = clone(child_main, child_stack+STACK_SIZE, SIGCHLD, NULL);
  waitpid(child_pid, NULL, 0);
  return 0;
}

这里我们发现clone()的第二个参数是child_stack+STACK_SIZE，这里要说明下栈是从高地址往低地址走的，所以给出最后一个地址，也就是给出了栈的首地址。

1.UTS namespace[1]

使用这个UTS namespace可以使得容器拥有自己的主机名，程序是要是使用clone+sethostname()配合，这个与fork一个进程特别相似。

// (needs root privileges (or appropriate capabilities))
//[...]
int child_main(void* arg)
{
  printf(" - World !\n");
  sethostname("In Namespace", 12);
  execv(child_args[0], child_args);
  printf("Ooops\n");
  return 1;
}

int main()
{
  printf(" - Hello ?\n");
  int child_pid = clone(child_main, child_stack+STACK_SIZE,
      CLONE_NEWUTS | SIGCHLD, NULL);
  waitpid(child_pid, NULL, 0);
  return 0;
}

与fork()函数类似，fork()函数创建一个新的child_pid时，进程中的内容与父进程完全相同，当后续执行子进程功能时，使用execv()族函数覆盖子进程各个程序段，包括代码段数据段等。这里我们注意到clone()函数中的CLONE_NEWUTS关键字，然后在子函数中调用execv(child_args[0], child_args);

注:child_args省略在运行程序添加参数

运行结果：

lzz@localhost:~/container$ gcc -Wall main.c -o ns && sudo ./ns
 - Hello ?
 - World !
root@In Namespace:~/container$ # inside the container
root@In Namespace:~/container$ exit
lzz@localhost:~/container$ # outside the container

上面的这个namespace只做到主机名的隔离，其他子系统都没有还没有隔离，我们在proc下还是可以看到全局的信息。

2.IPC namespace[2]

这里我们使用pipe进行同步，当创建child_pid时， checkpoint[0]为管道里的读取端，checkpoint[1]则为管道的写入端。当管道没有数据时，read()调用将默认的被阻塞，等待某些数据写入，从而达到同步的目的。

...
int child_main(void* arg)
{
  char c;

  // init sync primitive
  close(checkpoint[1]);
  // wait...
  read(checkpoint[0], &c, 1);

  printf(" - World !\n");
  sethostname("In Namespace", 12);
  execv(child_args[0], child_args);
  printf("Ooops\n");
  return 1;
}

int main()
{
  // init sync primitive
  pipe(checkpoint);

  printf(" - Hello ?\n");

  int child_pid = clone(child_main, child_stack+STACK_SIZE,
      CLONE_NEWUTS | CLONE_NEWIPC | SIGCHLD, NULL);

  // some damn long init job
  sleep(4);
  // signal "done"
  close(checkpoint[1]);

  waitpid(child_pid, NULL, 0);
  return 0;
}

这里在父进程下关闭close(checkpoint[1]);意味着父进程结束，子进程才能继续。

3. PID namespace[3]

PID namespace可以做到容器内部的pid与容器外的隔离，也就是说都可以有pid 1的进程，当然容器内pid 1 的进程映射到容器外，拥有其他的pid 号。

...
int child_main(void* arg)
{
  char c;

  // init sync primitive
  close(checkpoint[1]);
  // wait...
  read(checkpoint[0], &c, 1);

  printf(" - [%5d] World !\n", getpid());
  sethostname("In Namespace", 12);
  execv(child_args[0], child_args);
  printf("Ooops\n");
  return 1;
}

int main()
{
  // init sync primitive
  pipe(checkpoint);

  printf(" - [%5d] Hello ?\n", getpid());

  int child_pid = clone(child_main, child_stack+STACK_SIZE,
      CLONE_NEWUTS | CLONE_NEWIPC | CLONE_NEWPID | SIGCHLD, NULL);

  // further init here (nothing yet)

  // signal "done"
  close(checkpoint[1]);

  waitpid(child_pid, NULL, 0);
  return 0;
}

这里我们看到在clone的标志里又加入了CLONE_NEWPID，然后在child_main中加入getpid()，我们可以发现容器的pid号。运行结果：

lzz@localhost:~/container$ gcc -Wall main-3-pid.c -o ns && sudo ./ns
 - [ 7823] Hello ?
 - [    1] World !
root@In Namespace:~/blog# echo "=> My PID: $$"
=> My PID: 1
root@In Namespace:~/blog# exit

这里我们发现在容器中，我们没有挂载proc文件系统，这里有一个问题，如果我们在容器里面挂载一个proc，在容器外使用top、ps -aux会提示出错。需要重新挂载proc在根目录下，因为这里我们并没有隔离文件系统。

4.CLONE_NEWNS[4]

这个clone选项，可以保证在容器内的文件挂载操作，不影响父容器的使用,也就解决了上面proc挂载损坏父容器空间的问题。

...
// sync primitive
int checkpoint[2];
....
int child_main(void* arg)
{
  char c;

  // init sync primitive
  close(checkpoint[1]);

  // setup hostname
  printf(" - [%5d] World !\n", getpid());
  sethostname("In Namespace", 12);

  // remount "/proc" to get accurate "top" && "ps" output
  mount("proc", "/proc", "proc", 0, NULL);

  // wait...
  read(checkpoint[0], &c, 1);

  execv(child_args[0], child_args);
  printf("Ooops\n");
  return 1;
}

int main()
{
  // init sync primitive
  pipe(checkpoint);

  printf(" - [%5d] Hello ?\n", getpid());

  int child_pid = clone(child_main, child_stack+STACK_SIZE,
      CLONE_NEWUTS | CLONE_NEWIPC | CLONE_NEWPID | CLONE_NEWNS | SIGCHLD, NULL);

  // further init here (nothing yet)

  // signal "done"
  close(checkpoint[1]);

  waitpid(child_pid, NULL, 0);
  return 0;
}

这个时候我们运行这个程序：

lzz@localhost:~/container$ gcc -Wall ns.c -o ns && sudo ./ns
 - [14472] Hello ?
 - [    1] World !
root@In Namespace:~/blog# mount -t proc proc /proc
root@In Namespace:~/blog# ps aux
USER       PID %CPU %MEM    VSZ   RSS TTY      STAT START   TIME COMMAND
root         1  1.0  0.0  23620  4680 pts/4    S    00:07   0:00 /bin/bash
root        79  0.0  0.0  18492  1328 pts/4    R+   00:07   0:00 ps aux
root@In Namespace:~/blog# exit

可以发现容器内的ps读取的是容器内部的proc文件系统！

这里我们就要考虑docker中，比如我们从docker hub下pull下一个镜像，在这个镜像中必然存在一个文件系统rootfs，包括各种配置信息，基本的链接库。各种特殊的文件系统：/dev，/sysfs等。这个就需要我们进行裁剪！
这里主要存在的目录有：

bin etc lib lib64 mnt proc run sbin sys tmp usr/bin

我们需要根据自己的architecture配置这些目录。最后使用mount，将容器中的文件系统，都挂载到这些目录下。挂载完毕后使用chroot与chdir隔离目录：

    if ( chdir("./rootfs") != 0 || chroot("./") != 0 ){
        perror("chdir/chroot");
    }

5.User namespace[5]

这个namespace主要是管理用户的UID，GID，主要原理通过读写/proc//uid_map 和 /proc//gid_map 这两个文件。这两个文件的格式为：ID-inside-ns ID-outside-ns length 。
核心函数：

void set_map(char* file, int inside_id, int outside_id, int len) {
    FILE* mapfd = fopen(file, "w");
    if (NULL == mapfd) {
        perror("open file error");
        return;
    }
    fprintf(mapfd, "%d %d %d", inside_id, outside_id, len);
    fclose(mapfd);
}

void set_uid_map(pid_t pid, int inside_id, int outside_id, int len) {
    char file[256];
    sprintf(file, "/proc/%d/uid_map", pid);
    set_map(file, inside_id, outside_id, len);
}

void set_gid_map(pid_t pid, int inside_id, int outside_id, int len) {
    char file[256];
    sprintf(file, "/proc/%d/gid_map", pid);
    set_map(file, inside_id, outside_id, len);
}

6.Network namespace[6]

这个namespace主要完成的是将一块物理网卡虚拟出多快虚拟网卡，主要命令：

# Create a "demo" namespace
ip netns add demo

# create a "veth" pair
ip link add veth0 type veth peer name veth1

# and move one to the namespace
ip link set veth1 netns demo

# configure the interfaces (up + IP)
ip netns exec demo ip link set lo up
ip netns exec demo ip link set veth1 up
ip netns exec demo ip addr add xxx.xxx.xxx.xxx/30 dev veth1
ip link set veth0 up
ip addr add xxx.xxx.xxx.xxx/30 dev veth0

运用在代码中就是:

...
int child_main(void* arg)
{
  char c;

  // init sync primitive
  close(checkpoint[1]);

  // setup hostname
  printf(" - [%5d] World !\n", getpid());
  sethostname("In Namespace", 12);

  // remount "/proc" to get accurate "top" && "ps" output
  mount("proc", "/proc", "proc", 0, NULL);

  // wait for network setup in parent
  read(checkpoint[0], &c, 1);

  // setup network
  system("ip link set lo up");
  system("ip link set veth1 up");
  system("ip addr add 169.254.1.2/30 dev veth1");

  execv(child_args[0], child_args);
  printf("Ooops\n");
  return 1;
}

int main()
{
  // init sync primitive
  pipe(checkpoint);

  printf(" - [%5d] Hello ?\n", getpid());

  int child_pid = clone(child_main, child_stack+STACK_SIZE,
      CLONE_NEWUTS | CLONE_NEWIPC | CLONE_NEWPID | CLONE_NEWNS | CLONE_NEWNET | SIGCHLD, NULL);

  // further init: create a veth pair
  char* cmd;
  asprintf(&cmd, "ip link set veth1 netns %d", child_pid);
  system("ip link add veth0 type veth peer name veth1");
  system(cmd);
  system("ip link set veth0 up");
  system("ip addr add 169.254.1.1/30 dev veth0");
  free(cmd);

  // signal "done"
  close(checkpoint[1]);

  waitpid(child_pid, NULL, 0);
  return 0;
}

对于网络这一块，要想使得容器内的进程与容器外的进程通信，需要架设网桥，具体可以查看相关文档。

Final

我们这里看一下父子容器的namespace：
父：

lzz@localhost:~$ sudo ls -l /proc/4599/ns
total 0
lrwxrwxrwx 1 root root 0  4月  7 22:01 ipc -> ipc:[4026531839]
lrwxrwxrwx 1 root root 0  4月  7 22:01 mnt -> mnt:[4026531840]
lrwxrwxrwx 1 root root 0  4月  7 22:01 net -> net:[4026531956]
lrwxrwxrwx 1 root root 0  4月  7 22:01 pid -> pid:[4026531836]
lrwxrwxrwx 1 root root 0  4月  7 22:01 user -> user:[4026531837]
lrwxrwxrwx 1 root root 0  4月  7 22:01 uts -> uts:[4026531838]

子：

lzz@localhost:~$ sudo ls -l /proc/4600/ns
total 0
lrwxrwxrwx 1 root root 0  4月  7 22:01 ipc -> ipc:[4026531839]
lrwxrwxrwx 1 root root 0  4月  7 22:01 mnt -> mnt:[4026532520]
lrwxrwxrwx 1 root root 0  4月  7 22:01 net -> net:[4026531956]
lrwxrwxrwx 1 root root 0  4月  7 22:01 pid -> pid:[4026532522]
lrwxrwxrwx 1 root root 0  4月  7 22:01 user -> user:[4026531837]
lrwxrwxrwx 1 root root 0  4月  7 22:01 uts -> uts:[4026532521]

我们可以发现，其中的ipc，net，user是相同的ID，而mnt,pid,uts都是不同的。如果两个进程指向的namespace编号相同，就说明他们在同一个namespace下，否则则在不同namespace里面。

参考：

[1] http://lwn.net/Articles/531245/

[2] http://coolshell.cn/articles/17010.html

[3] http://lwn.net/Articles/532741/

[4] http://coolshell.cn/articles/17029.html

[5] http://lwn.net/Articles/539941/

[6] http://lwn.net/Articles/580893/

[7]

https://blog.jtlebi.fr/2014/01/12/introduction-to-linux-namespaces-part-4-ns-fs/
http://www.cnblogs.com/nufangrensheng/p/3579378.html

Posted in Linux, Linux容器

setjmp和longjmp的另类使用

February 3rd, 2016 by JasonLe's Tech 1,442 views

C语言的运行控制模型，是一个基于栈结构的指令执行序列，表现出来就是call/return: call调用一个函数，然后return从一个函数返回。在这种运行控制模型中，每个函数调用都会对应着一个栈帧，其中保存了这个函数的参数、返回值地址、局部变量以及控制信息等内容。当调用一个函数时，系统会创建一个对应的栈帧压入栈中，而从一个函数返回时，则系统会将该函数对应的栈帧从栈顶退出。正常的函数跳转就是这样从栈顶一个一个栈帧逐级地返回。

setjmp的返回值：直接调用该函数，则返回0；若由longjmp的调用，导致setjmp被调用，则返回val(longjmp的第二个参数)。

之前看APEU的相关章节，setjmp和longjmp只是一个跨函数跳转的库函数调用，可以作为后悔药使用，但是今天我发现这个库函数可以作为协程使用。协程我之前一直不理解，认为有了进程线程就可以了，没有必要存在协程，但是发现在不支持这些多线程多进程的操作系统平台上协程意义重大。

这个时候协程就可以派上用场了，我们可以依赖协程模拟多进程这种需求，我们需要写一个thread库供协程调用，具体的thread工作步骤就是：

存储当前线程所在上下文，设置一个存储队列专门存储thread context
为每个线程分配一个stack空间
将esp指向栈顶，eip指向要执行代码的entry，当然包括参数arg，arg具体调用方式就是（current->entry(current->arg)），这一个非常相似于c++中的委托
当需要调度线程时，将当前执行代码设置setjmp，保存线程结构体中的thread context到具体全局的数组
如果需要调度另外一个线程，使用longjmp跳入到线程结构thread context

当然了在linux下有glibc提供相关库函数实现跳转，咱们不必再次造轮子，但是在裸机上，或者一种新的体系结构中，我们必须自行实现setjmp和longjmp，这其中不可避免的会使用到asm。比如setjmp，首先要将返回地址和frame pointer压入栈，考虑到栈自高地址向低地址方向生长，故esp-8，然后再压入其他通用寄存器。而longjmp恢复某个线程·的上下文环境，必须指定存储context位置，然后将返回地址复制给eax，然后执行跳转。

struct jmp_buf
{
       unsigned j_sp;  // 堆栈指针寄存器
       unsigned j_ss;  // 堆栈段
       unsigned j_flag;  // 标志寄存器
       unsigned j_cs;  // 代码段
       unsigned eip;  // 指令指针寄存器
       unsigned ebp; // 基址指针
       unsigned edi;  // 目的指针
       unsigned j_es; // 附加段
       unsigned j_si;  // 源变址
       unsigned j_ds; // 数据段
};

具体线程切换伪代码：

void wthread_yield()
{
   ...
   if(current){
        if(setjmp(current->...)!=0)
             return;
        push(...)
   }
   current = next;
   longjmp(current->...)
}

考虑到执行setjmp和longjmp必须是一个控制main线程，必须由控制线程控制调用线程切换，其他线程可以主动让出时间片。这时我们必须定义一个全局变量保存线程上下文，然后维护这个数组，至于具体的逻辑形式可以是队列可以是环形队列队列等。编写thread库务必保证线程安全，不能破坏线程返回地址，否则容易core dump。

另外在linux下，可以使用这两个系统调用实现C下的异常处理try/catch，至于在setjmp和longjmp之前存在的变量务必使用volatile声明。

参考：

http://stackoverflow.com/questions/2560792/multitasking-using-setjmp-longjmp#comment33335405_2560792
http://www.cnblogs.com/lq0729/archive/2011/10/23/2222117.html
http://www.cnblogs.com/lienhua34/archive/2012/04/22/2464859.html

Posted in C/C++, Code杂谈, Linux, Linux下C编程

用 qemu 来调试 Kernel

January 13th, 2016 by JasonLe's Tech 2,089 views

引言

kgdb 方式

kgdb 的方式需要两台电脑,一台是宿主机,另一台是开发机,在开发机上编译打好补丁的内核代码,然后拷贝到宿主机上运行。注:目前 kgdb 支持的版本比较低了,好像在 2.6.19 左右,如果需要调试高版本的内核比较麻烦,而且需要通过串口方式调试,必须需要两台电脑,安装配置也比较麻烦,不过该方式调试比较准确,不会因为优化问题而无法查看变量。

uml 方式

uml ( user mode linux kernel ),是一种在用户态调试内核的方式,该调试方式在 2.6 就进入主线了。在源码包中,进入 arch/um 文件夹,就能看到该方式。该方式存在问题是无法调试硬件相关,如果你只需要调试调度、调试文件系统等,那么你可以使用,该方式比较简单,可自行百度。

printk 方式

这个方式也就是说在想调试的地方打印调试信息,需要反复的编译,反复增减调试信息是比较繁琐的一个地方。

qemu 调试内核

建议不要从源中拉版本安装,因为可能源中的版本太低,这个问题困扰了我很久,如果版本太低的话,导致文件系统加载的时候会出现故障,会出现以下提示: cannot load filesystem…
首先从 http://wiki.qemu.org/Download 下载最新版的 qemu 源码,我下的是: qemu-2.4.0.tar.bz2 版本,按照下列方式安装就可以了。

$tar -xvf qemu-2.4.0.tar.bz2
$cd qemu-2.4.0
$./configuration
$make install

我就默认安装的,并没有修改安装地址,如果有需要的话请自行定制。

源码配置

$tar -xvf linux-source**
$cd linux-source**
$vim Makefile

编辑 Makefile 文件,将所有 -O2 优化方式修改为 -O0 ,这样可以部分减少查看变量时的 optimized 提示(也就是说变量被编译器优化了,放到寄存器了,无法打印)。

$make menuconfig

接下来修改内核调试选项

将上述选项都选中。然后就是 make bzImage。这样就会在 arch/i386/boot/ 下生成 bzImage 文件,内核部分就结束了。

文件系统制作

这块我主要是借鉴了网上的一个帖子: http://blog.csdn.net/wesleyluo/article/details/7943087 该帖子详细讲解了如何制作根文件系统,如果你遇到跟我一样的问题,就是制作的根文件系统无法使用的话,也就是提示找不到 filesystem ,那么请你转到 buildroot 工具,制作根文件系统。

gdb 调试

接下来就是调试你的内核啦,不要太激动啊,因为你还是有可能遇到文件系统无法加载啊, qemu 调试报错啊等等问题。
制作一个脚本来快速启动 qemu 调试

#!/bin/bash
qemu-system-i386 -kernel linux_path/arch/i386/bzImage -hda rootfs.ext2 -append "root=/dev/sda rw" -s -S

关于这个 shell 可能有些疑惑, -kernel 就是使用后边的 bzImage 作为内核镜像。 -hda 我的理解就是作为硬盘引导项, -s 是 gdb 调试的快捷方式相当于 -gdb tcp::1234, 打开一个 gdbserver 在 TCP 端口 1234.-S 选项是启动之后就暂停,等待用户命令。

然后新打开一个终端,输入

$gdb linux_path/vmlinux

等待 gdb 把符号加载完成,加载提示:

$Reading symbols from ..../vmlinux ...done

这样就加载完成了,接下来输入:

$target remote localhost:1234
$b start_kernel
$c

就开始运行然后停在了 start_kernel , OK 大功告成了。

参考：

http://blog.csdn.net/wesleyluo/article/details/7943087

Posted in Kernel内核编程, Linux

gnuplot 尝鲜

January 12th, 2016 by JasonLe's Tech 1,484 views

gnuplot是一款画图软件，可以将数据以一定的方式显示在坐标系中，可以生成二维三维的数据分布。我们依赖这种数据可视化做到对于数据的分析。在各种操作系统性能分析中，该工具也占有举足轻重的位置。这篇文章默认你已经懂得了gnuplot基本操作，我们试着将数据集以可视化的方式表现出来。

在linux终端下，输入gnuplot，可以直接进入到该软件操作界面下：

➜  Desktop  gnuplot         

	G N U P L O T
	Version 5.0 patchlevel 0    last modified 2015-01-01 

	Copyright (C) 1986-1993, 1998, 2004, 2007-2015
	Thomas Williams, Colin Kelley and many others

	gnuplot home:     http://www.gnuplot.info
	faq, bugs, etc:   type "help FAQ"
	immediate help:   type "help"  (plot window: hit 'h')

Terminal type set to 'qt'
gnuplot&gt;

一般情况下，我们可以在命令行中断直接一步一步设置我们需要设置的图像，但是这里我们直接使用bash脚本方式生成图像，其中脚本模板如下：

#!/bin/bash
gnuplot<<FFF
...

FFF
exit 0

中间省略号的部分就是我们在命令行中输入的，比如set terminal png truecolor 就是设置gnuplot因该采用什么样的格式；set autoscale代表让gnuplot自己计算x轴y轴范围。如果x轴是特殊的数值，比如时间那么使用%d %n %y

set xdata time
set timefmt "%H:%M:%S"

来定义x轴数据格式

如果我们在一个二维坐标系中画多条折线图，有两种方式，我们可以在每个文件中定义一条折线的坐标值。然后使用下面这种方式，一个filename对应一条折线，title是关键字，代表折线名字，with也是关键字，代表图的类型，这里是表示由线组成的点，pointtype 4表示用空心方块中重点标示每个点。你可以修改后面的数字，这样会得到不同的线型。

plot 'filename' title 'Sequential Read' with linespoints pointtype 4,'filename2' title '...' with linespoints pointtype 4

第二种也是一种方式，但是我不太常用。第二种方式主要把每个filename中的数据都放在同一个文件中，每一列数据代表一组线，他们的纵坐标都是同第一列。每一列数据中间用空格分离，使用using 关键字。比如using 1：2，表示使用第1列作为x轴，绘制第2列数据。

plot 'test.log' using 1:2 title "line 1",using 1:3 title "line 2"

如果对图像要求比较高，还可以设置网格 set grid；设置x轴y轴范围set xrange [“13:00:00″:”17:00:00”] set yrange[“…”:”…”]设置x轴y轴标签 set xlabel “…” set ylabel “…”

以上都是折线图，下面我们来尝试画一个柱状图:

对于柱状图，其实只需要设置set style data histograms 就可以生成图形，但是我们必须对图形进行微调。gnuplot 按以下次序绘制框的边框：顶、底、左和右，值分别为 1、2、4、8。要想删除一条或多条边框线，只需提供相应值的和。在这个示例中，使用 -1 选项删除底部边框线。指定 fill 选项就会用默认颜色填充框：

set style fill solid 1.00 border -1

对于 x 坐标，这里不使用时间，而是使用组名称。使用 xtic 选项让 gnuplot 沿着 x 轴放置 tic 和数据标签（第 1 列）。在这里就是组名称。但是，有时候标签包含许多字符，或者 xtic 的时间格式在图形上的 tic 之间放不下。这时就会看到标签相互重叠。为了避免这个问题，把标签旋转 90 度（通过试验找到合适的角度），让它们垂直显示。可以使用以下命令来实现这种效果：

set xtic rotate by 90

其中这个90度可以为负。

第 2 列中的数据使用第 1 列（x 数据）作为参照：

2:xtic (1)

最后生成的柱状图是：

如果多个柱状图为一个x轴为参考点，那么可以使用

plot "disk.txt"  using 2:xtic(1) title "Oct-09 data growth(gb)", '' using 3 title "Nov-09 data growth(gb)", '' using 4 title "Dec-09 data growth(gb)"

参考：

gnuplot 入门教程1 : http://blog.csdn.net/liyuanbhu/article/details/8502383

gnuplot 入门教程2 : http://blog.csdn.net/liyuanbhu/article/details/8502418

gnuplot 入门教程3 : http://blog.csdn.net/liyuanbhu/article/details/8502450

gnuplot 入门教程4 : http://blog.csdn.net/liyuanbhu/article/details/8502461

gnuplot 让您的数据可视化 : http://www.ibm.com/developerworks/cn/linux/l-gnuplot/index.html

使用 gnuplot 在网页中显示数据 : http://www.ibm.com/developerworks/cn/aix/library/au-gnuplot/index.html

Posted in Code杂谈

内核函数copy_process()分析

January 11th, 2016 by JasonLe's Tech 1,538 views

内核通过调用函数copy_process()创建进程，copy_process()函数主要用来创建子进程的描述符以及与子进程相关数据结构。这个函数内部实现较为复杂，在短时间内，对于内部详细代码原理和实现并不能全部理解。因此，接下来的分析侧重于copy_process()的执行流程。

1. 定义返回值变量和新的进程描述符。

2. 对clone_flags所传递的标志组合进行合法性检查。当出现以下四情况时，返回出错代号：

CLONE_NEWNS和CLONE_FS同时被设置。前者标志表示子进程需要自己的命名空间，而后者标志则代表子进程共享父进程的根目录和当前工作目录，两者不可兼容。
CLONE_NEWUSER和CLONE_FS同时被设置。
CLONE_THREAD被设置，但CLONE_SIGHAND未被设置。如果子进程和父进程属于同一个线程组（CLONE_THREAD被设置），那么子进程必须共享父进程的信号（CLONE_SIGHAND被设置）。
CLONE_SIGHAND被设置，但CLONE_VM未被设置。如果子进程共享父进程的信号，那么必须同时共享父进程的内存描述符和所有的页表（CLONE_VM被设置）。

3. 调用security_task_create()和后面的security_task_alloc()执行所有附加的安全性检查。

4. 调用dup_task_struct()为子进程分配一个内核栈、thread_info结构和task_struct结构。

 p = dup_task_struct(current);
        if (!p)
               goto fork_out;

这个dup_task_struct函数首先定义创建了指向task_struct和thread_inof结构体的指针。然后让子进程描述符中的thread_info字段指向ti变量；最后让子进程thread_info结构中的task字段指向tsk变量。然后返回tsk，这个时候子进程和父进程的描述符中的内容是完全相同的。在后面的代码中，我们将会看到子进程逐渐与父进程区分开。

static struct task_struct *dup_task_struct(struct task_struct *orig)
{
        struct task_struct *tsk;
        struct thread_info *ti;
        int node = tsk_fork_get_node(orig);
        int err;
 
        tsk = alloc_task_struct_node(node);
        if (!tsk)
                return NULL;

        ti = alloc_thread_info_node(tsk, node);
        if (!ti)
                goto free_tsk;

        err = arch_dup_task_struct(tsk, orig);
        if (err)
                goto free_ti;
        tsk->stack = ti;

5. 开始设置子进程的task_struct

根据clone_flags的值继续更新子进程的某些属性。将 nr_threads++，表明新进程已经被加入到进程集合中。将total_forks++，以记录被创建进程数量。

这部分工作还包含初始化双链表、互斥锁和描述进程属性的字段等，其中包括大量的与cgroup相关的属性，。它在copy_process函数中占据了相当长的一段的代码，不过考虑到task_struct结构本身的复杂性，也就不奇怪了。

如果上述过程中某一步出现了错误，则通过goto语句跳到相应的错误代码处；如果成功执行完毕，则返回子进程的描述符p。do_fork()执行完毕后，虽然子进程处于可运行状态，但是它并没有立刻运行。至于子进程合适执行这完全取决于调度程序schedule()。

http://lxr.free-electrons.com/source/kernel/fork.c#L1242

Posted in Kernel内核分析, Linux, 进程管理

手动创建类docker环境

1.UTS namespace[1]

2.IPC namespace[2]

3. PID namespace[3]

4.CLONE_NEWNS[4]

5.User namespace[5]

6.Network namespace[6]

Final

参考：

setjmp和longjmp的另类使用

参考：

用 qemu 来调试 Kernel

引言

qemu 调试内核

源码配置

文件系统制作

gdb 调试

参考：

gnuplot 尝鲜

参考：

内核函数copy_process()分析

Recent Posts

热门文章

手动创建类docker环境

1.UTS namespace[1]

2.IPC namespace[2]

3. PID namespace[3]

4.CLONE_NEWNS[4]

5.User namespace[5]

6.Network namespace[6]

Final

参考：

setjmp和longjmp的另类使用

参考：

用 qemu 来调试 Kernel

引言

qemu 调试内核

源码配置

文件系统制作

gdb 调试

参考：

gnuplot 尝鲜

参考：

内核函数copy_process()分析

Tags

Recent Posts

热门文章