源码分析：动态分析 Linux 内核函数调用关系

Wu Zhangjin 创作于 2015/04/23

By Falcon of TinyLab.org 2015/04/18

缘由

源码分析是程序员离不开的话题。

无论是研究开源项目，还是平时做各类移植、开发，都避免不了对源码的深入解读。

工欲善其事，必先利其器。

前两篇介绍了静态分析和应用程序部分的动态分析。这里开始讨论如何动态分析 Linux 内核部分。

准备工作

Ftrace

类似于用户态的 gprof，在跟踪内核函数之前，需要对内核做额外的一些配置，在内核相关函数插入一些代码，以便获取必要信息，比如调用时间，调用次数，父函数等。

早期的内核函数跟踪支持有 KFT，它基于 -finstrument-functions，在每个函数的出口、入口插入特定调用以便截获上面提到的各类信息。早期笔者就曾经维护过 KFT，并且成功移植到了 Loongson/MIPS 平台，相关邮件记录见：kernel function tracing support for linux-mips。不过 Linux 官方社区最终采用的却是 Ftrace，为什么呢？虽然是类似的思路，但是 Ftrace 有重大的创新：

Ftrace 只需要在函数入口插入一个外部调用：mcount，而 KFT 在入口和出口都要加
Ftrace 巧妙的拦截了函数返回的地址，从而可以在运行时先跳到一个事先准备好的统一出口，记录各类信息，然后再返回原来的地址
Ftrace 在链接完成以后，把所有插入点地址都记录到一张表中，然后默认把所有插入点都替换成为空指令（nop），因此默认情况下 Ftrace 的开销几乎是 0
Ftrace 可以在运行时根据需要通过 Sysfs 接口使能和使用，即使在没有第三方工具的情况下也可以方便使用

所以，本文只介绍 Ftrace，关于其详细用法，推荐看 Ftrace 作者 Steven 在 LWN 写的序列文章，例如：

对于本文要介绍的内容，大家只要使能 Ftrace 内核配置就可以，我们不会直接使用它的底层接口：

CONFIG_FUNCTION_TRACER
CONFIG_DYNAMIC_FTRACE
CONFIG_FUNCTION_GRAPH_TRACER

除此之外，还需要把内核函数的符号表编译进去：

CONFIG_KALLSYMS=y
CONFIG_KALLSYMS_ALL=y

如果要直接使用 Ftrace 的话，可以安装下述工具，不过本文不做进一步介绍：

$ sudo apt-get install trace-cmd kernelshark pytimerchart

Perf

Perf 最早是为取代 Oprofile 而生，从 2009 年开始只是增加了一个新的系统调用，如今强大到几乎把 Oprofile 逼退历史舞台。因为它不仅支持硬件性能计数器，还支持各种软件计数器，为 Linux 世界提供了一套完美的性能 Profiling 工具，当然，内核底层部分的函数 Profiling 离不开 Ftrace 支持。

关于 Perf 的详细用法，可以参考：Perf Wiki。

Ok，同样需要使能如下内核配置：

CONFIG_HAVE_PERF_EVENTS=y
CONFIG_PERF_EVENTS=y

客户端安装：

$ sudo apt-get install linux-tools-`uname -r`

FlameGraph

FlameGraph 是 Profiling 数据展示领域的一大创新，传统的树状结构占用的视觉面积很大，而且无法精准地找到热点，而 FlameGraph 通过火焰状的数据展示，采用层叠结构，占用页面空间小，可以快速清晰地展示出每条路径的占比，而且基于 SVG 可以自由缩放，基于 Javascript 可以动态地展示每个函数的具体样本和占比。

Ok，把 FlameGraph 准备好：

$ git clone https://github.com/brendangregg/FlameGraph.git
$ sudo cp FlameGraph/flamegraph.pl /usr/local/bin/
$ sudo cp FlameGraph/stackcollapse-perf.pl /usr/local/bin/

在使用 FlameGraph 前，我们简单介绍一个例子以便更好地理解它的独到之处。

a;b;c;d 90 e; 10

这个数据有三个信息：

函数调用关系：a 依次调用 b, c, d
调用次数占比：a 分支 90 次，e 分支 10 次
主要有两个大的分支：a 和 e

要渲染这个数据，如果用之前的 dot 描述语言，相对比较复杂一些，特别是当函数节点特别多的时候，几乎会没法查看，但是 FlameGraph 处理得很好，把上面的信息保存为 calls.log 并处理如下：

$ cd FlameGraph
$ cat calls.log | flamegraph.pl > calls-flame.svg

效果如下：

Simple Flame Graph For Calls

内核函数调用

在使用 Perf 之前，除了上述内核配置外，还需要使能一个符号获取权限，否则结果会是一大堆 16 进制数字，看不到函数符号：

$ echo 0 > /proc/sys/kernel/kptr_restrict

咱们先分开来看看用户空间，库函数和系统调用的情况，以该命令为例：

find /proc/ -maxdepth 2 -name "vm" 2>&1 >/dev/null

用户空间

$ valgrind --tool=callgrind find /proc/ -maxdepth 2 -name "vm" 2>&1 >/dev/null
$ gprof2dot -f callgrind ./callgrind.out.24273 | dot -Tsvg -o find-callgrind.svg

效果如下：

The Callgraph of the find command

库函数

$ ltrace -f -ttt -c find /proc/ -maxdepth 2 -name "vm" 2>&1 >/dev/null
% time     seconds  usecs/call     calls      function
------ ----------- ----------- --------- --------------------
75    2.939452          62     47175 strlen
71    1.597174          62     25560 free
38    1.469654          62     23589 memmove
18    0.877211          63     13773 malloc
55    0.817158          65     12542 readdir
65    0.731476          62     11796 fnmatch
56    0.722771          61     11793 __strndup
73    0.165002          83      1966 __fxstatat
41    0.039644          78       503 fchdir
23    0.022348          54       408 memcmp
23    0.022276          89       250 closedir
23    0.021551          86       250 opendir
22    0.021419          85       250 close
22    0.021144          84       251 open
21    0.019795          79       249 __fxstat
21    0.019790       19790         1 qsort
17    0.016417          65       250 dirfd
16    0.015680          98       159 strcmp
16    0.015218          60       252 __errno_location
00    0.000417         417         1 dcgettext
00    0.000404         404         1 setlocale
00    0.000266         133         2 isatty
00    0.000213         106         2 getenv
00    0.000158         158         1 __fprintf_chk
00    0.000158          79         2 fclose
00    0.000135         135         1 uname
00    0.000120         120         1 strtod
00    0.000113          56         2 __fpending
00    0.000110         110         1 bindtextdomain
00    0.000107         107         1 gettimeofday
00    0.000107         107         1 textdomain
00    0.000107         107         1 fileno
00    0.000106         106         1 strchr
00    0.000106         106         1 memcpy
00    0.000105         105         1 __cxa_atexit
00    0.000102          51         2 ferror
00    0.000092          92         1 fflush
00    0.000079          79         1 realloc
00    0.000076          76         1 strspn
00    0.000072          72         1 strtol
00    0.000052          52         1 calloc
00    0.000051          51         1 strrchr
------ ----------- ----------- --------- --------------------
00    9.558436                151045 total

系统调用

$ strace -f -ttt -c find /proc/ -maxdepth 2 -name "vm" 2>&1 >/dev/null
% time     seconds  usecs/call     calls    errors syscall
------ ----------- ----------- --------- --------- ----------------
93    0.007072           4      1966           newfstatat
44    0.003974           8       500           getdents
53    0.001865           4       508           close
27    0.001464           3       503           fchdir
09    0.001079           4       261         4 open
72    0.001013           4       250           openat
68    0.000829           3       256           fstat
68    0.000120           9        13           mmap
36    0.000064          11         6           mprotect
33    0.000058          12         5           brk
27    0.000048          16         3           munmap
20    0.000036           9         4         4 access
19    0.000034           9         4           read
11    0.000020           7         3         2 ioctl
07    0.000012          12         1           write
05    0.000009           9         1           execve
03    0.000006           6         1           uname
03    0.000006           6         1           arch_prctl
------ ----------- ----------- --------- --------- ----------------
00    0.017709                  4286        10 total

接下来，通过 perf 来看看内核部分：

内核空间

$ perf record -g find /proc -maxdepth 2 -name "vm" 2>&1 >/dev/null
$ perf report -g --stdio
$ perf script | stackcollapse-perf.pl > find.perf-outfolded
$ flamegraph.pl find.perf-outfolded > find-flame.svg

上述几条命令大体意思如下：

perf record -g 记录后面跟着命令当次执行时的函数调用关系
perf report -g --stdio 在控制台打印出获取到的函数关系数据（输出结果有点类似于树状图）
perf script | stackcollapse-perf.pl > find.perf-outfolded 转换为 FlameGraph 支持的格式
flamegraph.pl find.perf-outfolded > find-flame.svg 生成火焰图

效果如下： The FlameGraph of the Profiling result of the find command

小结

通过上述过程，咱们演示了如何分析一个应用程序执行时的内核空间部分函数调用情况，进而对前面两篇文章进行了较好的补充。

整个序列到目前为止主要都是函数调用关系的分析。对于源码的分析也好，对于性能的优化也好，都是完全不够的：

一方面，这个只能辅助理解到函数级别，无法理解到代码级别。要做进一步，得 gcov 和 kgcov 的支持。
如果要做性能分析，除了函数调用关系跟踪热点区域外，其实还缺少一些信息，比如整个调用时序，当前的处理器频率，内核调度情况等，并不能在这个序列体现。

接下来，针对该源码分析系列，我们会再补充三篇文章：

函数调用关系（流程图）绘图方法介绍，将在现有的基础上再介绍几种新方法并分析优点和缺点。
代码级别的源码分析，通过 gcov 和 kgcov 进行分析。

除此之外，我们会新开另外一个性能优化系列，来介绍各种性能优化的实例，包括应用程序与内核两个方面。

倡议

最后，笔者想对那些开源工具的开发者和贡献者们致敬！

Linux 领域聚拢了太多的天才，创意如泉涌般不断滋润 IT 世界，本文用到的三大工具的原创作者都是这类天才的代表，敬仰之情无以言表。

跟 Steven 有过一面之缘，而且在笔者 2009 年往官方社区提交 Ftrace For MIPS 时，他提供了诸多指导和帮助，感激之情化作无限专研的动力。

在这里，诚邀更多的一线工程师们汇聚到泰晓科技，一起协作，分享学习的心得，交流研发的经验，协同开发开源工具，一起致力于促进业界的交流与繁荣。目前已经有 15 个一线工程师参与进来，我们一同通过 worktile 协作，一起探讨，一起创作。如果乐意加入，可通过联系我们获得邀请。

[置顶] 泰晓 RISC-V 实验箱，配套 30+ 讲嵌入式 Linux 系统开发公开课

源码分析：动态分析 Linux 内核函数调用关系

缘由

准备工作

Ftrace

Perf

FlameGraph

更多准备

内核函数调用

用户空间

库函数

系统调用

内核空间

小结

倡议

猜你喜欢：

Read Album:

Read Related:

Read Latest:

支付宝打赏￥9.68元		微信打赏￥9.68元
	请作者喝杯咖啡吧