转PHP-CGI 100%的引起案例之一

有时候，运行 Nginx、PHP-CGI(php-fpm) Web服务的 Linux 服务器，突然系统负载上升，使用 top 命令查看，很多 php-cgi 进程 CPU 使用率接近100%。后来，我通过跟踪发现，这类情况的出现，跟 PHP 的 file_get_contents() 函数有着密切的关系。

大、中型网站中，基于 HTTP 协议的 API 接口调用，是家常便饭。PHP 程序员们喜欢使用简单便捷的 file_get_contents(“http://example.com/”) 函数，来获取一个 URL 的返回内容，但是，如果 http://example.com/ 这个网站响应缓慢，file_get_contents() 就会一直卡在那儿，不会超时。

我们知道，在 php.ini 中，有一个参数 max_execution_time 可以设置 PHP 脚本的最大执行时间，但是，在 php-cgi(php-fpm) 中，该参数不会起效。真正能够控制 PHP 脚本最大执行时间的是 php-fpm.conf 配置文件中的以下参数：
view plainprint?

1. The timeout (in seconds) for serving a single request after which the worker process will be terminated
2. Should be used when ‘max_execution_time’ ini option does not stop script execution for some reason
3. ’0s’ means ‘off’
4. <value name=”request_terminate_timeout”>0s</value>

The timeout (in seconds) for serving a single request after which the worker process will be terminated Should be used when ‘max_execution_time’ ini option does not stop script execution for some reason ’0s’ means ‘off’ <value name=”request_terminate_timeout”>0s</value>　　默认值为 0 秒，也就是说，PHP 脚本会一直执行下去。这样，当所有的 php-cgi 进程都卡在 file_get_contents() 函数时，这台 Nginx+PHP 的 WebServer 已经无法再处理新的 PHP 请求了，Nginx 将给用户返回“502 Bad Gateway”。修改该参数，设置一个 PHP 脚本最大执行时间是必要的，但是，治标不治本。例如改成 <value name=”request_terminate_timeout”>30s</value>，如果发生 file_get_contents() 获取网页内容较慢的情况，这就意味着 150 个 php-cgi 进程，每秒钟只能处理 5 个请求，WebServer 同样很难避免“502 Bad Gateway”。

要做到彻底解决，只能让 PHP 程序员们改掉直接使用 file_get_contents(“http://example.com/”) 的习惯，而是稍微修改一下，加个超时时间，用以下方式来实现 HTTP GET 请求。要是觉得麻烦，可以自行将以下代码封装成一个函数。
view plainprint?

<?php
$ctx = stream_context_create(array(
‘http’ => array(
‘timeout’ => 1 //设置一个超时时间，单位为秒
)
)
);
file_get_contents(“http://example.com/”, 0, $ctx);
?>

<?php $ctx = stream_context_create(array( ‘http’ => array( ‘timeout’ => 1 //设置一个超时时间，单位为秒 ) ) );
file_get_contents(“http://example.com/”, 0, $ctx);
?>
当然，导致 php-cgi 进程 CPU 100% 的原因不只有这一种，那么，怎么确定是 file_get_contents() 函数导致的呢？

首先，使用 top 命令查看 CPU 使用率较高的 php-cgi 进程。

top – 10:34:18 up 724 days, 21:01, 3 users, load average: 17.86, 11.16, 7.69
Tasks: 561 total, 15 running, 546 sleeping,   0 stopped,   0 zombie
Cpu(s): 5.9%us, 4.2%sy, 0.0%ni, 89.4%id, 0.2%wa, 0.0%hi, 0.2%si, 0.0%st
Mem:   8100996k total, 4320108k used, 3780888k free,   772572k buffers
Swap: 8193108k total,    50776k used, 8142332k free,   412088k cached

PID USER      PR NI VIRT RES SHR S %CPU %MEM    TIME+ COMMAND
10747 www       18   0 360m 22m 12m R 100.6 0.3    0:02.60 php-cgi
10709 www       16   0 359m 28m 17m R 96.8 0.4    0:11.34 php-cgi
10745 www       18   0 360m 24m 14m R 94.8 0.3    0:39.51 php-cgi
10707 www       18   0 360m 25m 14m S 77.4 0.3    0:33.48 php-cgi
10782 www       20   0 360m 26m 15m R 75.5 0.3    0:10.93 php-cgi
10708 www       25   0 360m 22m 12m R 69.7 0.3    0:45.16 php-cgi
10683 www       25   0 362m 28m 15m R 54.2 0.4    0:32.65 php-cgi
10711 www       25   0 360m 25m 15m R 52.2 0.3    0:44.25 php-cgi
10688 www       25   0 359m 25m 15m R 38.7 0.3    0:10.44 php-cgi
10719 www       25   0 360m 26m 16m R 7.7 0.3    0:40.59 php-cgi

找其中一个 CPU 100% 的 php-cgi 进程的 PID，用以下命令跟踪一下：
strace -p 10747

如果屏幕显示：
select(7, [6], [6], [], {15, 0})        = 1 (out [6], left {15, 0})
poll([{fd=6, events=POLLIN}], 1, 0)     = 0 (Timeout)
select(7, [6], [6], [], {15, 0})        = 1 (out [6], left {15, 0})
poll([{fd=6, events=POLLIN}], 1, 0)     = 0 (Timeout)
select(7, [6], [6], [], {15, 0})        = 1 (out [6], left {15, 0})
poll([{fd=6, events=POLLIN}], 1, 0)     = 0 (Timeout)
select(7, [6], [6], [], {15, 0})        = 1 (out [6], left {15, 0})
poll([{fd=6, events=POLLIN}], 1, 0)     = 0 (Timeout)
select(7, [6], [6], [], {15, 0})        = 1 (out [6], left {15, 0})
poll([{fd=6, events=POLLIN}], 1, 0)     = 0 (Timeout)
select(7, [6], [6], [], {15, 0})        = 1 (out [6], left {15, 0})
poll([{fd=6, events=POLLIN}], 1, 0)     = 0 (Timeout)
select(7, [6], [6], [], {15, 0})        = 1 (out [6], left {15, 0})
poll([{fd=6, events=POLLIN}], 1, 0)     = 0 (Timeout)
select(7, [6], [6], [], {15, 0})        = 1 (out [6], left {15, 0})
poll([{fd=6, events=POLLIN}], 1, 0)     = 0 (Timeout)
select(7, [6], [6], [], {15, 0})        = 1 (out [6], left {15, 0})
poll([{fd=6, events=POLLIN}], 1, 0)     = 0 (Timeout)
select(7, [6], [6], [], {15, 0})        = 1 (out [6], left {15, 0})
poll([{fd=6, events=POLLIN}], 1, 0)     = 0 (Timeout)

那么，就可以确定是 file_get_contents() 导致的问题了。

问:同学可否说明一下为何看了strace 之后的结果就知道是 file_get_contents 导致的问题了，对这个不太明白，希望能解答一下， 3Q
答：开启<value name=”request_slowlog_timeout”>3s</value>记录慢执行日志，会在日志中打印出执行慢的代码行数。php-cgi(php-fpm) 使用了Libevent，而Libevent 在 Linux 2.6 内核以上默认会使用 epoll I/O 模型处理 FastCGI 网络请求，而非 select/poll。在慢日志记录的代码行数中，包含 file_get_contents 以及其他函数，而 file_get_contents 等作为 Client 发起 HTTP 请求的函数使用的是 select/poll 模型，也就是说，只有 file_get_contents 等满足“TCP请求默认不超时、使用select/poll 模型、进程CPU 100%”的网络操作函数，会导致 strace -p 看到的这种情况。

我之前也遇到过类似问题，当时脚本里也用的file_get_contents函数，起初没什么问题，后来因为服务器问题无法请求，才暴露出这个cpu的问题，而且还产生很多僵尸进程，当时就跟踪判断了下，发现可能是file_get_contents问题，果断换了curl，现在没有此类问题了

当时为了防止出现奇怪的问题，用curl重写了一个_file_get_contents，然后用它替换了file_get_contents

是的，之前有遇到过这个问题，所有的file_get_conetnets都被我们换成curl的方式，并加上超时时间。

以上转载自张晏博客

服务器维护

专注服务于当下互联网基础设施建设与云计算、大数据时代的各种需求!

转PHP-CGI 100%的引起案例之一