Nginx Access Log日志统计分析常用命令(附linux命令参数注释)

发表于： 2020年4月30日 2021年1月21日
分类： Linux操作命令

csv文件统计

任务详情：从csv文件中拿到第一列值大于等于0的数据

通过命令查看文本每行的数据格式

head -n 1 pdvm.csv         //查看第一行数据

以逗号作为分割符，第一个值是IP，这个是我们要统计的。

最终可以通过以下命令完成统计

cat pdvm.csv  |awk -F ',' '{print $1}' |sort |uniq -c |sort -k 1 -n -r |head -n 10

统计80多万条数据，接近1G的文件，处理时间大约1分钟左右，速度还是可以接受的。对这条命令进行详细讲解一下：

awk -F ',' '{print $1}'

是每行文本的第一列，-F参数表示列的分割符，这里文本是用逗号作为分割列的，如果不写默认是空格。$1表示第一列，这里要注意的是，不是从0开始计数的，0代表完整的一行，这与正则表达式group(0)类似。

sort从字面就可以看出来是排序的意思。之前我以为sort是按照ASCII码来排序的，后来发现不是，网友给的答案是’空字符串<空白字符<数值<a<A<b<B<…<z<Z’。排序的目的是把相同的行集中在一起，这样才能使用后续的uniq -c命令，对邻近重复的行进行统计，并删除重复的行。结果行的第一列是个数，第二列是值。目前为止top的结果如图：

到了uniq这步以完成了每个ip的次数统计，但是没有按照次数降序排序。因此再次使用sort，其中参数-k 1代表以第一列值作为排序的依据；-n表示把第一列当作数字来对待，否则会出现2排在19前面的情况；sort默认是按照升序，-r是让其降序。最后通过head -n 10只显示top 10。

在使用awk命令时，还可添加判断条件，比如要取某列大于10的列，可写成

awk '{if($1>10) {print $1}}'
最终命令：
cat pdvm.csv | awk -F ',' '{if($1>10) {print $1}}' | head -n 10   //只展示前10条，tail -n 10   展示最后10条

查看当前目录下所有文件及文件夹大小并且展示最大的10个

du -ah * |sort -nr |head

du命令参数

-a或-all 显示目录中个别文件的大小。 -b或-bytes 显示目录或文件大小时，以byte为单位。 -c或–total 除了显示个别目录或文件的大小外，同时也显示所有目录或文件的总和。 -k或–kilobytes 以KB(1024bytes)为单位输出。 -m或–megabytes 以MB为单位输出。 -s或–summarize 仅显示总计，只列出最后加总的值。 -h或–human-readable 以K，M，G为单位，提高信息的可读性。 -x或–one-file-xystem 以一开始处理时的文件系统为准，若遇上其它不同的文件系统目录则略过。 -L<符号链接>或–dereference<符号链接> 显示选项中所指定符号链接的源文件大小。 -S或–separate-dirs 显示个别目录的大小时，并不含其子目录的大小。 -X<文件>或–exclude-from=<文件> 在<文件>指定目录或文件。 –exclude=<目录或文件> 略过指定的目录或文件。 -D或–dereference-args 显示指定符号链接的源文件大小。 -H或–si 与-h参数相同，但是K，M，G是以1000为换算单位。 -l或–count-links 重复计算硬件链接的文件。

head 命令可用于查看文件的开头部分的内容，有一个常用的参数 -n 用于显示行数，默认为 10，即显示 10 行的内容。

命令格式：

head [参数] [文件]

参数：

-q 隐藏文件名
-v 显示文件名
-c<数目> 显示的字节数。
-n<行数> 显示的行数。

tail -f filename 会把 filename 文件里的最尾部的内容显示在屏幕上，并且不断刷新，只要 filename 更新就可以看到最新的文件内容。

命令格式：

tail [参数] [文件]

参数：

-f 循环读取
-q 不显示处理信息
-v 显示详细的处理信息
-c<数目> 显示的字节数
-n<行数> 显示文件的尾部 n 行内容
–pid=PID 与-f合用,表示在进程ID,PID死掉之后结束
-q, –quiet, –silent 从不输出给出文件名的首部
-s, –sleep-interval=S 与-f合用,表示在每次反复的间隔休眠S秒

sort命令用于将文本文件内容加以排序。

sort可针对文本文件的内容，以行为单位来排序。

语法

sort [-bcdfimMnr][-o<输出文件>][-t<分隔字符>][+<起始栏位>-<结束栏位>][--help][--verison][文件]

参数说明：

-b 忽略每行前面开始出的空格字符。
-c 检查文件是否已经按照顺序排序。
-d 排序时，处理英文字母、数字及空格字符外，忽略其他的字符。
-f 排序时，将小写字母视为大写字母。
-i 排序时，除了040至176之间的ASCII字符外，忽略其他的字符。
-m 将几个排序好的文件进行合并。
-M 将前面3个字母依照月份的缩写进行排序。
-n 依照数值的大小排序。
-u 意味着是唯一的(unique)，输出的结果是去完重了的。
-o<输出文件> 将排序后的结果存入指定的文件。
-r 以相反的顺序来排序。
-t<分隔字符> 指定排序时所用的栏位分隔字符。
+<起始栏位>-<结束栏位> 以指定的栏位来排序，范围由起始栏位到结束栏位的前一栏位。
–help 显示帮助。
–version 显示版本信息。

grep 命令用于查找文件里符合条件的字符串。

grep 指令用于查找内容包含指定的范本样式的文件，如果发现某文件的内容符合所指定的范本样式，预设 grep 指令会把含有范本样式的那一列显示出来。若不指定任何文件名称，或是所给予的文件名为 –，则 grep 指令会从标准输入设备读取数据。

示例1：递归查找当前目录下所有文件中包含 ‘mars’字符(字符串可以不带引号)的文件并返回该行信息

grep -r 'mars' ./

示例2：递归查找当前目录下所有php文件中包含’mars’字符的文件并返回该行信息

find -type f -name '*.php' | xargs grep 'mars'

语法

grep [-abcEFGhHilLnqrsvVwxy][-A<显示列数>][-B<显示列数>][-C<显示列数>][-d<进行动作>][-e<范本样式>][-f<范本文件>][--help][范本样式][文件或目录...]

参数：

-a 或 –text : 不要忽略二进制的数据。
-A<显示行数> 或 –after-context=<显示行数> : 除了显示符合范本样式的那一列之外，并显示该行之后的内容。
-b 或 –byte-offset : 在显示符合样式的那一行之前，标示出该行第一个字符的编号。
-B<显示行数> 或 –before-context=<显示行数> : 除了显示符合样式的那一行之外，并显示该行之前的内容。
-c 或 –count : 计算符合样式的列数。
-C<显示行数> 或 –context=<显示行数>或-<显示行数> : 除了显示符合样式的那一行之外，并显示该行之前后的内容。
-d <动作> 或 –directories=<动作> : 当指定要查找的是目录而非文件时，必须使用这项参数，否则grep指令将回报信息并停止动作。
-e<范本样式> 或 –regexp=<范本样式> : 指定字符串做为查找文件内容的样式。
-E 或 –extended-regexp : 将样式为延伸的正则表达式来使用。
-f<规则文件> 或 –file=<规则文件> : 指定规则文件，其内容含有一个或多个规则样式，让grep查找符合规则条件的文件内容，格式为每行一个规则样式。
-F 或 –fixed-regexp : 将样式视为固定字符串的列表。
-G 或 –basic-regexp : 将样式视为普通的表示法来使用。
-h 或 –no-filename : 在显示符合样式的那一行之前，不标示该行所属的文件名称。
-H 或 –with-filename : 在显示符合样式的那一行之前，表示该行所属的文件名称。
-i 或 –ignore-case : 忽略字符大小写的差别。
-l 或 –file-with-matches : 列出文件内容符合指定的样式的文件名称。
-L 或 –files-without-match : 列出文件内容不符合指定的样式的文件名称。
-n 或 –line-number : 在显示符合样式的那一行之前，标示出该行的列数编号。
-o 或 –only-matching : 只显示匹配PATTERN 部分。
-q 或 –quiet或–silent : 不显示任何信息。
-r 或 –recursive : 此参数的效果和指定”-d recurse”参数相同。
-s 或 –no-messages : 不显示错误信息。
-v 或 –invert-match : 显示不包含匹配文本的所有行。
-V 或 –version : 显示版本信息。
-w 或 –word-regexp : 只显示全字符合的列。
-x –line-regexp : 只显示全列符合的列。
-y : 此参数的效果和指定”-i”参数相同。

linux “>” “>>” “<” “<<” 输出/输入重导向分别对应的意思

< << :> &> 2&> 2<>>& >&2
文件描述符(File Descriptor)，用一个数字（通常为0-9）来表示一个文bai件。
常用的文件描述符如下：
文件描述符名称常用缩写默认值
0 标准输入 stdin 键盘
1 标准输出 stdout 屏幕
2 标准错误输出 stderr 屏幕
我们在简单地用<或>时，相当于使用 0< 或 1>（下面会详细介绍）。

cmd > file
把cmd命令的输出重定向到文件file中。如果file已经存在，则清空原有文件，使用bash的noclobber选项可以防止复盖原有文件。
cmd >> file
把cmd命令的输出重定向到文件file中，如果file已经存在，则把信息加在原有文件後面。
cmd < file
使cmd命令从file读入
cmd << text
从命令行读取输入，直到一个与text相同的行结束。除非使用引号把输入括起来，此模式将对输入内容进行shell变量替换。如果使用<<- ，则会忽略接下来输入行首的tab，结束行也可以是一堆tab再加上一个与text相同的内容，可以参考後面的例子。
cmd <<< word
把word（而不是文件word）和後面的换行作为输入提供给cmd。
cmd <> file
以读写模式把文件file重定向到输入，文件file不会被破坏。仅当应用程序利用了这一特性时，它才是有意义的。
cmd >| file
功能同>，但即便在设置了noclobber时也会复盖file文件，注意用的是|而非一些书中说的!，目前仅在csh中仍沿用>!实现这一功能。
: > filename 把文件”filename”截断为0长度.# 如果文件不存在, 那么就创建一个0长度的文件(与’touch’的效果相同).
cmd >&n把输出送到文件描述符n
cmd m>&n 把输出到文件符m的信息重定向到文件描述符n
cmd >&-关闭标准输出
cmd <&n 输入来自文件描述符n cmd m<&n m来自文件描述各个n cmd <&-关闭标准输入 cmd <&n-移动输入文件描述符n而非复制它。（需要解释） cmd >&n-移动输出文件描述符 n而非复制它。（需要解释）
注意： >&实际上复制了文件描述符，这使得cmd > file 2>&1与cmd 2>&1 >file的效果不一样。

top 命令用于实时监测系统资源使用状况，包含，进程、cpu，内存等。

1、用法

top [选项]2、命令选项

-b　　　　　　以批处理模式操作
-c　　　　　　显示完整的治命令
-d　　　　　　屏幕刷新间隔时间
-I　　　　 　　忽略失效过程
-s　　　　　　保密模式
-S　　　　　　累积模式
-i<时间> 　　 设置刷新间隔时间
-u<用户名> 指定用户名
-p<进程号> 指定进程
-n<次数>　　 循环显示的次数
top -n 1 -b | grep -E "mysqld" > cpu_mysql.txt  将正则匹配到含'mysqld'字符的进程的cpu及mem使用率情况覆盖写入cpu_mysql.txt

3、在该命令中常用快捷键

h　　　　显示快捷键帮助
k　　　　终止一个进程
i　　　　 开/关忽略闲置和僵死进程
q　　　　退出程序
r　　　　 重新安排一个进程的优先级别
S　　　 切换到累计模式
s　　　　更改刷新间隔时间，单位秒
f,F　　 从当前显示中添加或者删除项目
o,O　　 改变显示项目的顺序
l　　　　 切换显示平均负载和启动时间信息
m　　　 切换显示内存信息
t　　　　 切换显示进程和CPU状态信息
c　　　　切换显示命令名称和完整命令行
M　　　 根据内存使用大小排序
P　　　　根据CPU使用率进行排序 （默认排序）
T　　　　根据时间/累计时间进行排序
w　　　　将当前设置写入~/.toprc文件中
1　　　　展开多核cpu显示

IP相关统计

统计IP访问量

awk '{print $1}' access.log | sort -n | uniq | wc -l

查看某一时间段的IP访问量(4-5点)

grep "07/Apr/2017:0[4-5]" access.log | awk '{print $1}' | sort | uniq -c| sort -nr | wc -l

查看访问最频繁的前100个IP

awk '{print $1}' access.log | sort -n |uniq -c | sort -rn | head -n 100

查看访问100次以上的IP

awk '{print $1}' access.log | sort -n |uniq -c |awk '{if($1 >100) print $0}'|sort -rn

查询某个IP的详细访问情况,按访问频率排序

grep '104.217.108.66' access.log |awk '{print $7}'|sort |uniq -c |sort -rn |head -n 100

页面访问统计

查看访问最频的页面(TOP100)

awk '{print $7}' access.log | sort |uniq -c | sort -rn | head -n 100

查看访问最频的页面([排除php页面】(TOP100)

grep -v ".php"  access.log | awk '{print $7}' | sort |uniq -c | sort -rn | head -n 100

查看页面访问次数超过100次的页面

cat access.log | cut -d ' ' -f 7 | sort |uniq -c | awk '{if ($1 > 100) print $0}' | less

查看最近1000条记录，访问量最高的页面

tail -1000 access.log |awk '{print $7}'|sort|uniq -c|sort -nr|less

每秒请求量统计

统计每秒的请求数,top100的时间点(精确到秒)

awk '{print $4}' access.log |cut -c 14-21|sort|uniq -c|sort -nr|head -n 100

每分钟请求量统计

统计每分钟的请求数,top100的时间点(精确到分钟)

awk '{print $4}' access.log |cut -c 14-18|sort|uniq -c|sort -nr|head -n 100

每小时请求量统计

统计每小时的请求数,top100的时间点(精确到小时)

awk '{print $4}' access.log |cut -c 14-15|sort|uniq -c|sort -nr|head -n 100

性能分析

在nginx log中最后一个字段加入$request_time

列出传输时间超过 3 秒的页面，显示前20条

cat access.log|awk '($NF > 3){print $7}'|sort -n|uniq -c|sort -nr|head -20

列出php页面请求时间超过3秒的页面，并统计其出现的次数，显示前100条

cat access.log|awk '($NF > 1 && $7~/.php/){print $7}'|sort -n|uniq -c|sort -nr|head -100

蜘蛛抓取统计

统计蜘蛛抓取次数

grep 'Baiduspider' access.log |wc -l

统计蜘蛛抓取404的次数

grep 'Baiduspider' access.log |grep '404' | wc -l

TCP连接统计

查看当前TCP连接数

netstat -tan | grep "ESTABLISHED" | grep ":80" | wc -l

用tcpdump嗅探80端口的访问看看谁最高

tcpdump -i eth0 -tnn dst port 80 -c 1000 | awk -F"." '{print $1"."$2"."$3"."$4}' | sort | uniq -c | sort -nr

Nginx Access Log日志统计分析常用命令(附linux命令参数注释)

csv文件统计

查看当前目录下所有文件及文件夹大小并且展示最大的10个

du命令参数

head 命令可用于查看文件的开头部分的内容，有一个常用的参数 -n 用于显示行数，默认为 10，即显示 10 行的内容。

tail -f filename 会把 filename 文件里的最尾部的内容显示在屏幕上，并且不断刷新，只要 filename 更新就可以看到最新的文件内容。

sort命令用于将文本文件内容加以排序。

语法

grep 命令用于查找文件里符合条件的字符串。

示例1：递归查找当前目录下所有文件中包含 ‘mars’字符(字符串可以不带引号)的文件并返回该行信息

示例2：递归查找当前目录下所有php文件中包含’mars’字符的文件并返回该行信息

语法

linux “>” “>>” “<” “<<” 输出/输入重导向分别对应的意思

top 命令用于实时监测系统资源使用状况，包含，进程、cpu，内存等。

IP相关统计

页面访问统计

每秒请求量统计

每分钟请求量统计

每小时请求量统计

性能分析

蜘蛛抓取统计

TCP连接统计

marsjane

发表评论取消回复

csv文件统计

查看当前目录下所有文件及文件夹大小并且展示最大的10个

du命令参数

head 命令可用于查看文件的开头部分的内容，有一个常用的参数 -n 用于显示行数，默认为 10，即显示 10 行的内容。

tail -f filename 会把 filename 文件里的最尾部的内容显示在屏幕上，并且不断刷新，只要 filename 更新就可以看到最新的文件内容。

sort命令用于将文本文件内容加以排序。

语法

grep 命令用于查找文件里符合条件的字符串。

示例1：递归查找当前目录下所有文件中包含 ‘mars’字符(字符串可以不带引号)的文件并返回该行信息

示例2：递归查找当前目录下所有php文件中包含’mars’字符的文件并返回该行信息

语法

linux “>” “>>” “<” “<<” 输出/输入重导向分别对应的意思

top 命令用于实时监测系统资源使用状况，包含，进程、cpu，内存等。

IP相关统计

页面访问统计

每秒请求量统计

每分钟请求量统计

每小时请求量统计

性能分析

蜘蛛抓取统计

TCP连接统计

marsjane

发表评论 取消回复

发表评论取消回复