一个用 Python 分析 Apache 日志的故事

   2023-03-08 学习力0
核心提示:介绍不久前,公司里有人告诉我“我想知道 Apache 的访问日志是否可以用来做一些事情”。数据分析,Apache,发文章,我是初学者,写的不好请见谅。访问日志分析导入模块我正在使用以下模块。# データの処理import pandas as pdimport numpy as np# グラフ表示i

介绍

不久前,公司里有人告诉我“我想知道 Apache 的访问日志是否可以用来做一些事情”。

数据分析,Apache,发文章,我是初学者,写的不好请见谅。

访问日志分析

导入模块

我正在使用以下模块。

# データの処理
import pandas as pd
import numpy as np

# グラフ表示
import plotly.express as px
from plotly import tools
import seaborn as sns
import matplotlib.pyplot as plt

# その他
import datetime,time
import ipaddress

加载数据

我阅读了所有日志文件。

col_names = ['ip','c1','c2', 'datetime', 'timezone', 'request', 'status', 'size', 'referer', 'user_agent']
df = pd.read_csv("データのパス", sep=' ', dtype=str, names=col_names)
df[:1]

PythonでApacheログを分析してみた話

数据整形

IP版本

由于我们要分离 IPv4 和 IPv6,我们使用 ipaddress 模块将 IP 版本数据添加到新列。

def ipcheck(x):
    return ipaddress.ip_address(x.iloc[0]).version

df["ip_ver"] = np.nan
df["ip_ver"] = df.apply(ipcheck, axis=1)

设备信息

虽然是蛮力,但操作系统是由 UserAgent 确定并添加数据。

def device(x):
    ua = x.iloc[9]
    dev = "etc"
    if "iPhone" in ua:
        dev="iPhone"
    elif "Android" in ua:
        dev="Android"
    elif "Win" in ua:
        dev="Windows"
    elif "Mac" in ua:
        dev="Macintosh"
    elif "Linux" in ua:
        dev="Linux"
    return dev

df["device"] = np.nan
df["device"] = df.apply(device, axis=1)

日期和时间

由于读取时日期和时区是分开的,因此将其存储为 Python 日期时间类型。

#datetime,timezoneをpythonのdatetime型に変換して挿入
datetime_str = df.datetime + df.timezone
time_trimmed = datetime_str.map(lambda s: s.strip('[]').split('+')[0])
df['datetime'] = pd.to_datetime(time_trimmed, format='%d/%b/%Y:%H:%M:%S')

我们还为热图添加了仅限时间的数据。 (也许我不应该费心添加它......)

def hourcheck(x):
    dt = x.iloc[3]
    return dt.strftime('%H')

df["hour"] = np.nan
df["hour"] = df.apply(hourcheck, axis=1)

删除不必要的数据

列名 c1 和 c2 似乎是“客户端标识符”和“经过身份验证的用户名”,但由于此日志中没有特定信息,我将它们删除。我也删除了时区,因为我不再需要它了。

del df['c1']
del df['c2']
del df['timezone']

用饼图可视化

首先,让我们使用 plotly.express 进行可视化。

IPv4/IPv6 比率

让我们通过关注具有大量数字的 status:200 来可视化 IPv4/IPv6 比率。

df_ip = df.pivot_table(index="ip_ver",columns="status",aggfunc='size',fill_value=0)

ip_fig_title = 'IPv4/v6比率'
ip_fig = px.pie(data_frame=df_ip,
       values='200',
       names=df_ip.index,
       hover_name=df_ip.index,
       labels={'ip_ver':'IP version','200':'count'})
ip_fig.update_layout(xaxis={'categoryorder':'category ascending'},  title=ip_fig_title)
ip_fig.update_traces(textinfo='percent+label')
ip_fig.show()

PythonでApacheログを分析してみた話
虽然是一点点,但似乎v4有更多。

设备类型比例

同样,让我们​​关注 status: 200 并显示终端类型的百分比。

df_device = df.pivot_table(index="device",columns="status",aggfunc='size',fill_value=0)

ip_fig_title = 'IPv4/v6比率'
ip_fig = px.pie(data_frame=df_ip,
       values='200',
       names=df_ip.index,
       hover_name=df_ip.index,
       labels={'ip_ver':'IP version','200':'count'})
ip_fig.update_layout(xaxis={'categoryorder':'category ascending'},  title=ip_fig_title)
ip_fig.update_traces(textinfo='percent+label')
ip_fig.show()

PythonでApacheログを分析してみた話
Windows、iPhone 和 Android 上超过 90% 的结果。
毕竟,iPhone 用户比 Android 用户多。

IPv4/IPv6 每种终端类型的百分比

接下来我们分别看一下IPv4/IPv6的终端类型比例。

df_device_ip = df.pivot_table(index="device",columns="ip_ver",aggfunc='size',fill_value=0)

device_fig_ip_title = '端末種別比率(v4)'
device_fig_ip = px.pie(data_frame=df_device_ip,
       values=4,
       names=df_device_ip.index,
       hover_name=df_device_ip.index,
       labels={'device':'Device',4:'count'})
device_fig_ip.update_layout(xaxis={'categoryorder':'category ascending'},  title=device_fig_ip_title)
device_fig_ip.update_traces(textinfo='percent+label')
device_fig_ip.show()

device_fig_ip6_title = '端末種別比率(v6)'
device_fig_ip6 = px.pie(data_frame=df_device_ip,
       values=6,
       names=df_device_ip.index,
       hover_name=df_device_ip.index,
       labels={'device':'Device',6:'count'})
device_fig_ip6.update_layout(xaxis={'categoryorder':'category ascending'},  title=device_fig_ip6_title)
device_fig_ip6.update_traces(textinfo='percent+label')
device_fig_ip6.show()

PythonでApacheログを分析してみた話

虽然是一点点,但是我们可以看到,在 IPv4 中,PC 很多,而在 IPv6 中,移动终端却很多。
这次我没有研究有什么不同,但我有点好奇。

用热图可视化

接下来,让我们看一下使用 seaborn 的热图。

按时间段的访问次数

  • IPv4/IPV6
figure = sns.heatmap(pd.crosstab(df['ip_ver'], df['hour']), fmt="1.1f", lw=0.7, cmap='Blues')

PythonでApacheログを分析してみた話

  • 按设备类型
figure = sns.heatmap(pd.crosstab(df['device'], df['hour']), fmt="1.1f", lw=0.7, cmap='Blues')

PythonでApacheログを分析してみた話

热图也有一些特点。
・白天从PC(公司内部访问量大吗?)
・20:00~21:00,回家路上的电车上用智能手机看吗?
一边想着一边看着热图的时候,出奇地有趣。

参考页

题外话

当我在学习的同时尝试分析数据时,我能够看到一些特征,这很有趣,因为我的想象力扩大了。
作为在未来开发中利用访问日志的一种方式,我们提出了将访问日志分析到传递服务故障信息的页面的想法。 ``增加访问权限'' ⇒ ``无法使用服务的人数增加'' ⇒ ``服务失败的可能性'',我认为这会导致无法检测到警报的静默故障... !? 由于有更新,它不再是 Apache,我想单独工作。 . .


原创声明:本文系作者授权爱码网发表,未经许可,不得转载;

原文地址:https://www.likecs.com/show-308632748.html

 
反对 0举报 0 评论 0
 

免责声明:本文仅代表作者个人观点,与乐学笔记(本网)无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
    本网站有部分内容均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,若因作品内容、知识产权、版权和其他问题,请及时提供相关证明等材料并与我们留言联系,本网站将在规定时间内给予删除等相关处理.

  • Apache80端口被占用解决办法
    Apache80端口被占用解决办法
    1. win+R,输入 cmd,打开命令行窗口2. 命令行输入netstat -ano3. 找到80端口及对应进程 4. 在任务管理器中的进程处查看与上述80端口对应的PID相同的进程,并关闭。如果没有PID,选择“查看”--"选择列"--勾选“PID”。4. 关闭进程。如果进程为上述系统服务,
    03-08
  • Hadoop中mapreduce运行WordCount程序报错Error:
    这个问题是因为map的方法参数与继承mapper定义的参数类型不一致导致的,应该将Mapper的key参数类型设置成Object,就可以解决这个问题 
    03-08
  • 使用 Apache Hudi 实现 SCD-2(渐变维度)
    使用 Apache Hudi 实现 SCD-2(渐变维度)
    数据是当今分析世界的宝贵资产。 在向最终用户提供数据时,跟踪数据在一段时间内的变化非常重要。 渐变维度 (SCD) 是随时间推移存储和管理当前和历史数据的维度。 在 SCD 的类型中,我们将特别关注类型 2(SCD 2),它保留了值的完整历史。 每条记录都包含有
    03-08
  • [转]用apache反向代理解决单外网ip对应内网多个
    用apache反向代理解决单外网ip对应内网多个web主机的问题  转载一个有独立外网IP,需内网服务器对外发布的例子,是应用apache虚拟主机的。来源地址:http://www.itshantou.com/Servers/web/06/10/44219.html    几年前开始在学校的服务器上建网站,那时
    02-10
  • Apache service named reported the following
    apache启动失败报错:The Apache service named reported the following error: AH00451: no listening sockets available, shutting down . The Apache service named reported the following error: (OS 10055)由于系统缓冲区空间不足或队列已满,不能执行
    02-10
  • struts布局管理---SiteMesh一个优于Apache Tile
    1. SiteMesh的基本原理       一个请求到服务器后,如果该请求需要sitemesh装饰,服务器先解释被请求的资源,然后根据配置文件 获得用于该请求的装饰器,最后用装饰器装饰被请求资源,将结果一同返回给客户端浏览器。 2. 如何使用SiteMesh    这里以st
    02-10
  • linux 安装 apache2.2.31
     Linux下安装和配置Apache 概要:本文介绍在CentOS5.4 Linux中安装和配置Apache2.2.14,并且实现Apache和Tomcat6的整合。文章分为三部分,分别是删除系统自带的Apache、安装Apache2.2.14和配置Apache2.2.14。 文章中介绍的知识也可以在其它版本的Linux中
    02-10
  • Apache CXF使用Jetty发布WebService
    Apache CXF使用Jetty发布WebService
    一、概述Apache CXF提供了用于方便地构建和开发WebService的可靠基础架构。它允许创建高性能和可扩展的服务,可以部署在Tomcat和基于Spring的轻量级容器中,也可以部署在更高级的服务器上,例如Jboss、WebSphere或WebLogic。 CXF提供了以下功能:WebService
    02-10
  • apache下ab.exe使用方法。。 apache ab工具
    自己在cmd中写了半天的路径也没有写对。。最后网上的一个哥们告诉我说没有共同语言了。。。毛线啊 差距确实很大!大能猫死panda早晚干掉你,叫你丫整天嘲讽我!比如我的ab.exe在D盘的wamp文件夹下apache文件夹下bin文件夹下。那么在cmd中可以这么写:"D:\wamp
    02-10
  • 缓存(之一) 使用Apache Httpd实现http缓存
    缓存(之一) 使用Apache Httpd实现http缓存
    http://www.tuicool.com/articles/EFfeu2HTTP性能的问题与方案一个最终用户访问一个网页,从浏览器发出请求,到接受请求,时间大体上消耗在了以下几个部分:建立tcp/ip握手连接。浏览器向服务器传送请求数据。服务器处理数据。服务器返回数据。如果用户请求的
    02-10
点击排行