サーバー生ログのアクセス解析の方法

レンタルサーバーによって多少の違いはありますが、アクセスログ(サーバーログ、生ログ)を保存できるところが多いです。不正なアクセスや検索エンジンによる過度のクローリングを調べるには、このサーバー側のアクセスログを調べてみることにより詳細な情報がわかります。

一般的には、サーバーの管理画面で「アクセスログを保存する」に設定し、あわせて保存期間なども指定することでデータが蓄積されていきます。レンタルサーバーに「log」などのフォルダが作成されている場合、そこにこのログが保存されていることが多いです。

このフォルダのなかには、たいてい「.log」というファイル名やそれらが圧縮された形で保存されていることが多いですが、中身はただのテキストファイルですので、メモ帳などで開いてみることができます。

生ログ

アクセスログに書かれている内容とその意味

一見すると無数の情報が書かれているように見えますが、アクセスがある度、以下のような単純な情報が繰り返し書き加えられていきます。


111.11.11.11 - - [15/Jan/2001:00:05:12 +0900]
"GET https://www.homepage-tukurikata.com/hp/folder.html HTTP/1.1" 200 -
"https://www.homepage-tukurikata.com/"
"Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1)"


この場合、IPアドレス111.11.11.11の訪問者が、日本時間(+0900)の2001年1月15日の0時5分12秒に、https://www.homepage-tukurikata.com/hp/folder.html のファイルの取得をサーバーにリクエストして、200OKで正常に送信したという意味になります。

また、リクエストした元のページがhttps://www.homepage-tukurikata.com/ で、そのうしろにブラウザ情報なども記載されています。

ちなみに、+0900 は、世界標準時間から9時間進めたものが日本の標準時なのでこのような書き方になってます。また、ファイルが見つからなかった場合などは、200ではなく、404などが記載されることになります。

この同じ人(IPアドレスが同じ人)が、そのまた次のページに行った場合にも、同じようにアクセスログが追加されていきますので、次のページのリクエストがあった時間の差から、そのページでの滞在時間を調べることができます。

また、同じIPで最後にアクセスしたページから、その人がどのページで離脱したのかも判断することができます。

ただ、デザインなどで使用している背景画像や素材などのファイル(.pngや.jpg、.gifなど)へのアクセスも、その都度ログに記載されることになりますし、グーグルやヤフーなどのクローラーロボットによるアクセスも記載されますので、ログ自体は膨大なファイルになりがちです。

訪問者の経路を調べる場合などは、これらの膨大なデータのなかから、画像やクローラーなどのアクセスを取り除いて調べる必要があります。

例えば、1ページ内で画像やCSSなどのファイルを10個使用していた場合、その1ページを閲覧する際にも各ファイルへのアクセスが10個発生してしまうため、実際のアクセスよりも10倍のヒット数が計測されてしまいます。

なので、アクセスログで訪問者のアクセス数を計測する場合、一般的には「.html」などのファイルのみをカウントしてページビューとするケースが多いです。

このようなデータを解析するには何等かのツールが必要になります。

アクセスログの解析ツール一覧

アクセスログのデータ解析を自動的に行い、視覚的に見やすく表示してくれるアクセス解析ソフトがレンタルサーバーに付属していることが多いです。付属していない場合でも、公式サイトからダウンロードしてきて使用できますが、インストールはかなり難しいです。

レンタルサーバー付属のアクセスログ解析ツール
→ Webalizer(ウェブアライザー)、AWStats(エーダブリュー・スタッツ)など


Webalizerの例>

Webalizerの解析画面

このWebalizerについてはさくらインターネット系のサーバーで設置されているかと思います。かなり古いソフトになりますので、AWStatsの方が見やすいかもしれません。


AWStatsの例>

AWStats

エックスサーバー系ではこのツールが設置されているかと思います。


Analogの例>

Analog

Analogもかなり古いツールですが、コアサーバー系で設置されています。もう開発はしていないようです。


上記3つのなかでは「AWStats」が一番使いやすいと思います。次に「Webalizer」、最後に「Analog」といった順かと思います。

そのほか、サーバー会社が独自で開発した解析ツールを利用できるケースもあります。

また、これらのツールをレンタルサーバーで利用できない場合でも、ログをパソコンにダウンロードして解析できるツールもあります。

アクセスログをパソコンにダウンロードして解析
→ Apachelogviewerなど

Apachelogviewerの例>

Apachelogviewerの解析画面

いずれのツールを使う場合でも、サーバーに保存されているアクセスログのデータ自体は同じですので、ほぼ同じような結果が表示されるかと思います。

けれども、これら「サーバーのアクセスログ解析」とページ内にタグを埋め込んで計測する一般的な「JavaScriptのアクセス解析」では同じような結果にはなりません。

サーバーログとJavaScriptのアクセス解析の違い

ブラウザには「キャッシュ機能」があるため、一度訪問したページについてはパソコン内にデータが保存され、一定期間の間、サーバー側にファイルの取得をリクエストされることがありません。これにより、再訪問の際にページを早く表示できるメリットがあります。

ブラウザの戻るボタンを押した場合でも同様ですが、このようなリピート部分のアクセスはサーバー側へファイルの取得がリクエストされないため、サーバー側のアクセスログにも記録されず、この再訪問の分のアクセス数が除外されてしまいます。

そのため、グーグルアナリティクスなどのJavaScriptタイプのアクセス解析の方がアクセス数は多くカウントされる傾向にありますが、そちらの方がより正確といえます。

サーバーログ → キャッシュによる閲覧はカウントされない → アクセス数が少なくカウントされる

一般的な傾向でいいますと、リピーターの多いサイトについてはパソコン内のキャッシュで閲覧されることが多くなりますので、サーバーログ解析でのアクセス数が少なくカウントされてしまう傾向があります。当サイトの例でいいますと、サーバーログのページビュー数は15%程度は少なくなってしまうのですが、サイトにより違いがあるかと思います。

一方で、JavaScriptなどのアクセス解析については、ユーザーがブラウザでJavaScriptの使用をオフに設定しているとカウントされませんし、最下部に設定している場合などは読み込まれる前にページを離脱するとカウントされないケースもあります。

また、不審なクローラーなどのアクセスについては、一般的なJavaScriptなどのアクセス解析については把握できません。ロボットによる不審なアクセスが膨大にあったとしても、JavaScriptによるアクセス解析では気づかないままになってしまう可能性があります。

なので、それぞれにメリット・デメリットがあるといえますが、通常はアナリティクスなどのタグをページ内に埋め込むJavaScriptタイプのアクセス解析を利用し、定期的にサーバー側のアクセスログもチェックしておくとよいでしょう。

IPアドレスによる個人情報の特定について

上記のアクセスログのIPアドレスについては回線プロバイダが契約者に割り当てているものですので、そのIPアドレスを元に回線会社が契約者情報を開示すれば、最終的にはどこの誰かは特定できます。

例えば、掲示板サイトなどに名誉棄損に該当する書き込みがあった場合、まずは掲示板の管理者に対してアクセスログを調べてもらい、書き込んだ投稿者のIPアドレスを開示してもらいます。

そのIPアドレスを元に、今度は回線のプロバイダに発信者情報の開示請求をして個人を特定することができます。もし、スマホからの書き込みで回線がソフトバンクだった場合、ソフトバンクに個人情報の開示請求をしたのち、最終的にはその人に損害賠償請求などの形になるものと思います。

けれども、プロバイダ側は個人情報の保護を盾に、この発信者情報の開示請求には簡単に応じませんので、公的機関の法的な要請がある場合でもない限りは困難なケースが多い傾向にあるようです。

また、そもそも掲示板のサイトの管理者にもIPアドレスの開示をしてもらわなくてはいけないため、一般的には弁護士などに依頼して法的に介入してもらう必要があります。

逆にいえば、たとえIPアドレスが分かっても個人を特定するのはほぼ不可能ですので、よほど悪質なケースでもない限り、生ログがあってもそれほど意味はありません。

けれども、そのIPアドレスやホスト名を元にネット上で検索してみますと、同じように迷惑行為を受けているサイトが情報を公開しているケースがありますので、どういった種類のアクセスなのかを確認することができます。

他サイトでも迷惑行為を繰り返しているユーザーエージェントの場合、htaccessでアクセスを拒否することもできますので、何かあったときのために一応は保存しておくとよいでしょう。

アクセス解析の設置方法へ戻る