クローラーロボットの比較一覧

当サイトのアクセスログなどで確認したクローラーリストの一覧です。検索サイトやGAFAをはじめ、広告関連やSEO関連、セキュリティー関連、非営利組織など様々な種類があります。

これらのクローラーをアクセスログで確認する方法や.htaccessなどで拒否する方法についてはこちらのページをご参照ください。
クローラーアクセスの確認方法

概ね、ユーザーエージェントで正体を明かしてくるボットは特に問題ないですが、スクレイピングなどで偽装して大量にアクセスしてくる場合はサーバーに負担がかかることがあります。正体不明なアクセスについては拒否しておくとよいでしょう。

検索サイト系

各国の検索エンジンはアクセスを運んできてくれるメリットがあるため、以下のクローラーを拒否する必要は全くないかと思います。

Google
「Googlebot」
http://www.google.com/bot.html

Googlebot

"Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
(※Googleはパソコン用やスマホ用などで数種類があります。)

Bing(マイクロソフト)
「bingbot」
http://www.bing.com/bingbot.htm

bingbot

"Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"
"msnbot/2.0b (+http://search.msn.com/msnbot.htm)"

yahoo!(米国)
「Slurp」
http://help.yahoo.com/help/us/ysearch/slurp

Slurp

"Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"

Yandex(ロシア)
「Yandex」
http://yandex.com/bots

Yandex

"Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"

Mail.ru(ロシア)
「Mail.RU」
http://go.mail.ru/help/robots

Mail.ru

"Mozilla/5.0 (compatible; Linux x86_64; Mail.RU_Bot/2.0; +http://go.mail.ru/help/robots)"

baidu(中国:シェア1位)
「Baiduspider」
http://www.baidu.com/search/spider.html

baidu

"Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html"

捜狗(中国:シェア2位)
「Sogou」
http://www.sogou.com/docs/help/webmasters.htm#07

捜狗

"Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)"

Seznam(チェコ)
「SeznamBot」
http://napoveda.seznam.cz/en/seznambot-intro/

SeznamBot

"Mozilla/5.0 (compatible; SeznamBot/3.2; +http://napoveda.seznam.cz/en/seznambot-intro/)"

Qwant(フランス)
「Qwantify」
https://www.qwant.com/

Qwant

"Mozilla/5.0 (compatible; Qwantify/2.4w; +https://www.qwant.com/)/2.4w"

istella(イタリア)
「istellabot」
http://www.istella.it/

istella

"istellabot/t.1.13"

Cliqz(ドイツ)
「Cliqzbot」
http://cliqz.com/company/cliqzbot

Cliqz

"Mozilla/5.0 (compatible; Cliqzbot/3.0; +http://cliqz.com/company/cliqzbot)"

NAVER(韓国)
「Yeti」
https://help.naver.com/support/robots.html

NAVER

"Mozilla/5.0 (compatible; Yeti/1.1; +http://naver.me/spd)"

Mojeek(イギリス)
「MojeekBot」
https://www.mojeek.com/bot.html

MojeekBot

"Mozilla/5.0 (compatible; MojeekBot/0.7; +https://www.mojeek.com/bot.html)"

CocCoc(ベトナム)
「coccocbot」
http://help.coccoc.com/searchengine

CocCoc

"Mozilla/5.0 (compatible; coccocbot-web/1.0; +http://help.coccoc.com/searchengine)"

GAFA、Twitter関連

──── GAFA ────

GAFA(Google,Apple,Facebook,Amazon)についても拒否する必要はないでしょう。

Google(※同上)

Apple
「Applebot」
http://www.apple.com/go/applebot

applebot

"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Applebot/0.1; +http://www.apple.com/go/applebot)"

上記ページに「Applebot は、Apple の Web クローラーです。Siri や Spotlight 検索候補などの製品は、Applebot を利用しています。」とあるため、SiriやSpotlight検索関連でのクロールかと思います。

Facebook
「facebookexternalhit」
http://www.facebook.com/externalhit_uatext.php

facebook ログ

"facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)"

上記ページには「もしかしたら、他のユーザーがあなたのホームページからその他のユーザーにリンクを送ったからかもしれません。」とあるため、OGP画像でのアクセスかと思います。

Amazon
「AmazonAdBot」
https://adbot.amazon.com

AmazonAdBot

"Mozilla/5.0 (compatible; AmazonAdBot/1.0; +https://adbot.amazon.com)"

上記ページには「AmazonAdBotは、Amazonまたは広告主パートナーが広告を配信できるWebサイトのみをクロールします。」とあるため、広告配信のためのクロールかと思います。

──── Twitter ────

Twitterについても、公式、非公式のボットに関わらず、特に拒否する必要はないかと思います。

Twitter
「Twitterbot」
https://developer.twitter.com/ja/docs/tweets/optimize-with-cards/guides/getting-started

Twitterbot

上記ページには、「Twitterのクローラは、Googleのrobots.txt仕様に準拠して、URLをスキャンします。カードマークアップのあるページがブロックされると、カードは表示されません。」とあるため、Twitterカード関連のクロールかと思います。

Yahoo!JAPAN、LINE関連

──── ヤフー(日本) ────

以前まで日本のヤフー検索は独自の検索システムを使用していたため、Googleとヤフーでそれぞれ別々にSEO対策をする必要がありました。現在ではヤフー検索もGoogleの検索システムを使用しているため、ヤフーのクローラーはほとんど見かけないかと思います。

ただし、「検索サービスでの利用や研究、開発などの目的で、ウェブページの収集と蓄積を行っています。」とのことで、クロール自体はしているもようです。

Yahoo!JAPAN
「Y!J-BRW」など
https://www.yahoo-help.jp/app/answers/detail/p/595/a_id/42716

Yahoo!JAPAN

"Y!J-BRW/1.0 (https://www.yahoo-help.jp/app/answers/detail/p/595/a_id/42716)"

──── LINE ────

LINEについては、「Linespiderは、LINEサービス内で多様な検索結果を提供すると同時に、」とあるため、検索関連なのかもしれません。

LINE
「Linespider」
https://help2.line.me/linesearchbot/web/pc?lang=ja&contentId=50006055

Linespider

"Mozilla/5.0 (compatible;Linespider...)"

──── はてな ────

はてなアンテナによるサイトの更新チェックのクロールのようです。

はてな
「Hatena Antenna」
http://a.hatena.ne.jp/help

Hatena Antenna

"Hatena Antenna/0.5 (http://a.hatena.ne.jp/help)"

非営利組織、セキュリティー関連

──── 非営利組織 ────

研究機関などの非営利組織系も特に拒否する必要はないかと思います。

Common Crawl
「CCBot」
https://commoncrawl.org/faq/

CCBot

"CCBot/2.0 (https://commoncrawl.org/faq/)"

NICT
「ICC-Crawler」
http://ucri.nict.go.jp/en/icccrawler.html

ICC-Crawler

"ICC-Crawler/2.0 (Mozilla-compatible; ; http://ucri.nict.go.jp/en/icccrawler.html)"

Steeler
「Steeler」
http://www.tkl.iis.u-tokyo.ac.jp/~crawler/

Steeler

"Mozilla/5.0 (compatible; Steeler/3.5; http://www.tkl.iis.u-tokyo.ac.jp/~crawler/)"

COMSYS
「Researchscan」
http://researchscan.comsys.rwth-aachen.de

COMSYS

"Mozilla/5.0 zgrab/0.x (compatible; Researchscan/t13rl; +http://researchscan.comsys.rwth-aachen.de)"

Let's Encrypt
「Let's Encrypt」
https://www.letsencrypt.org

letsencrypt

"Mozilla/5.0 (compatible; Let's Encrypt validation server; +https://www.letsencrypt.org)"

無料SSLの認証の際にこちらのクローラーがやってくるようです。たまにAWS経由のアクセスなどもあるため、認証が失敗する場合はIPアドレスなどで拒否していないかを確認してみるとよいでしょう。

Wikipedia
「IABot」
https://meta.wikimedia.org/wiki/InternetArchiveBot/FAQ_for_sysadmins

IABot

"IABot/2.0 (+https://meta.wikimedia.org/wiki/InternetArchiveBot/FAQ_for_sysadmins) (Checking if link from Wikipedia is broken and needs removal)"

こちらはウィキペディア内の記事にある外部サイトへのリンク切れをチェックしているようです。

──── セキュリティー関連 ────

セキュリティー関連も拒否する必要はないかと思います。

IBM
「oBot」
http://www.xforce-security.com/crawler/

oBot

"Mozilla/5.0 (compatible; oBot/2.3.1; http://www.xforce-security.com/crawler/)"
"Mozilla/5.0 (compatible; oBot/2.3.1; +http://filterdb.iss.net/crawler/)"

Netcraft
「NetcraftSurveyAgent」
https://www.netcraft.com/

Netcraft

"Mozilla/5.0 (compatible; NetcraftSurveyAgent/1.0; +info@netcraft.com)"

広告関連

広告関連のクローラーは多いですが、自サイトが広告主の目に止まる可能性もあるため、特に拒否する必要はないかと思います。

Yahoo
「Monitoring」
https://help.yahoo.com/kb/yahoo-ad-monitoring-SLN24857.html

Monitoring

"Mozilla/5.0 (compatible; Yahoo Ad monitoring; https://help.yahoo.com/kb/yahoo-ad-monitoring-SLN24857.html) … "

The Trade Desk
「TTD-Content」
https://www.thetradedesk.com/general/ttd-content

The Trade Desk

"Mozilla/5.0 (compatible; TTD-Content; +https://www.thetradedesk.com/general/ttd-content)"

Grapeshot
「grapeshot」
http://www.grapeshot.co.uk/crawler.php

grapeshot

"Mozilla/5.0 (compatible; GrapeshotCrawler/2.0; +http://www.grapeshot.co.uk/crawler.php)"

IAS
「ias_crawler」
http://integralads.com/site-indexing-policy/

IAS

"IAS crawler (ias_crawler; http://integralads.com/site-indexing-policy/)"
"heritrix/2.0.2 +http://www.adsafemedia.com"

Comscore
「proximic」
https://www.comscore.com/Web-Crawler

Comscore

"Mozilla/5.0 (compatible; proximic; +https://www.comscore.com/Web-Crawler)"
"Mozilla/5.0 (compatible; proximic; +http://www.proximic.com/info/spider.php)"

dataxu
「DataXu」
http://dataxu.com

DataXu

"Mozilla/5.0 (compatible; DataXu/1.0; +http://dataxu.com)"

MixRank
「MixrankBot」
https://mixrank.com/

MixRank

"Mozilla/5.0 (compatible; MixrankBot; crawler@mixrank.com)"

Quantcast
「Quantcastbot」
http://www.quantcast.com/bot

Quantcastbot

"Quantcastbot/1.0 (+http://www.quantcast.com/bot)"

CMSやチャットアプリ、画像関連

──── CMS関連 ────

そのサイトで使用しているCMSなど調査して、市場占有率などの統計データを作成している会社もあります。

BuiltWith
「BuiltWith」
http://builtwith.com/biup

BuiltWith

"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko; compatible; BuiltWith/1.0; +http://builtwith.com/biup) Chrome/74.0.3729.131 Safari/537.36"

WebDataStats
「WebDataStats」
https://webdatastats.com/policy.html

webdatastats

"Mozilla/5.0 (compatible; WebDataStats/1.0 ; +https://webdatastats.com/policy.html)"

こちらは存在しないページへのリクエストが多かったため、セキュリティの脆弱性を探しているのかなと思いましたが、ロシア連邦の法律に従って行動しているとのことです。

──── チャットアプリ系 ────

ビジネスチャットのSlackも特に拒否する必要はないと思います。

Slack
「Slack」
https://api.slack.com/robots

Slack

"Slackbot 1.0 (+https://api.slack.com/robots)"
"Slack-ImgProxy (+https://api.slack.com/robots)"
"Slackbot-LinkExpanding 1.0 (+https://api.slack.com/robots)"

Chatwork
「Chatwork」
https://blog-ja.chatwork.com/2020/05/linkpreview.html

"Chatwork LinkPreview v1"

──── 検索アプリ系 ────

ファーウェイ
「PetalBot」
https://aspiegel.com/petalbot

"compatible; PetalBot;+https://aspiegel.com/petalbot"

──── 画像関連 ────

画像関連については、場合によっては著作権の関係で拒否した方がよいケースがあるかもしれません。

Pinterest
「Pinterestbot」
http://www.pinterest.com/bot.html

Pinterestbot

"Mozilla/5.0 (compatible; Pinterestbot/1.0; +http://www.pinterest.com/bot.html)"

Pinterestで著作権のある画像素材を無断で再利用される恐れがある場合、HTMLに「nopin」タグを追加することでピンされるのを防ぐことができます。

https://help.pinterest.com/ja/business/article/prevent-saves-to-pinterest-from-your-site

クロール自体も防ぐ場合、robots.txtや.htaccessで上記のボットのアクセスを拒否するとよいでしょう。

SEO関連

SEO関連のクローラーは非常に多いです。

ツールを使っている場合には拒否する必要はありませんが、特に使っていない場合は拒否しても問題ないかと思います。被リンクのチェックツールが多いですが、サイト内の外部リンクを探してクロールしているものと思います。

Ahrefs
「AhrefsBot」
http://ahrefs.com/robot/

AhrefsBot

"Mozilla/5.0 (compatible; AhrefsBot/6.1; +http://ahrefs.com/robot/)"

SEMrush
「SemrushBot」
http://www.semrush.com/bot.html

SemrushBot

"Mozilla/5.0 (compatible; SemrushBot/3~bl; +http://www.semrush.com/bot.html)"

Moz
「DotBot」
http://www.opensiteexplorer.org/dotbot

DotBot

"Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com)"

Majestic
「MJ12bot」
http://mj12bot.com/

MJ12bot

"Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/)"

Serpstat
「serpstatbot」
http://serpstatbot.com/

"serpstatbot/1.0 (advanced backlink tracking bot; curl/7.58.0; http://serpstatbot.com/; abuse@serpstatbot.com)"

SEOkicks
「SEOkicks」
https://www.seokicks.de/robot.html

SEOkicks

"Mozilla/5.0 (compatible; SEOkicks; +https://www.seokicks.de/robot.html)"

babbar
「Barkrowler」
https://babbar.tech/crawler

babbar

"Barkrowler/0.9 (+https://babbar.tech/crawler)"

WebMeUp
「BLEXBot」
http://webmeup-crawler.com/

BLEXBot

"Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/)"

詳細不明(SEO関連ツール)
「SearchAtlas」

詳細不明(SEO関連ツール)
「AlphaBot」

詳細不明(SEO関連ツール)
「RSiteAuditor」
"Mozilla/5.0 (compatible; RSiteAuditor)"