はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ クローラ

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 25 / 32件)

Google主導のもと、Robots Exclusion Protocol (REP) がインターネット標準に | 海外SEO情報ブログ

2019/07/01 このエントリーをはてなブックマークに追加 14 users Instapaper Pocket Tweet Facebook Share Evernote Clip REP Googlebot robots.txt mar 完結

[レベル: 上級] robots.txt の仕様を標準化する取り組みに Google は着手しました。 背景背景を完結に説明します。 検索エンジンのクローラ――Google で言えば Googlebot――のクロールを制御するために robots.txt を利用できます。 robots.txt の仕様を Robots Exclusion Protocol (REP) と呼びます。 REP はもともと Mar... 続きを読む

なぜ?!アドセンスの広告が突然表示されなくなった!その原因はクローラ?初心者なりに調べてみた。 - ハピトマの育児ブログ

2019/05/25 このエントリーをはてなブックマークに追加 16 users Instapaper Pocket Tweet Facebook Share Evernote Clip Google AdSense ハピトマ アドセンス 普段 影響

こんにちは! ハピトマです。 ご訪問ありがとうございます! 昨日の夜、Google AdSenseの広告が、 トップページを含めすべてのページから消えていることに気が付きました・・・。 はてブ&スマニュー砲の影響がほとんど落ち着いてきてはいるものの、普段の7倍ほどのアクセスがあった昨日。 午前中に3クリックあっただ... 続きを読む

SEOポイズニングの手法を使用した偽ECサイトについて - tike blog

2018/07/29 このエントリーをはてなブックマークに追加 131 users Instapaper Pocket Tweet Facebook Share Evernote Clip SEOポイズニング 踏み台 手法 tike blog ユー

はじめに 今年3月、リクルートテクノロジーズ社が偽サイトへの誘導を目的としたSEOポイズニングに関する記事を公開しました。 recruit-tech.co.jp 脆弱性を突くなどして他のサイトに検索エンジン(Google等)のクローラのみがアクセスできるページを不正に設置し、このページを踏み台として攻撃者が運用する偽サイトにユー... 続きを読む

【スクレイピングと法律】スクレイピングって法律的に何がOKで何がOUTなのかを弁護士が解説。 | IT法務や仮想通貨、ICO、AIの法律に詳しい弁護士|中野秀俊

2017/12/15 このエントリーをはてなブックマークに追加 357 users Instapaper Pocket Tweet Facebook Share Evernote Clip スクレイピング ico 中野秀俊 Out IT法務

スクレイピングによってデータベースを作りたい!はいいのか? スクレイピングとは、ウェブサイトから、ウェブページのHTMLデータを取得して、取得したデータの中から、特定のトピックに関わるデータを抽出、整形しなおすことをいいます。 スクレイピングは、ウェブ上にあるデータを取得する際に、クローラを用いて... 続きを読む

Perl で書くクローラのテスト - Qiita

2017/12/01 このエントリーをはてなブックマークに追加 10 users Instapaper Pocket Tweet Facebook Share Evernote Clip Qiita CodeHex perl 前提 テスト手法

2017 年の Perl Advent Calendar 1 日目を担当する @codehex です。 とあるカテゴリのサービスを巡回する クローラ を書く機会がありました。今回はそのテスト手法について僕が考えたことを書こうと思います。 文章でいっぱいの記事になりそうです... 考えたこと このクローラは巡回するサービス数が少ないことを前提としています。 クローラを開発するにあたって考えることが沢... 続きを読む

クローラを生まれ変わらせるにあたっての思考 - かれ4

2015/12/14 このエントリーをはてなブックマークに追加 24 users Instapaper Pocket Tweet Facebook Share Evernote Clip カレ 思考

2015 - 12 - 14 クローラを生まれ変わらせるにあたっての思考 crawler scraping キャベツはどうした お料理行進曲 Advent Calendar 2015の13日目の記事です。 今うちで動いているCrawlerは数年前に作られたもので、 仕組みとしてはAzureのService Fabricの上で AWS のLambdaを動かしているのと似た アーキテクチャ になってい... 続きを読む

Python - DjangoとCeleryでクローラを書きながら考えた由無し事 - Qiita

2015/12/05 このエントリーをはてなブックマークに追加 19 users Instapaper Pocket Tweet Facebook Share Evernote Clip Django Qiita ペー Python 定義

業務でもクローラを見ることが多いのですが、今回は新しくクローラ作るならとりあえずDjango+Celery使うだろうなぁということで、個人でサンプル書いて見つつ思ったところをつらつらと書いてみようと思います。 クローラの基本的な処理段階 クローラといっても人によって微妙に定義が違う状態で会話する事が多いのでとりあえず今回の対象は、 一定の条件に従ってWebページのリンクを収集する 各リンク内のペー... 続きを読む

Goによるプライベートネットワークへのアクセスを禁止するHTTPクライアントの実装 - はこべブログ ♨

2015/08/05 このエントリーをはてなブックマークに追加 82 users Instapaper Pocket Tweet Facebook Share Evernote Clip HTTPクライアント はこべブログ 実装 アクセス 故意

2015-08-05 Goによるプライベートネットワークへのアクセスを禁止するHTTPクライアントの実装 クローラのように、ユーザからの入力に応じて任意のURLにHTTPリクエストを発行するソフトウェアは、誤ってプライベートネットワークへのリクエストを処理しないようにする必要があります。悪意のあるユーザが故意にプライベートなネットワークに対してリクエストして、内部情報にアクセスするといった攻撃を行... 続きを読む

Apple のウェブクローラ「Applebot」の存在が確認される ::SEM R (#SEMR)

2015/05/06 このエントリーをはてなブックマークに追加 32 users Instapaper Pocket Tweet Facebook Share Evernote Clip SEMR Applebot ウェブクローラ ウェブページ 存在

Apple のウェブクローラ「Applebot」の存在が確認される アップルのウェブクローラ「Applebot」に関する説明ページが公開される。 公開日時:2015年05月07日 02:45 Barry Schwartz氏が Search Engine Land でかねてから噂されていた Apple のクローラの存在が確認できたことを報じている。 Apple が公式に公開しているウェブページによる... 続きを読む

ssig33.com - クローラー運用について

2014/10/13 このエントリーをはてなブックマークに追加 47 users Instapaper Pocket Tweet Facebook Share Evernote Clip クローラー運用 ssig33.com 並列 蛮族 ドメイン

fl.ssig33.com を公開した LDR ユーザーの中で ssig33.com を読むような人達は蛮族だった 15 万フィードほどいきなりクロールすることになった という問題が発生しました。以下やった対処。 クローラの UA に連絡先を入れる これ多分一番重要 並列クロールするようにする 同じドメインは並列にクロールしない このドメインとこのドメインは並列にクロールしないみたいなブラックリス... 続きを読む

robots.txt テスターで robots.txt をテストする - Search Console ヘルプ

2014/09/03 このエントリーをはてなブックマークに追加 183 users Instapaper Pocket Tweet Facebook Share Evernote Clip robots.txt ウェブクローラ 特定 ヘルプ ツール

robots.txt テスターツールを使用すると、robots.txt ファイルでサイト内の特定の URL に対して Google のウェブクローラがブロックされているかどうかを確認できます。たとえば、このツールを使用して、Google 画像検索に表示されないようにしたい画像の URL を Googlebot-Image クローラがクロールできるかどうかをテ... 続きを読む

攻撃ツール - ひろゆきが2ちゃんねるを捨てなかった理由 Wiki*

2014/04/15 このエントリーをはてなブックマークに追加 37 users Instapaper Pocket Tweet Facebook Share Evernote Clip ひろゆき 攻撃ツール 2ちゃんねる Jim 迂回

2ch.scは2ちゃんねるの攻撃ツールを不特定多数に配ろうとしている。利用者はサイバー攻撃を行ったとして家に警察が来る物と思われる ソースとなった2ch.scの書き込み 4095 名前:名無しさん@13周年[] 投稿日:2014/04/14(月) 04:46:02.73 ID:wJLzpOd2P [1/4] jimがさくらのクローラを遮断したみたいだな 迂回しても迂回→遮断のイタチごっこは目に見え... 続きを読む

YSTの復活?ヤフーのクローラ、Slurpの動きが活発化 | 海外SEO情報ブログ

2012/09/23 このエントリーをはてなブックマークに追加 13 users Instapaper Pocket Tweet Facebook Share Evernote Clip YST Bing 役目 ヤフー テクノロジー

[対象: 上級] Yahoo!独自の検索システムであるYahoo! Search Technology (ヤフー サーチ テクノロジー、通称YST) で使われていたクローラ、Slurpの動きが活発化しているようです。米Microsoftとの提携に基いて日本のYahoo!を除くYahoo!は現在Bingの検索システムを利用しています(日Yahoo!は米Googleと提携)。よってYSTはその役目を終... 続きを読む

Google検索を支える「Googlebot」がAJAX・JavaScriptのクリックに対応、現実のユーザーっぽい挙動が可能に - GIGAZINE

2012/05/16 このエントリーをはてなブックマークに追加 97 users Instapaper Pocket Tweet Facebook Share Evernote Clip Googlebot GIGAZINE クロール 一連 プロセス

By Mechanekton Googlebot(グーグルボット)とは、Googleのウェブクロール用ロボットのことで、Googleの検索用インデックスに新しいページや更新されたページを次々とダウンロードして回収していくための一連のプログラムとプロセスのことで、Googlebotによってインターネット上の数十億のページを取得(クロール)するため、クローラとも呼ばれています。 しかし所詮はプログラム... 続きを読む

Google ウェブマスター向け公式ブログ: より多くの有益なコンテンツを検索結果に: クローラが POST リクエストにも対応しました

2012/01/31 このエントリーをはてなブックマークに追加 44 users Instapaper Pocket Tweet Facebook Share Evernote Clip Caffeine POST リクエスト クロール コンテンツ

より多くの有益なコンテンツを検索結果に: クローラが POST リクエストにも対応しました 2012年1月31日火曜日 | 11:02 Google はインターネットの発展とともに、クロールやインデックスの技術も進化させていくべきと考えています。これまでにも、Flash のインデックス登録を改良 (英語)し 、Caffeine というより新しいインフラストラクチャー (英語)を導入してきました。ま... 続きを読む

スマートフォン向けサイトを検索エンジンに最適化するためのポイント ::SEM R

2011/12/16 このエントリーをはてなブックマークに追加 55 users Instapaper Pocket Tweet Facebook Share Evernote Clip SEM R 検索エンジン ポイント スマートフォン向けサイト

スマートフォン向けサイトを検索エンジンに最適化するためのポイント スマートフォン向けサイトを検索エンジンに適切に認識させるための方法について。 2011年12月16日 15:06 | サーチニュース 2011, モバイル検索 / 携帯検索 | TrackBack (0) | 執筆:Takahiro Watanabe+ GoogleがスマートフォンUAを持つクローラを公式に発表したことで関心を持つ方... 続きを読む

米Google、スマートフォンサイト専用のクローラを発表 ::SEM R

2011/12/15 このエントリーをはてなブックマークに追加 48 users Instapaper Pocket Tweet Facebook Share Evernote Clip クローリング TrackBack 巡回 執筆 SEM R

米Google、スマートフォンサイト専用のクローラを発表 グーグル、スマートフォンサイトのクローリングを目的とした新しいgooglebotクローラ発表。 2011年12月16日 00:39 | サーチニュース 2011 | TrackBack (0) | 執筆:Takahiro Watanabe+ 米Googleは2011年12月15日、スマートフォンサイトのコンテンツをクローリング(巡回)するこ... 続きを読む

Google +1ボタンはrobots.txtを無視する | 海外SEO情報ブログ

2011/09/08 このエントリーをはてなブックマークに追加 17 users Instapaper Pocket Tweet Facebook Share Evernote Clip robots.txt エンジニア Google コンテンツ

[レベル:中級]Googleのクローラのコンテンツへのアクセスを拒否するときはrobots.txtを使います。しかし+1ボタンを設置しているページで、その+1ボタンが押されたときはGoogleは、robots.txtのブロック指定を無視して、クローリングし検索結果に表示することがあり得るそうです。GoogleのエンジニアのJenny Murphy(ジェニー・マーフィー)さんが、Google公式ヘル... 続きを読む

クローラを作る技術と設計

2011/09/03 このエントリーをはてなブックマークに追加 468 users Instapaper Pocket Tweet Facebook Share Evernote Clip Loading or above 設計 技術

Loading… Flash Player 9 (or above) is needed to view presentations. We have detected that you do not have it on your computer. To install it, go here. クローラを作る技術と設計 - Presentation Transcript クローラを作る技術と... 続きを読む

クローラをブロック“しない”時のrobots.txtの設定 | 海外SEO情報ブログ

2011/08/31 このエントリーをはてなブックマークに追加 24 users Instapaper Pocket Tweet Facebook Share Evernote Clip robots.txt User-Agent 初級 記述 ビデオ

[レベル:初級]検索エンジンのクローラをブロックする必要がない時のrobots.txtの設定は、次の3つのうちどれが適切か?何も書いていないrobots.txtを設置する下の記述を書く User-Agent: * Disallow:robots.txtそのものを置かないrobots.txtについて、上の質問にGoogleのMatt Cutts(マット・カッツ)氏がビデオで回答しました。1つ目か2つ... 続きを読む

開設間もないサイトのSEOがうまくいっているかどうかのチェック項目 | ウェブ力学

2011/05/23 このエントリーをはてなブックマークに追加 88 users Instapaper Pocket Tweet Facebook Share Evernote Clip ウェブ力学 SEO チェック項目 ペナルティ ミドルワード

サイトを開設したばかりの頃は、ビッグワードやミドルワードで上位表示出来るわけではないので、SEOがうまくいっているのかどうか不安になることもあるのではないかと思います。 そこで今回は、サイトを新規に開設して数ヶ月ぐらい経った頃にSEOがきちんとできているかどうかをチェックするための項目をまとめてみました。 開設して間もない時期にSEOの面でチェックしたいのは、 ペナルティを受けてないこと クローラ... 続きを読む

Google ウェブマスター向け公式ブログ: クローラとインデックスの制御について詳しい資料を code.google.com で公開しました!

2011/02/02 このエントリーをはてなブックマークに追加 39 users Instapaper Pocket Tweet Facebook Share Evernote Clip code.google.com robots インデックス

クローラとインデックスの制御について詳しい資料を code.google.com で公開しました!2011年2月2日水曜日 | 13:20今回は英語の資料となりますが、非常に有益なものですのでご紹介させていただきます。 Google のクローラ(Googlebot)と インデックス登録の制御に関する詳細な情報が code.google.com でご覧いただけるようになりました。 例えばrobots... 続きを読む

高木浩光@自宅の日記 - 国会図書館の施策で全国の公共機関のWebサイトが消滅する 岡崎図書館事件(5)

2010/08/11 このエントリーをはてなブックマークに追加 243 users Instapaper Pocket Tweet Facebook Share Evernote Clip 高木浩光 robots.txt 施策 岡崎図書館事件 公共機関

■ 国会図書館の施策で全国の公共機関のWebサイトが消滅する 岡崎図書館事件(5) 平成22年4月1日施行の改正国立国会図書館法に基づき、国立国会図書館が、国・地方公共団体等の公共機関を対象に、インターネット上で公開されている資料のWebクローラによる収集を開始したという。その説明資料によると、クローラのアクセス間隔の基準は「1秒以上」だという。中野区立図書館の場合、/robots.txt が置か... 続きを読む

法と技術とクローラと私 - 最速転職研究会

2010/07/07 このエントリーをはてなブックマークに追加 701 users Instapaper Pocket Tweet Facebook Share Evernote Clip 勾留 実名 librahack.jp 逮捕 大手ポータルサイト

00:02 | こんにちは、趣味や業務で大手ポータルサイトのサービスで稼働しているいくつかのクローラの開発とメンテナンスを行っているmalaです。さて先日、岡崎市立中央図書館Webサイトをクロールしていた人が逮捕、勾留、実名報道されるという事件がありました。関連URL: http://librahack.jp/電話してみた的な話http://www.nantoka.com/~kei/diary/?... 続きを読む

livedoor ReaderのクローラとStreaming APIなどの話

2010/03/10 このエントリーをはてなブックマークに追加 232 users Instapaper Pocket Tweet Facebook Share Evernote Clip Streaming API

Loading... Flash Player 9 (or above) is needed to view presentations. We have detected that you do not have it on your computer. To install it, go here. 続きを読む

 
(1 - 25 / 32件)