タグ Webクローラー
人気順 5 users 50 users 100 users 500 users 1000 usersOpenAI、Webデータ収集クローラー「GPTBot」のブロック方法を説明
米OpenAIは、Webサイト管理者が同社のWebクローラー「GPTBot」によるサイトのデータ収集を回避する方法を紹介した。紹介する文書に日付はないが、米AI専用オンラインメディアMaginativeなどが8月7日(現地時間)、文書を見つけて報じた。 GPTBotは、同社のAIモデルをトレーニングするために公開データを収集するためのWe... 続きを読む
Rust+WASMでWebクローラーのXMLパースを高速化
本記事はストックマークAdvent Calendarの21日目の記事です。 はじめに こんにちは、ストックマークの谷本です。 ストックマークでは、ビジネス情報に特化したデータプラットフォームを独自に構築しています。 本記事では、そのデータプラットフォームの中核であるWebクローラーのパフォーマンスを、Rust+WASMでコスパ良... 続きを読む
Apple、SiriやSpotlightのWebサイト検索候補に使用する情報を集めるWebクローラー「Applebot」のカスタムルールを公開。 | AAPL Ch.
AppleがSiriやSpotlightのWebサイト検索候補に使用する情報を集めるWebクローラー「Applebot」のカスタムルールを公開しています。詳細は以下から。 Appleは2015年05月、SiriやSp 続きを読む
日本国内のCDNシェア:Geekなぺーじ
JStreamによる、日本のCDNシェアに関する調査結果が公表されています。 JStreamブログは、CDNに関連する色々な調査結果をブログで公開していて面白いです。 日本のCDNシェアについて調査結果@2017年10月 JStreamブログの「市場調査」タグ 2017年10月版国内CDNシェアの調査方法は、Webクローラーによるもので、DNSに登録されたCNAMEや、HTTPメッセージに含まれる... 続きを読む
Apple独自のWebクローラー「Applebot」、公式に認める - ITmedia ニュース
米Appleはこのほど、独自のWebクローラー「Applebot」の存在を認めた。SiriとSpotlightなどに活用するためのものだという。 Appleがサポートページで公開した情報によると、Applebotは他社クローラーと同様にサイトのrobot.txtを尊重し、Applebotへの指示がない場合はGooglebotへの指示に従うという。 UserAgent表示には「Applebot」のほ... 続きを読む
JavaScriptにも対応出来るruby製のクローラー、Masqueを試してみる - プログラマになりたい
ちょっと前に試そうと思って、そのまま放置していたruby製のクローラー「Masque」を試してみます。ruby製のクローラーは、他にはAnemoneという優秀なものがあります。その上で何故というと、MasqueはCapybaraのDSLで記述出来るWebクローラーです。つまりCapybaraを動かす為のものなので、JavaScriptも解釈が出来るということです。Anemoneはあくまで個別個別の... 続きを読む
MOONGIFT: » クローラーを作るためのフレームワーク「Anemone」:オープンソースを毎日紹介
RSSフィードやWeb API、Mashupなどの単語が注目を集める中、Webクローラーを通じて外部のWebサイトにあるデータをかき集め、それを解析して別な形にするというのはよく見られるものになってきた。 あるURLを指定し、そこからリンクされているURLを一覧表示できる そうした数々のシステムの中で、クローラーとなる基盤は大きな違いはない。Webサイトのデータを取得し、次のリンクを洗い出して取得... 続きを読む