はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ Webクローラー

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 7 / 7件)
 

OpenAI、Webデータ収集クローラー「GPTBot」のブロック方法を説明

2023/08/08 このエントリーをはてなブックマークに追加 16 users Instapaper Pocket Tweet Facebook Share Evernote Clip OpenAI GPTBot 米OpenAI 文書 日付

米OpenAIは、Webサイト管理者が同社のWebクローラー「GPTBot」によるサイトのデータ収集を回避する方法を紹介した。紹介する文書に日付はないが、米AI専用オンラインメディアMaginativeなどが8月7日(現地時間)、文書を見つけて報じた。 GPTBotは、同社のAIモデルをトレーニングするために公開データを収集するためのWe... 続きを読む

Rust+WASMでWebクローラーのXMLパースを高速化

2021/12/22 このエントリーをはてなブックマークに追加 15 users Instapaper Pocket Tweet Facebook Share Evernote Clip 中核 コスパ良 パフォーマンス データプラットフォーム 高速化

本記事はストックマークAdvent Calendarの21日目の記事です。 はじめに こんにちは、ストックマークの谷本です。 ストックマークでは、ビジネス情報に特化したデータプラットフォームを独自に構築しています。 本記事では、そのデータプラットフォームの中核であるWebクローラーのパフォーマンスを、Rust+WASMでコスパ良... 続きを読む

Apple、SiriやSpotlightのWebサイト検索候補に使用する情報を集めるWebクローラー「Applebot」のカスタムルールを公開。 | AAPL Ch.

2018/06/23 このエントリーをはてなブックマークに追加 27 users Instapaper Pocket Tweet Facebook Share Evernote Clip Spotlight Siri Applebot AAPL

AppleがSiriやSpotlightのWebサイト検索候補に使用する情報を集めるWebクローラー「Applebot」のカスタムルールを公開しています。詳細は以下から。  Appleは2015年05月、SiriやSp 続きを読む

日本国内のCDNシェア:Geekなぺーじ

2017/11/16 このエントリーをはてなブックマークに追加 246 users Instapaper Pocket Tweet Facebook Share Evernote Clip ページ CNAME CDN DNS HTTPメッセージ

JStreamによる、日本のCDNシェアに関する調査結果が公表されています。 JStreamブログは、CDNに関連する色々な調査結果をブログで公開していて面白いです。 日本のCDNシェアについて調査結果@2017年10月 JStreamブログの「市場調査」タグ 2017年10月版国内CDNシェアの調査方法は、Webクローラーによるもので、DNSに登録されたCNAMEや、HTTPメッセージに含まれる... 続きを読む

Apple独自のWebクローラー「Applebot」、公式に認める - ITmedia ニュース

2015/05/07 このエントリーをはてなブックマークに追加 52 users Instapaper Pocket Tweet Facebook Share Evernote Clip Applebot Googlebot Spotlight

米Appleはこのほど、独自のWebクローラー「Applebot」の存在を認めた。SiriとSpotlightなどに活用するためのものだという。 Appleがサポートページで公開した情報によると、Applebotは他社クローラーと同様にサイトのrobot.txtを尊重し、Applebotへの指示がない場合はGooglebotへの指示に従うという。 UserAgent表示には「Applebot」のほ... 続きを読む

JavaScriptにも対応出来るruby製のクローラー、Masqueを試してみる - プログラマになりたい

2013/12/23 このエントリーをはてなブックマークに追加 63 users Instapaper Pocket Tweet Facebook Share Evernote Clip プログラマ Capybara Ruby製 Anemone 解釈

ちょっと前に試そうと思って、そのまま放置していたruby製のクローラー「Masque」を試してみます。ruby製のクローラーは、他にはAnemoneという優秀なものがあります。その上で何故というと、MasqueはCapybaraのDSLで記述出来るWebクローラーです。つまりCapybaraを動かす為のものなので、JavaScriptも解釈が出来るということです。Anemoneはあくまで個別個別の... 続きを読む

MOONGIFT: » クローラーを作るためのフレームワーク「Anemone」:オープンソースを毎日紹介

2009/07/07 このエントリーをはてなブックマークに追加 372 users Instapaper Pocket Tweet Facebook Share Evernote Clip Anemone MASHUP MOONGIFT クローラー

RSSフィードやWeb API、Mashupなどの単語が注目を集める中、Webクローラーを通じて外部のWebサイトにあるデータをかき集め、それを解析して別な形にするというのはよく見られるものになってきた。 あるURLを指定し、そこからリンクされているURLを一覧表示できる そうした数々のシステムの中で、クローラーとなる基盤は大きな違いはない。Webサイトのデータを取得し、次のリンクを洗い出して取得... 続きを読む

 
(1 - 7 / 7件)