タグ クローラー
新着順 10 users 50 users 100 users 500 users 1000 usersBlueskyはAIボットによるデータ収集を許可している件
Blueskyにアップロードしたデータは、GoogleやOpenAIやBaiduや様々な会社のAI学習に利用されている可能性が高いよって話。 前提検索エンジンやAIのクローラー、ボットによるデータの収集や学習を拒否する方法としてrobots.txtを使うのが一般的で、AI学習データ収集ロボットもそれに従っています。 AI開発会社はそれぞれb... 続きを読む
ゆる優しいSNS「タイッツー」がAndroid版アプリをリリース! 3位にランクイン/生成AI学習のクローラーを全拒否しているSNSがついにスマホでも楽しめるように【やじうまの杜】
複数の大手ニュースサイトがAppleのパーソナルAI「Apple Intelligence」をトレーニングするために使用されるクローラーをブロックしていることが明らかに
生成AIのトレーニングに使用するコンテンツは、ボットを使ってウェブ上からスクレイピングすることがありますが、これは度々問題視されています。AppleもAIのトレーニングに使用するコンテンツをスクレイピングしているものの、複数のニュースサイトがこのクローラーをブロックしている実態が明らかになりました。 Many ... 続きを読む
AI検索「Perplexity」はクロール禁止のサイトから情報を取っているのか
AI駆動の検索エンジン「Perplexity」がrobots.txtを無視して情報を収集しているのではないかという指摘が6月に報道されていた。現在の状況はどうなのか、実際にPerplexityで検証した。 robots.txtとは robots.txtは、ウェブサイト管理者がサーチエンジンのクローラーやボット(ウェブページを自動的に巡回して情報を収集... 続きを読む
「PerplexityのAIがクローラーをブロックするrobots.txtを無視している」との指摘に対しCEOが「無視しているわけではないがサードパーティーのクローラーに依存している」と主張
生成AIを利用した検索エンジンの「Perplexity」に対して、検索エンジンやAIトレーニングなどのボット(クローラー)を制御できるテキストファイル「robots.txt」の指示を無視し、管理者がPerplexityの巡回を禁止したウェブサイトにもアクセスしていることが指摘されています。これに対し、Perplexityのアラヴィンド・スリ... 続きを読む
生成AI検索エンジンのPerplexityはクローラーを防ぐ「robots.txt」を無視してウェブサイトから情報を抜き出している
Perplexityは生成AIを利用した検索エンジンであり、ユーザーの質問に対してAIが直接回答を生成できるほか、ユーザーのプロンプトに基づいたウェブページを生成する「Pages」という機能を提供しています。そんなPerplexityが、検索エンジンやAIトレーニングなどのボット(クローラー)を制御するテキストファイル「robots.t... 続きを読む
Google検索からキャッシュ消える 公式Xが理由を説明
Googleの検索結果に表示されたWebページについて、直接アクセスしなくても、その内容を確認できるキャッシュ機能が2月までに削除された。Google検索の公式Xが、ユーザーの疑問に答える形でその理由について説明している。 キャッシュ検索は、Googleのクローラーが最後に保存したそのページの内容を確認できる機能。Googl... 続きを読む
Google、WebサイトのコンテンツをAIトレーニングからオプトアウトするツールを提供
Googleは、Webパブリッシャー向けに、BardやVertex AIなどのGoogleのAIのトレーニングにコンテンツを使わせないようにするツール「Google-Extended」を発表した。クローラーによるインデックスはさせつつコンテンツ利用を回避できる。 米Googleは9月28日(現地時間)、Webサイトのオーナー(以下、「Webパブリッシャー」... 続きを読む
OpenAIのクローラーを拒否する動き ほか【中島由弘の「いま知っておくべき5つのニュース」2023/8/24~8/30】
「AI学習に利用するべからず」OpenAIのクローラーをブロックする動き、海外で広がる【やじうまWatch】
OpenAIのクローラーをNew York Timesなどのペイウォールメディアがブロック開始
The New York Timesや日経新聞など、ペイウォールを設置する複数のメディアが、生成AIのトレーニング用にコンテンツを収集するクローラーをブロックし始めている。 米The New York Timesや日経新聞など、記事を読むためにサブスクリプションが必要な、ペイウォールを設置しているメディアサイトが、米OpenAIのWebクロー... 続きを読む
Googleの自動インデックスが機能していないという指摘
Googleの検索エンジンは、ウェブサイト間のリンクをたどる「クローラー」を用いて、新たなウェブサイトやページを自動的に検出しスキャンしています。このおかげで、新たなウェブサイトを作ったときやブログに新しい記事を書いたとき、わざわざそのことを通知しなくても、時間が経過すればGoogleの検索結果に引っかかる... 続きを読む
【インデックス未登録】解決方法10選。インデックスされない問題
【インデックスされない問題】 インデックス未登録の原因インデックスされない問題は サーチコンソール上で2つの状態があります。 検出-インデックス未登録 ページはGoogleにて検出済み。 クローラーが回ってきていない。クロール済み-インデックス未登録 クローラーが回ってきたが、 まだインデックスされていない検出-... 続きを読む
Googleのクロールバジェットとは? | 3分ニュース: にゃんぷん
Googleのクロールバジェットとは? まずは用語の確認から。 クロール(crawl)とは、Googleなどの検索エンジンが世界中のサイトを巡回・訪問すること。 クローラー(crawler)とは、Googlebotなどのようにクロールをする検索エンジンのAIのこと。 バジェット(budget)とは、予算のこと。 クロールバジェットとは、Googleが... 続きを読む
ウェブを定期的にクロールしてブロックすべきトラッカーのリストを作るDuckDuckGo | TechCrunch Japan
大量の無用な広告を避けたりブロックしてやっと目的の情報に到達することは、今や毎日のお決まりの仕事のようだ。現在のほとんどすべてのウェブサイトを悩ませているこの迷惑行為を軽減するため、DuckDuckGoは主な犯人のリストを作り、それを自社のクローラーでコンスタントに更新している。もちろん無料で。 このTracke... 続きを読む
『Rails』 sitemap.xmlの作成&Google search consoleへ自動送信 | PGMG
sitemap.xmlを作ることで、クローラーにサイトをしっかりと正しくクロールしてもらうために必要なものですね。 このsitemapを作る前にGoogle search consoleにまずは登録しましょう。 上のリンクから飛んで、今すぐ登録をクリックから登録してください。 ここでは登録の仕方は省きます。 Google search consoleの登録方... 続きを読む
Googleがウェブサイト管理に欠かせない「robots.txt」のインターネット標準化を推進 - GIGAZINE
Googleやbingといった検索エンジンがさまざまなサイトの情報を検索できるのは、クローラーと呼ばれるボットが自動的にサイトを巡回するおかげ。このクローラーによるサイト巡回をサイトの管理者側で制御するために必要なのが「robots.txt」と呼ばれるテキストファイルです。20年以上使われながらも正式に標準化されてい... 続きを読む
Googleしごと検索の構造化データをコピペで実装できるツールを作ってみました - ウェブ企画ラボ
https://webkikaku.co.jp/blog/recruit/google-job-posting-tool/ Googleしごと検索は募集要項を公開するだけでは掲載されません。ページ内に記載された構造化データをクローラーに読み込んでもらうことで、はじめて掲載することができます。 エンジニアとっては、さほどハードルの高い実装ではないのですが、そうでない... 続きを読む
【グーグル公式】AMPのインデックスについてぜひ知っておきたい10個のFAQ【SEO記事12本まとめ】 | 海外&国内SEO情報ウォッチ | Web担当者Forum
グーグルの社員がAMPに関する「インデックスにかかる時間は?」「検索順位に与える影響は?」「一部のページしかSERPに出ない」「link要素はどう指定する?」といったよくある質問に答えている。どんどん重要度を増しているAMPページをグーグルのクローラーがどう処理しているか、あなたはちゃんと理解できているだろう... 続きを読む
Webスクレイピングをする時に便利なnode.jsライブラリ「article-parser」 | cupOF Interests
2017年 9月12日 01時20分 3ヶ月前 Webスクレイピングをする時に便利な node.js用ライブラリ「 article-parser 」の紹介です。 " Webスクレイピング "、簡単に言えば、Webサイトからコンテンツの情報を抜き出すことです。RSSなどのフィードとは違いページ全体を抜き取ります。あまり聞こえはよくありませんが、Webサイトを巡回する クローラー や ソーシャルブック... 続きを読む
AWS FargateとLambdaでサーバーレスなクローラー運用 - orangain flavor
2017 - 12 - 07 AWS FargateとLambdaでサーバーレスなクローラー運用 scraping aws docker これは Webスクレイピング Advent Calendar 2017 の7日目の記事です。こんな感じで AWS Fargateと AWS Lambdaを使ってサーバーレス(EC2レス)な クローラー を作ります。 この記事はFargateでのクローリング処理に... 続きを読む
SEO対策に効果的な文章!3つのルールを守れば検索上位にできる | テクワク
1987年2月生まれ。雑記ブログを2017年5月から始めました。たまに真面目な記事も書いています。栃木生まれ大阪育ちで関西弁が上手く喋れないのが悩み。 趣味:映画、晩酌、ブログ、寝る 家族構成:妻と二人 どうも!イクミヤです! サイト運営をする方にとって重要な文章は検索上位にする上で1番と言っても過言ではありません。 GoogleのクローラーがWeb情報を収集することを「クロール」と言います。クロ... 続きを読む
Go で並列数をうまいところ制御しながら並列に動くクローラー - Diary
Go で並列数をうまいところ制御しながら並列に動くクローラー というもののサンプル。 並列に HTTP アクセスしてきてパースして title 要素を表示するというものです。 title 要素をパースしてくるのに使っているパッケージは[こちら](https://siongui.github.io/2016/05/10/go-get-html-title-via-net-html/)です。 今回は ... 続きを読む
あなたのWebサイトは大丈夫? schema.orgで構造化データをマークアップしよう | プロモニスタ
schema.orgとは、Google、Yahoo、Microsoftの3社で策定を進めていた構造化マークアップ(形式言語)規格です。schema.orgの仕様通りにHTMLにマークアップすることで、通常のHTMLマークアップでは伝えきれない、より詳しい正確な情報を検索エンジンのクローラーが認識できるようになります。schema.orgとは、Google、Yahoo、Microsoftの3社で策定... 続きを読む
実験結果の報告:パンくずリストとフィードの送信でクローラーの巡回頻度上がるのか?
以前行っていた実験結果の報告をします。 実験内容:「パンくずリスト」の設置と「フィード」の送信で「Googleクローラー」の巡回頻度は上がるのか? 詳しくは以下の記事を参照して下さい。 「パンくずリスト」をブログに設置したら「Googleクローラー」の巡回頻度が上がるか実験します! 「Google search console」でフィード(RSS/Atom)は送信してますか?重要みたい! では結果... 続きを読む