タグ「クローラー」

タグクローラー

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 25 / 92件)

AIトレーニング用のデータをかき集めるクローラーを無限生成される迷路に閉じ込める「Nepenthes」が開発される

2025/01/26 10 users 迷路ブロックトレーニングウェブサイトオプション

AIのトレーニングに使用されるデータをインターネット上からかき集めるために使用されるのがクローラーです。自身のウェブサイト上のデータをAIのトレーニングに利用されないようにするためのオプションを大手AI企業は提供していますが、この種のブロックを迂回してクローラーがウェブサイトから情報を抜き出しているこ... 続きを読む

BlueskyはAIボットによるデータ収集を許可している件

2024/11/16 24 users Bluesky robots.txt baidu AIボット

Blueskyにアップロードしたデータは、GoogleやOpenAIやBaiduや様々な会社のAI学習に利用されている可能性が高いよって話。前提検索エンジンやAIのクローラー、ボットによるデータの収集や学習を拒否する方法としてrobots.txtを使うのが一般的で、AI学習データ収集ロボットもそれに従っています。 AI開発会社はそれぞれb... 続きを読む

ゆる優しいSNS「タイッツー」がAndroid版アプリをリリース！ 3位にランクイン／生成AI学習のクローラーを全拒否しているSNSがついにスマホでも楽しめるように【やじうまの杜】

2024/10/18 18 users やじうまタイッツーリリースランクイン SNS

複数の大手ニュースサイトがAppleのパーソナルAI「Apple Intelligence」をトレーニングするために使用されるクローラーをブロックしていることが明らかに

2024/08/30 5 users many パーソナルＡＩボット Apple 生成AI

生成AIのトレーニングに使用するコンテンツは、ボットを使ってウェブ上からスクレイピングすることがありますが、これは度々問題視されています。AppleもAIのトレーニングに使用するコンテンツをスクレイピングしているものの、複数のニュースサイトがこのクローラーをブロックしている実態が明らかになりました。 Many ... 続きを読む

AI検索「Perplexity」はクロール禁止のサイトから情報を取っているのか

2024/07/09 7 users Perplexity robots.txt サーチエンジン

AI駆動の検索エンジン「Perplexity」がrobots.txtを無視して情報を収集しているのではないかという指摘が6月に報道されていた。現在の状況はどうなのか、実際にPerplexityで検証した。 robots.txtとは robots.txtは、ウェブサイト管理者がサーチエンジンのクローラーやボット（ウェブページを自動的に巡回して情報を収集... 続きを読む

「PerplexityのAIがクローラーをブロックするrobots.txtを無視している」との指摘に対しCEOが「無視しているわけではないがサードパーティーのクローラーに依存している」と主張

2024/06/24 13 users robots.txt Perplexity ボット巡回主張

生成AIを利用した検索エンジンの「Perplexity」に対して、検索エンジンやAIトレーニングなどのボット(クローラー)を制御できるテキストファイル「robots.txt」の指示を無視し、管理者がPerplexityの巡回を禁止したウェブサイトにもアクセスしていることが指摘されています。これに対し、Perplexityのアラヴィンド・スリ... 続きを読む

生成AI検索エンジンのPerplexityはクローラーを防ぐ「robots.txt」を無視してウェブサイトから情報を抜き出している

2024/06/17 18 users プロンプト pages robots.txt ボット生成AI

Perplexityは生成AIを利用した検索エンジンであり、ユーザーの質問に対してAIが直接回答を生成できるほか、ユーザーのプロンプトに基づいたウェブページを生成する「Pages」という機能を提供しています。そんなPerplexityが、検索エンジンやAIトレーニングなどのボット(クローラー)を制御するテキストファイル「robots.t... 続きを読む

Google検索からキャッシュ消える　公式Xが理由を説明

2024/02/07 24 users キャッシュ公式X Google検索説明理由

Googleの検索結果に表示されたWebページについて、直接アクセスしなくても、その内容を確認できるキャッシュ機能が2月までに削除された。Google検索の公式Xが、ユーザーの疑問に答える形でその理由について説明している。キャッシュ検索は、Googleのクローラーが最後に保存したそのページの内容を確認できる機能。Googl... 続きを読む

Google、WebサイトのコンテンツをAIトレーニングからオプトアウトするツールを提供

2023/09/29 13 users AIトレーニングツール Google コンテンツ提供

Googleは、Webパブリッシャー向けに、BardやVertex AIなどのGoogleのAIのトレーニングにコンテンツを使わせないようにするツール「Google-Extended」を発表した。クローラーによるインデックスはさせつつコンテンツ利用を回避できる。米Googleは9月28日（現地時間）、Webサイトのオーナー（以下、「Webパブリッシャー」... 続きを読む

The New York Timesや日経新聞など、ペイウォールを設置する複数のメディアが、生成AIのトレーニング用にコンテンツを収集するクローラーをブロックし始めている。米The New York Timesや日経新聞など、記事を読むためにサブスクリプションが必要な、ペイウォールを設置しているメディアサイトが、米OpenAIのWebクロー... 続きを読む

Googleの自動インデックスが機能していないという指摘

2023/06/06 26 users 指摘 Google おかげウェブサイトウェブサイト間

Googleの検索エンジンは、ウェブサイト間のリンクをたどる「クローラー」を用いて、新たなウェブサイトやページを自動的に検出しスキャンしています。このおかげで、新たなウェブサイトを作ったときやブログに新しい記事を書いたとき、わざわざそのことを通知しなくても、時間が経過すればGoogleの検索結果に引っかかる... 続きを読む

【インデックス未登録】解決方法10選。インデックスされない問題

2022/02/19 68 users 問題検出 Google 原因状態

【インデックスされない問題】インデックス未登録の原因インデックスされない問題はサーチコンソール上で2つの状態があります。検出-インデックス未登録ページはGoogleにて検出済み。クローラーが回ってきていない。クロール済み-インデックス未登録クローラーが回ってきたが、まだインデックスされていない検出-... 続きを読む

Googleのクロールバジェットとは？ | 3分ニュース: にゃんぷん

2020/04/05 21 users クロールバジェット Crawler Crawl Budget

Googleのクロールバジェットとは？まずは用語の確認から。クロール(crawl)とは、Googleなどの検索エンジンが世界中のサイトを巡回・訪問すること。クローラー（crawler）とは、Googlebotなどのようにクロールをする検索エンジンのAIのこと。バジェット(budget）とは、予算のこと。クロールバジェットとは、Googleが... 続きを読む

ウェブを定期的にクロールしてブロックすべきトラッカーのリストを作るDuckDuckGo | TechCrunch Japan

2020/03/06 5 users DuckDuckGo ドラッカーコンスタントお決まり犯人

大量の無用な広告を避けたりブロックしてやっと目的の情報に到達することは、今や毎日のお決まりの仕事のようだ。現在のほとんどすべてのウェブサイトを悩ませているこの迷惑行為を軽減するため、DuckDuckGoは主な犯人のリストを作り、それを自社のクローラーでコンスタントに更新している。もちろん無料で。このTracke... 続きを読む

『Rails』 sitemap.xmlの作成&Google search consoleへ自動送信 | PGMG

2019/09/14 19 users sitemap Rails PGMG sitemap.xml

sitemap.xmlを作ることで、クローラーにサイトをしっかりと正しくクロールしてもらうために必要なものですね。このsitemapを作る前にGoogle search consoleにまずは登録しましょう。上のリンクから飛んで、今すぐ登録をクリックから登録してください。ここでは登録の仕方は省きます。 Google search consoleの登録方... 続きを読む

Googleがウェブサイト管理に欠かせない「robots.txt」のインターネット標準化を推進 - GIGAZINE

2019/07/02 55 users robots.txt GIGAZINE Bing ボット推進

Googleやbingといった検索エンジンがさまざまなサイトの情報を検索できるのは、クローラーと呼ばれるボットが自動的にサイトを巡回するおかげ。このクローラーによるサイト巡回をサイトの管理者側で制御するために必要なのが「robots.txt」と呼ばれるテキストファイルです。20年以上使われながらも正式に標準化されてい... 続きを読む

Googleしごと検索の構造化データをコピペで実装できるツールを作ってみました - ウェブ企画ラボ

2019/03/11 33 users コピペウェブ企画ラボツール Googleしごと検索

https://webkikaku.co.jp/blog/recruit/google-job-posting-tool/ Googleしごと検索は募集要項を公開するだけでは掲載されません。ページ内に記載された構造化データをクローラーに読み込んでもらうことで、はじめて掲載することができます。エンジニアとっては、さほどハードルの高い実装ではないのですが、そうでない... 続きを読む

【グーグル公式】AMPのインデックスについてぜひ知っておきたい10個のFAQ【SEO記事12本まとめ】 | 海外&国内SEO情報ウォッチ | Web担当者Forum

2018/12/13 45 users AMP インデックス FAQ SERP グーグル公式

グーグルの社員がAMPに関する「インデックスにかかる時間は？」「検索順位に与える影響は？」「一部のページしかSERPに出ない」「link要素はどう指定する？」といったよくある質問に答えている。どんどん重要度を増しているAMPページをグーグルのクローラーがどう処理しているか、あなたはちゃんと理解できているだろう... 続きを読む

Webスクレイピングをする時に便利なnode.jsライブラリ「article-parser」 | cupOF Interests

2018/01/06 58 users Webスクレイピングフィード Node.jsライブラリ

2017年 9月12日 01時20分 3ヶ月前 Webスクレイピングをする時に便利な node.js用ライブラリ「 article-parser 」の紹介です。 " Webスクレイピング "、簡単に言えば、Webサイトからコンテンツの情報を抜き出すことです。RSSなどのフィードとは違いページ全体を抜き取ります。あまり聞こえはよくありませんが、Webサイトを巡回するクローラーやソーシャルブック... 続きを読む

AWS FargateとLambdaでサーバーレスなクローラー運用 - orangain flavor

2017/12/06 234 users サーバーレス Lambda Fargate クローラー運用

2017 - 12 - 07 AWS FargateとLambdaでサーバーレスなクローラー運用 scraping aws docker これは Webスクレイピング Advent Calendar 2017 の7日目の記事です。こんな感じで AWS Fargateと AWS Lambdaを使ってサーバーレス（EC2レス）なクローラーを作ります。この記事はFargateでのクローリング処理に... 続きを読む

SEO対策に効果的な文章!３つのルールを守れば検索上位にできる | テクワク

2017/10/18 24 users テクワククロール SEO対策晩酌ルール

1987年2月生まれ。雑記ブログを2017年5月から始めました。たまに真面目な記事も書いています。栃木生まれ大阪育ちで関西弁が上手く喋れないのが悩み。趣味：映画、晩酌、ブログ、寝る家族構成：妻と二人どうも！イクミヤです！サイト運営をする方にとって重要な文章は検索上位にする上で１番と言っても過言ではありません。 GoogleのクローラーがWeb情報を収集することを「クロール」と言います。クロ... 続きを読む

Go で並列数をうまいところ制御しながら並列に動くクローラー - Diary

2017/09/30 24 users 並列 http diary title github.io

Go で並列数をうまいところ制御しながら並列に動くクローラーというもののサンプル。並列に HTTP アクセスしてきてパースして title 要素を表示するというものです。 title 要素をパースしてくるのに使っているパッケージは[こちら](https://siongui.github.io/2016/05/10/go-get-html-title-via-net-html/)です。今回は ... 続きを読む

あなたのWebサイトは大丈夫？ schema.orgで構造化データをマークアップしよう | プロモニスタ

2017/06/02 28 users プロモニスタ Schema.org 策定 Microsoft

schema.orgとは、Google、Yahoo、Microsoftの3社で策定を進めていた構造化マークアップ（形式言語）規格です。schema.orgの仕様通りにHTMLにマークアップすることで、通常のHTMLマークアップでは伝えきれない、より詳しい正確な情報を検索エンジンのクローラーが認識できるようになります。schema.orgとは、Google、Yahoo、Microsoftの3社で策定... 続きを読む

(1 - 25 / 92件)

次の25件 »