タグ 教師データ
人気順 5 users 50 users 100 users 500 users 1000 usersChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利
RLHFとは「人間の評価による強化学習」のことで、大規模言語モデルをChatGPTなどの実用レベルに至る品質にまで高めた実績のある手法です。RLHFでは教師データを作成したり、大規模言語モデルの回答を評価したりする際に人間がデータを入力する必要があり、特に複数人で作業する場合にデータの管理が大変になってしまうも... 続きを読む
機械学習でFizzBuzzを実現する
教師データの作成 学習用の教師データを生成して確認します。 本来は教師データは外部から提供されるはずだが、今回はそれがないので自分で生成する。 import numpy as np def fizzbuzz(n:int): if n % 15 == 0: return "FizzBuzz" if n % 5 == 0: return "buzz" if n % 3 == 0: return "Fizz" return n def generate_sa... 続きを読む
富士通、教師データなしでデータの特徴を正確に獲得できるAI技術 世界初 - ITmedia NEWS
富士通研究所が、教師データなしで通信ログや医療データのような高次元データの特徴を正確に獲得できる技術を世界で初めて開発したと発表した。AIの精度向上が期待できるという。 富士通研究所は7月13日、教師データなしで通信ログや医療データのような高次元データの特徴を正確に獲得できるAI技術「DeepTwin」(ディー... 続きを読む
人間が深層学習のAIを理解できないのには、理由がある:朝日新聞GLOBE+
統計数理研究所の今泉允聡助教=西村宏治撮影 ■人間にはAIの考えが分からない? ――ディープラーニングは、大量の「教師データ」を読み込み、入力する変数と、出力する変数との間の関係を見つけ出します。その関係が分かれば、新たなデータを入力したとき、出力が予測できるというわけですが、なぜ人間はそのプロセスを理... 続きを読む
“AIトイレ”で大便の状態を自動判定、LIXILが開発 「教師データは社員の便」 介護施設などの需要見込む - ITmedia NEWS
住宅設備機器などを手掛けるLIXILが、大便の形状や大きさを国際指標に基づいて自動分類できる“AIトイレ”のプロトタイプを、家電やIoT機器の見本市「CEATEC 2019」(10月15日~17日、千葉・幕張メッセ)で展示している。実用化のめどは立っていないが、介護施設などでの利用を想定。介護施設のスタッフは判定結果を見て、... 続きを読む
ノイズのある教師データを用いた機械学習に関する研究サーベイ - ABEJA Tech Blog
こんにちは、Research Internの荒尾(@karolis_ml)です。 日進月歩の勢いで研究が進んでいる深層学習ですが、教師あり学習でもっとも大事なデータのアノテーション、応用分野ではまだまだ大変ですよね。例えば、犬の写真から犬種を判断する分類器を作ろうとして教師データが必要になったとき、あなたは以下の画像にどんな... 続きを読む
鳥の鳴き声→「ピヨピヨ」 音から擬音語を生成する技術、NTTが開発 - ITmedia NEWS
脳の神経回路網を模した多層ニューラルネットワークを活用し、教師データとして特定の音と対応する擬音語や説明文を機械学習させる。学習したデータをもとに、音の特徴を取り出して対応するテキストに変換する仕組みを開発した。 ある音から自動生成した擬音語と、人間が考えた擬音語を比べたところ、異なる単語が生成さ... 続きを読む
Python: RFE (Recursive Feature Elimination) で特徴量を選択してみる - CUBE SUGAR CONTAINER
今回は RFE (Recursive Feature Elimination) と呼ばれる手法を使って特徴量選択 (Feature Selection) してみる。 教師データの中には、モデルの性能に寄与しない特徴量が含まれている場合がある。 アルゴリズムがノイズに対して理想的にロバストであれば、有効な特徴量だけを読み取って学習するため特徴量選択は不要か... 続きを読む
Python: IsolationForest で教師なし学習の外れ値検知を試す - CUBE SUGAR CONTAINER
今回は教師なし学習で外れ値の検知に使える IsolationForest というアルゴリズムを試してみる。 このアルゴリズムの興味深いところは、教師データの中にある程度外れ値が含まれていても構わないという点。 つまり、アノテーションしていないデータをそのまま突っ込むことが許容されている。 IsolationForest のアルゴリ... 続きを読む
pythonでgensim+scikit-learnを使って文書分類してみた
はじめに 文書分類をしたくなったが、fasttextによる自動分類が思ったように上手くいかなかった その理由は教師データの件数が少なかったかもしれないと考えた 少ない教師データでも上手くいく自動分類が欲しい 少し調べてみたら、gensim+scikit-learnでも分類できそうなので、そちらも試すことにした 前提 Windows 10 p... 続きを読む
横浜銀行が人工知能で新卒採用の書類を選考、教師データは過去のエントリーシート:新卒採用でAI活用 - @IT
横浜銀行は、2019年度の新卒選考に人工知能を採用する。専門家が自己の経験に基づいて重要と感じ取る「暗黙知」や「感覚」を学習可能な、FRONTEOの人工知能エンジン「KIBIT」を活用する。 FRONTEOは2018年4月5日、同社の人工知能(AI)エンジン「KIBIT」が横浜銀行の新卒選考に採用されたと発表した。横浜銀行は、2019年度新卒採用のエントリーシート選考に活用する。 横浜銀行では、2... 続きを読む
Google、プログラミングができなくてもAIツールを作れる「AutoML」のα版提供開始 - ITmedia エンタープライズ
Googleが、少量の教師データをアップロードして転移学習させるだけでAIツールを構築できる「Cloud AutoML」を発表した。まずは画像認識向けの「AutoML Vision」のα版を提供開始する。 米Googleは1月17日(現地時間)、コーディングの知識がなくてもデータがあれば人工知能(AI)ツールを構築できるサービス「Cloud AutoML」を発表した。まずは画像認識に最適化したサー... 続きを読む
ディープラーニングを使ってドット絵を画像に変換してみた - karaage. [からあげ]
2017 - 12 - 18 ディープラーニングを使ってドット絵を画像に変換してみた 人工知能 python ディープラーニングで新しい画像変換 数ヶ月前ですがディープラーニングの分野で「pix2pix」という技術が話題になりました。これは簡単に言うと画像フィルタを入力画像と出力画像のペア(教師データ)だけから自動で生成してくれる技術です。詳細は、以下の記事や 元の論文 を参照下さい。 pix2p... 続きを読む
人工知能のパーソナルスタイリスト『Riko』が着こなし提案をしてくれる! LINEアカウントにて提供開始 - 株式会社ニューロープ|株式会社ニューロープのプレスリリース
ファッションベンチャーの㈱ニューロープは、着こなしの解説を丁寧にしてくれるパーソナルスタイリストのRikoと、コーディネート提案をしてくれるショップ店員のMikaをLINE上でリリースしました。 どなたでも、LINEで友達申請をするだけで、無料でご利用いただけます。 いずれも人工知能で、ニューラルネットワークに基づき、約100万枚のファッションスナップを教師データとしています。 丁寧に着こなしを解... 続きを読む
ファッションコーデを解析したがる人工知能『ファッションおじさん』をリリース - 株式会社ニューロープ|株式会社ニューロープのプレスリリース
ファッションベンチャーの㈱ニューロープは、ファッションを自動で解析する人工知能『ファッションおじさん』をリリースしました。 LINEでファッションおじさんに友達申請をしてチャットにファッションスナップを投稿すると、全力で解析。着こなし術や類似商品を案内してくれます。 ファッションおじさんはニューラルネットワークに基づき、約100万枚のファッションスナップを教師データとしてこれまで学習に励んできまし... 続きを読む
富士通、少数データで効率よく学習できる深層学習技術--中国古文書文字で成果 - CNET Japan
富士通研究開発中心(FRDC)は2月21日、中国古文書文字の文字認識において、少数の学習データでも高精度な文字認識を実現する深層学習技術を開発したと発表した。 同技術は、古文書の文字画像と文字を紐づけたデータ(教師データ)で学習させる深層学習の認識エンジンと、文字とは紐づけられていない2つの文字画像が、同じ文字かどうか特徴を学習する深層学習エンジンを組み合わせたもの。一文字当たり約70%少ない教師... 続きを読む
Rubyとか使ってクローリングやスクレイピングするノウハウを公開してみる! - 病みつきエンジニアブログ
2013-12-31 Rubyとか使ってクローリングやスクレイピングするノウハウを公開してみる! 今まで何度もスクレイピングとかクローリングをしてきたので、マエショリストの端くれとしてコツを公開すべきかなあ、と思い、公開します。 今日の題材は、CNET Newsです。私はウェブ文書にタグ付けをするという研究をしているのですが、そのための教師データとしてクローリングをします。 photo by Se... 続きを読む
Active Learning を試す(Uncertainly Sampling 編) - Mi manca qualche giovedi`?
機械学習, 能動学習教師あり学習の教師データの作成はとても大変。例えば、twitter 言語判定のために、訓練・テストデータあわせて70万件のツイートに言語ラベルを振った人もいたりいなかったり。 Active Learning(能動学習) はそんな教師データ作成のコストを抑えながらモデルの性能向上を測るアプローチの1つ。具体的には、正解なしデータの中から「こいつの正解がわかれば、モデルが改善する」... 続きを読む