タグ 形態素
人気順 5 users 10 users 50 users 500 users 1000 users技術書で平成30年間を振り返ろう。平成技術書史まとめ。 - omuriceman blog
令和明けましておめでとうございます。新元号になっていかがお過ごしでしょうか。 振り返ってみると平成はITの時代と言っても過言ではなかったでしょう。 今回平成30年間の技術書を年間別にピックアップして形態素解析してみました。各年ごとの技術系のトピックとともに振り返って行きたいと思います。 (「その当時売れ... 続きを読む
MeCabをブーストさせよう - Qiita
はじめに MeCabとは日本語の形態素解析器をいいます。ここで、形態素というのは言語で意味を持つ最小単位のことです。分割された単語をベクトル化したり、各語彙の頻度を調べたりするために、最小単位に分割するモチベーションが生じます。 そもそもなぜ、形態素解析なんかやるの?っていう動機については、 http://qiita.com/Hironsan/items/2466fe0f344115aff177 ... 続きを読む
日本語形態素解析の裏側を覗く!MeCab はどのように形態素解析しているか - クックパッド開発者ブログ
こんにちは、買物情報事業部の荒引 ( @a_bicky ) です。 前回、 「検索結果の疑問を解消するための検索の基礎」 で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。 形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単... 続きを読む
日本語解析API、「gooラボ」で公開 形態素解析やひらがな化など - ITmedia ニュース
NTTレゾナントは12月3日、日本語解析技術に関するAPIを「gooラボ」で公開した。NTT研究所が開発し、長年「goo」で利用してきたAPIで、自社コンテンツを提供する企業やビッグデータ解析技術を求める企業などでの活用を想定している。 公開したのは、文字列を形態素に分割する「形態素解析」、2つの語句の類似度合いを算出する「語句類似度算出」、文字列から人名や地名、組織名などを抽出する「固有表現抽出... 続きを読む
【研究ノート】「ドラゴンクエスト」シリーズにおける呪文名の形態論的記述に向けて - 思索の海
0. はじめに*1 本稿は「ドラゴンクエスト」シリーズにおける呪文名に対する形態論的な観点からの記述の準備として、記述方法や論点、重要なデータの整理を行い、議論の足がかりを作ることを目的とする。従って全ての呪文名を取り上げることはせず、形態論的な派生関係や接辞類の考察に有用だと考えられる呪文名を主に取り扱う。また、各語彙/形態素の由来・語源は考察対象としない。 できるだけ多くの現象・論点に言及しよ... 続きを読む
単語と文字の話 : Preferred Research
4月からPFIで働いてます。海野です。 今日は単語の話をします。読み物的な話なので軽く読んでください。 テキストデータなどの自然文を機械処理するときには、まず最初に単語に分割するということをよく行います。一般的にはMeCabやChasenといった形態素解析エンジンに投げて行います。形態素と単語の区別という話もあるのですが、ここでは大雑把に「連続した文字列の単位」くらいの意味で話します。 検索という... 続きを読む