タグ nokuno
人気順 5 users 10 users 100 users 500 users 1000 usersテキストファイルを処理するときのUnixコマンドまとめ - nokunoの日記
個人的にテキストファイルを処理することが多いのですが,簡単な処理ならUnixのコマンドをパイプとリダイレクトで組み合わせてできることが多くあります.今回はそんななかでもちょっとマニアックなTIPSをまとめてみました. sortコマンドでタブ区切りのファイルを指定する最近知って驚愕したのがこれ.sortコマンドでタブ区切りのファイルを指定したいときは,Ctrl+v Tabでタブ文字を入力していたので... 続きを読む
米スタンフォード大が機械学習と人工知能に続き,自然言語処理と確率モデルの講義を一般公開 - nokunoの日記
表題の通り,米スタンフォード大が自然言語処理と確率モデルの講義のオンライン公開を始めるようです.Natural Language ProcessingProbabilistic Graphical ModelsNLPを担当するManning先生は,この分野では知らぬものはいない教科書「Foundation of Statistical Natural Language Processing」の著者... 続きを読む
自然言語処理における「全部入り」パッケージ - nokunoの日記
以下のエントリの翻訳です.End-to-end NLP packages | AI and Social Science – Brendan O'Connor無料で手に入る全部入りの自然言語処理(Natural Language Processing; NLP)システムにはどんなものがあるだろうか? ここでいう全部入りとはつまり,生のテキストから始めて,構文解析や意味的構造を出力するもののことを指... 続きを読む
論文の読み方 - nokunoの日記
id:echizen_tmさんの良エントリに触発されて書いてみます.未知の分野の論文を読むときの10のポイント - EchizenBlog-Zwei基本的には私もid:echizen_tmさんの書いた10のポイントに沿った読み方をしています.ひとつ付け加えるなら,論文を調べる前にやるべきことがあるケースについて.0. 論文を読む前に定番の書籍(技術書・教科書)がある場合はそちらを先に読む.実装より... 続きを読む
自然言語処理にはやっぱりPythonがいちばん - nokunoの日記
Quoraで「自然言語処理に適したプログラミング言語はどれか?」という質問をしたところ,やっぱりPythonが一番人気のようです.What programming language is suitable for natural language processing? - Quora理由として以下が挙げられていますNLTKがあるから正規表現ライブラリ(re)が強力だからnumpyとscipyがあ... 続きを読む
情報系の学生がやっておくべき10000のこと - nokunoの日記
「情報系の学生がやっておくべき10000のこと」というタイトルの記事があったので、何事かと思いました。10000 things all ICS students should do before graduating | Tagide10000個もあるのか…とびっくりしましたが、よく読むと2進数で書かれていて、16個という意味でした。内容もとても良いことを言っていると思うので、簡単に紹介してみます... 続きを読む
Hadoopを使ってTwitterやFacebook上での「影響力」を数値化するには - nokunoの日記
Hadoopを使ってTwitterやFacebook上での「影響力」を数値化しているKloutというサービスがあるそうです。大変興味深かったので翻訳してみました。元記事のCloudera社とKout社の許可を頂いて掲載しています(@shiumachiさん、ありがとうございます!) Using Hadoop to Measure Influence | Apache Hadoop for the E... 続きを読む
Pig, Hiveなど8種類のMapReduce言語についての比較 - nokunoの日記
以下の記事ではPig, Hiveなど8種類の言語でMapReduceの一番単純な例、WordCountを記述した場合のスクリプトの比較を行っています。とても興味深かったので紹介したいと思います。Pigs, Bees, and Elephants: A Comparison of Eight MapReduce Languages « Dataspora なお、今回はRSS購読しているDataSpo... 続きを読む
TwitterにおけるHadoopとLuceneを利用した大規模データ解析について - nokunoの日記
Twitterについては先日の記事でフロントエンドのBlenderを紹介しましたが、バックエンドやデータ解析のシステムにも興味があります。ちょうどData-Intensive Text Processing with MapReduceで有名な@lintool先生の新しい論文が公開されていたので読んでみました。Full-Text Indexing for Optimizing Selection ... 続きを読む
【これはすごい】Twitter検索を3倍高速化した記事の翻訳 - nokunoの日記
これはすごい! というわけでTwitter検索を3倍高速化したという記事を翻訳してみました。Twitter Engineering: Twitter Search is Now 3x Faster2010年春。Twitterの検索チームは、我々の増え続けるトラフィックに対応し、エンドユーザにとっての遅延を減らし、我々のサービスの可用性を向上させ、新しい検索の機能を素早く開発できるようにするため、検... 続きを読む
Facebookの新しいリアルタイム解析システムとは? - nokunoの日記
Facebookの新しいリアルタイム解析のシステムでは、HBaseで1日200億件のイベントを処理しているそうです。以下の記事の翻訳です。High Scalability - High Scalability - Facebook’s New Realtime Analytics System: HBase to Process 20 Billion Events Per DayFacebookが... 続きを読む
Hadoop Conference Japanに参加しました #hcj2011 - nokunoの日記
というわけでHadoop Conference Japanに参加しました。Hadoop Conference Japan 2011会場は豊洲のNTTデータ本社で、初めて来たのですが駅前の広場が楽天のある品川シーサイドと全く同じでびっくりしました。 『Hadoop on クラウド / Amazon Elastic MapReduceの真価』(Amazon Web Services, Jeff Bar... 続きを読む
第1回にこにこテキストマイニング勉強会に参加しました #nicotextmining - nokunoの日記
というわけで参加してきました。第1回 にこにこテキストマイニング勉強会 : ATND 目的テキストマイニングについての学習のスタートアップテキストマイニング技術に関して気軽に参加・議論することができる場の提供 概要テキストマイニングとは、例えば製品の評判をweb上のテキストから抽出したり、大量のアンケートテキストを分析するために用いられる技術であり、特にマーケティングの場で多くの利用例があります。... 続きを読む
次世代Hadoopは10,000台にスケールアウトし、MapReduce以外のフレームワークをもサポートする - nokunoの日記
Yahoo!のブログにHadoopに関する興味深い記事が上がっていたので紹介したいと思います。かなりボリュームのある記事で翻訳するのは骨が折れました。The Next Generation of Apache Hadoop MapReduce · Yahoo! Hadoop Blog原題はシンプルに「次世代のApache Hadoop MapReduce」です。 概要大規模データを扱うビジネスでは... 続きを読む
Googleのエンジニアに必要とされるスキルセットは何か? - nokunoの日記
以下のQuoraの翻訳です。この質問に対して、秘密主義で知られるGooglerたちが答えているのがいいですね。What are the skill-sets needed to be a Google Engineer? - QuoraGoogleのエンジニアに必要とされるスキルセットは何か? 回答1ほとんどのプログラマはブラックボックスを使用しています。データベースはブラックボックスです:SQL... 続きを読む
Quoraを支える技術 - nokunoの日記
勉強になる記事を見つけたので気になったところを翻訳してみました。Quora’s Technology Examined | Phil Whelan's Blog はじめにQuoraはハイテク起業家の世界を体現しており、問題を見つけるのが難しいほどなめらかなシステムを提供している。この巧妙なシステムは回答者と質問者だけに支えられているわけではなく、よく練られたバックエンドシステムによっても支えられて... 続きを読む
そろそろHadoopについてひとこと言っておくか - nokunoの日記
もうこの手の話題は出尽くした感がありますが、最近Hadoopについて考えることが多いので、エントリにしてみます。なお、ここではベーシックなMapReduce+HDFSのことをHadoopと呼ぶことにします。 HadoopとはHadoopとは言わずと知れたGoogleのMapReduce/GFSのオープンソースのクローンです。MapReduceではプログラマはMapとReduceという2つの関数を書... 続きを読む
エンジニアの英語勉強法 - nokunoの日記
エンジニアの、というほど特化しているわけではありませんが、昨日のエントリに英語のことを少し書いたら英語の勉強法について書きたくなったので、まとめてみました。Smart.fm - 世界最大級英語学習コミュニティーサイトPC上で単語の学習ができます。iTunesに無料のPodcastもあり、電車の中などで勉強するのにオススメです。英会話ならオンライン英会話のレアジョブSkypeで英会話のレッスンを受け... 続きを読む
統計的自然言語処理エンジンStaKK - nokunoの日記
統計的自然言語処理エンジンStaKK を開発しました。nokuno’s stakk at master - GitHub 以下、READMEからの引用です。 現在の機能 かな漢字変換 予測変換 または サジェスト スペル訂正 形態素解析 HTTPによるAPIサーバ Trieの直接操作現在は、StaKK は辞書として Mozc (Google日本語入力のOSS版)のデータを使っています。 リバースモ... 続きを読む
nokunoの日記
nokuno Software Engineer at a Web Company. Interested in Natural Language Processing, Machine Learning, and Data Mining. Skillful in C/C++, Python, and Hadoop. 続きを読む
「Googleを支える技術」に載っていない日本語検索エンジンの技術 - nokunoの日記
Web検索エンジンは、大きく分けて次の2つからなります。利用者からのクエリーを直接受ける検索サーバ検索サーバから利用されるインデックス世界中のWebサイトを集めてきて解析し、インデックスに登録するクローラインデックスというのは、利用者から検索される単語をあらかじめ列挙しておいて、単語からWebサイトのURLを引くのに必要なデータ構造のことです。検索エンジンはGoogleを支える技術にあるように、「... 続きを読む