はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ nokuno

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 25 / 59件)

nokunoの日記

2010/10/26 このエントリーをはてなブックマークに追加 1261 users Instapaper Pocket Tweet Facebook Share Evernote Clip 日記

nokuno Software Engineer at a Web Company. Interested in Natural Language Processing, Machine Learning, and Data Mining. Skillful in C/C++, Python, and Hadoop. 続きを読む

テキストファイルを処理するときのUnixコマンドまとめ - nokunoの日記

2012/01/21 このエントリーをはてなブックマークに追加 555 users Instapaper Pocket Tweet Facebook Share Evernote Clip UNIX sortコマンド Tips リダイレクト タブ区切り

個人的にテキストファイルを処理することが多いのですが,簡単な処理ならUnixのコマンドをパイプとリダイレクトで組み合わせてできることが多くあります.今回はそんななかでもちょっとマニアックなTIPSをまとめてみました. sortコマンドでタブ区切りのファイルを指定する最近知って驚愕したのがこれ.sortコマンドでタブ区切りのファイルを指定したいときは,Ctrl+v Tabでタブ文字を入力していたので... 続きを読む

エンジニアの英語勉強法 - nokunoの日記

2010/12/30 このエントリーをはてなブックマークに追加 528 users Instapaper Pocket Tweet Facebook Share Evernote Clip Podcast エントリ iTunes Smart.fm 単語

エンジニアの、というほど特化しているわけではありませんが、昨日のエントリに英語のことを少し書いたら英語の勉強法について書きたくなったので、まとめてみました。Smart.fm - 世界最大級英語学習コミュニティーサイトPC上で単語の学習ができます。iTunesに無料のPodcastもあり、電車の中などで勉強するのにオススメです。英会話ならオンライン英会話のレアジョブSkypeで英会話のレッスンを受け... 続きを読む

【これはすごい】Twitter検索を3倍高速化した記事の翻訳 - nokunoの日記

2011/04/19 このエントリーをはてなブックマークに追加 281 users Instapaper Pocket Tweet Facebook Share Evernote Clip エンドユーザ トラフィック twitter検索 遅延 翻訳

これはすごい! というわけでTwitter検索を3倍高速化したという記事を翻訳してみました。Twitter Engineering: Twitter Search is Now 3x Faster2010年春。Twitterの検索チームは、我々の増え続けるトラフィックに対応し、エンドユーザにとっての遅延を減らし、我々のサービスの可用性を向上させ、新しい検索の機能を素早く開発できるようにするため、検... 続きを読む

そろそろHadoopについてひとこと言っておくか - nokunoの日記

2011/01/03 このエントリーをはてなブックマークに追加 279 users Instapaper Pocket Tweet Facebook Share Evernote Clip Hadoop GFS reduce ひとこと クローン

もうこの手の話題は出尽くした感がありますが、最近Hadoopについて考えることが多いので、エントリにしてみます。なお、ここではベーシックなMapReduce+HDFSのことをHadoopと呼ぶことにします。 HadoopとはHadoopとは言わずと知れたGoogleのMapReduce/GFSのオープンソースのクローンです。MapReduceではプログラマはMapとReduceという2つの関数を書... 続きを読む

自然言語処理にはやっぱりPythonがいちばん - nokunoの日記

2011/08/20 このエントリーをはてなブックマークに追加 266 users Instapaper Pocket Tweet Facebook Share Evernote Clip Processing Python Quora NLTK 日記

Quoraで「自然言語処理に適したプログラミング言語はどれか?」という質問をしたところ,やっぱりPythonが一番人気のようです.What programming language is suitable for natural language processing? - Quora理由として以下が挙げられていますNLTKがあるから正規表現ライブラリ(re)が強力だからnumpyとscipyがあ... 続きを読む

「Googleを支える技術」に載っていない日本語検索エンジンの技術 - nokunoの日記

2008/05/02 このエントリーをはてなブックマークに追加 222 users Instapaper Pocket Tweet Facebook Share Evernote Clip クエリー インデックス 単語 Google データ構造

Web検索エンジンは、大きく分けて次の2つからなります。利用者からのクエリーを直接受ける検索サーバ検索サーバから利用されるインデックス世界中のWebサイトを集めてきて解析し、インデックスに登録するクローラインデックスというのは、利用者から検索される単語をあらかじめ列挙しておいて、単語からWebサイトのURLを引くのに必要なデータ構造のことです。検索エンジンはGoogleを支える技術にあるように、「... 続きを読む

情報系の学生がやっておくべき10000のこと - nokunoの日記

2011/06/30 このエントリーをはてなブックマークに追加 204 users Instapaper Pocket Tweet Facebook Share Evernote Clip 何事 タイトル 意味 内容 16個

「情報系の学生がやっておくべき10000のこと」というタイトルの記事があったので、何事かと思いました。10000 things all ICS students should do before graduating | Tagide10000個もあるのか…とびっくりしましたが、よく読むと2進数で書かれていて、16個という意味でした。内容もとても良いことを言っていると思うので、簡単に紹介してみます... 続きを読む

Facebookの新しいリアルタイム解析システムとは? - nokunoの日記

2011/03/24 このエントリーをはてなブックマークに追加 199 users Instapaper Pocket Tweet Facebook Share Evernote Clip Facebook HBase 翻訳 システム 以下

Facebookの新しいリアルタイム解析のシステムでは、HBaseで1日200億件のイベントを処理しているそうです。以下の記事の翻訳です。High Scalability - High Scalability - Facebook’s New Realtime Analytics System: HBase to Process 20 Billion Events Per DayFacebookが... 続きを読む

統計的自然言語処理エンジンStaKK - nokunoの日記

2010/11/23 このエントリーをはてなブックマークに追加 175 users Instapaper Pocket Tweet Facebook Share Evernote Clip README GitHub Mozc サジェスト http

統計的自然言語処理エンジンStaKK を開発しました。nokuno’s stakk at master - GitHub 以下、READMEからの引用です。 現在の機能 かな漢字変換 予測変換 または サジェスト スペル訂正 形態素解析 HTTPによるAPIサーバ Trieの直接操作現在は、StaKK は辞書として Mozc (Google日本語入力のOSS版)のデータを使っています。 リバースモ... 続きを読む

米スタンフォード大が機械学習と人工知能に続き,自然言語処理と確率モデルの講義を一般公開 - nokunoの日記

2011/11/18 このエントリーをはてなブックマークに追加 171 users Instapaper Pocket Tweet Facebook Share Evernote Clip 表題 スタンフォード大 著者 分野 教科書

表題の通り,米スタンフォード大が自然言語処理と確率モデルの講義のオンライン公開を始めるようです.Natural Language ProcessingProbabilistic Graphical ModelsNLPを担当するManning先生は,この分野では知らぬものはいない教科書「Foundation of Statistical Natural Language Processing」の著者... 続きを読む

Quoraを支える技術 - nokunoの日記

2011/02/03 このエントリーをはてなブックマークに追加 162 users Instapaper Pocket Tweet Facebook Share Evernote Clip Quora バックエンドシステム 勉強 技術 システム

勉強になる記事を見つけたので気になったところを翻訳してみました。Quora’s Technology Examined | Phil Whelan's Blog はじめにQuoraはハイテク起業家の世界を体現しており、問題を見つけるのが難しいほどなめらかなシステムを提供している。この巧妙なシステムは回答者と質問者だけに支えられているわけではなく、よく練られたバックエンドシステムによっても支えられて... 続きを読む

第1回にこにこテキストマイニング勉強会に参加しました #nicotextmining - nokunoの日記

2011/02/19 このエントリーをはてなブックマークに追加 125 users Instapaper Pocket Tweet Facebook Share Evernote Clip 日記

というわけで参加してきました。第1回 にこにこテキストマイニング勉強会 : ATND 目的テキストマイニングについての学習のスタートアップテキストマイニング技術に関して気軽に参加・議論することができる場の提供 概要テキストマイニングとは、例えば製品の評判をweb上のテキストから抽出したり、大量のアンケートテキストを分析するために用いられる技術であり、特にマーケティングの場で多くの利用例があります。... 続きを読む

Hadoop Conference Japanに参加しました #hcj2011 - nokunoの日記

2011/02/22 このエントリーをはてなブックマークに追加 90 users Instapaper Pocket Tweet Facebook Share Evernote Clip 真価 豊洲 品川シーサイド Jeff Bar 広場

というわけでHadoop Conference Japanに参加しました。Hadoop Conference Japan 2011会場は豊洲のNTTデータ本社で、初めて来たのですが駅前の広場が楽天のある品川シーサイドと全く同じでびっくりしました。 『Hadoop on クラウド / Amazon Elastic MapReduceの真価』(Amazon Web Services, Jeff Bar... 続きを読む

次世代Hadoopは10,000台にスケールアウトし、MapReduce以外のフレームワークをもサポートする - nokunoの日記

2011/02/15 このエントリーをはてなブックマークに追加 88 users Instapaper Pocket Tweet Facebook Share Evernote Clip フレームワーク スケール 次世代Hadoop 日記

Yahoo!のブログにHadoopに関する興味深い記事が上がっていたので紹介したいと思います。かなりボリュームのある記事で翻訳するのは骨が折れました。The Next Generation of Apache Hadoop MapReduce · Yahoo! Hadoop Blog原題はシンプルに「次世代のApache Hadoop MapReduce」です。 概要大規模データを扱うビジネスでは... 続きを読む

TwitterにおけるHadoopとLuceneを利用した大規模データ解析について - nokunoの日記

2011/04/20 このエントリーをはてなブックマークに追加 82 users Instapaper Pocket Tweet Facebook Share Evernote Clip Twitter Hadoop Lucene Blender

Twitterについては先日の記事でフロントエンドのBlenderを紹介しましたが、バックエンドやデータ解析のシステムにも興味があります。ちょうどData-Intensive Text Processing with MapReduceで有名な@lintool先生の新しい論文が公開されていたので読んでみました。Full-Text Indexing for Optimizing Selection ... 続きを読む

論文の読み方 - nokunoの日記

2011/09/05 このエントリーをはてなブックマークに追加 74 users Instapaper Pocket Tweet Facebook Share Evernote Clip echizen_tm 未知 良エントリ 実装 分野

id:echizen_tmさんの良エントリに触発されて書いてみます.未知の分野の論文を読むときの10のポイント - EchizenBlog-Zwei基本的には私もid:echizen_tmさんの書いた10のポイントに沿った読み方をしています.ひとつ付け加えるなら,論文を調べる前にやるべきことがあるケースについて.0. 論文を読む前に定番の書籍(技術書・教科書)がある場合はそちらを先に読む.実装より... 続きを読む

Hadoopを使ってTwitterやFacebook上での「影響力」を数値化するには - nokunoの日記

2011/05/22 このエントリーをはてなブックマークに追加 63 users Instapaper Pocket Tweet Facebook Share Evernote Clip Twitter Hadoop Klout Facebook上

Hadoopを使ってTwitterやFacebook上での「影響力」を数値化しているKloutというサービスがあるそうです。大変興味深かったので翻訳してみました。元記事のCloudera社とKout社の許可を頂いて掲載しています(@shiumachiさん、ありがとうございます!) Using Hadoop to Measure Influence | Apache Hadoop for the E... 続きを読む

Pig, Hiveなど8種類のMapReduce言語についての比較 - nokunoの日記

2011/04/28 このエントリーをはてなブックマークに追加 57 users Instapaper Pocket Tweet Facebook Share Evernote Clip Pig Hive MapReduce スクリプト 言語

以下の記事ではPig, Hiveなど8種類の言語でMapReduceの一番単純な例、WordCountを記述した場合のスクリプトの比較を行っています。とても興味深かったので紹介したいと思います。Pigs, Bees, and Elephants: A Comparison of Eight MapReduce Languages « Dataspora なお、今回はRSS購読しているDataSpo... 続きを読む

自然言語処理における「全部入り」パッケージ - nokunoの日記

2011/09/19 このエントリーをはてなブックマークに追加 53 users Instapaper Pocket Tweet Facebook Share Evernote Clip NLP End-to-End エントリ 構文解析 テキスト

以下のエントリの翻訳です.End-to-end NLP packages | AI and Social Science – Brendan O'Connor無料で手に入る全部入りの自然言語処理(Natural Language Processing; NLP)システムにはどんなものがあるだろうか? ここでいう全部入りとはつまり,生のテキストから始めて,構文解析や意味的構造を出力するもののことを指... 続きを読む

Googleのエンジニアに必要とされるスキルセットは何か? - nokunoの日記

2011/02/10 このエントリーをはてなブックマークに追加 51 users Instapaper Pocket Tweet Facebook Share Evernote Clip スキルセット Quora SQL プログラマ データベース

以下のQuoraの翻訳です。この質問に対して、秘密主義で知られるGooglerたちが答えているのがいいですね。What are the skill-sets needed to be a Google Engineer? - QuoraGoogleのエンジニアに必要とされるスキルセットは何か? 回答1ほとんどのプログラマはブラックボックスを使用しています。データベースはブラックボックスです:SQL... 続きを読む

本当に必要なN-gramは2割しかない - nokunoの日記

2011/09/14 このエントリーをはてなブックマークに追加 48 users Instapaper Pocket Tweet Facebook Share Evernote Clip 語彙 N-gram 頻度 規模 性能

Entropy-based Pruning of Backoff Language Modelsを読んだ.単語N-gramはとてもよくできていて言語モデルとしての性能はかなりのものなのだが,なんの枝刈りもせずに中規模〜大規模なデータに適用しようとするとサイズが馬鹿でかくなってしまう.そのための対策としてよくあるのが語彙のサイズを制限する方法と,N-gramの頻度が一定以下のものを切り捨てるという方... 続きを読む

第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)−1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り− - nokunoの日記

2011/02/27 このエントリーをはてなブックマークに追加 43 users Instapaper Pocket Tweet Facebook Share Evernote Clip 双方向 抜粋 議論 進行 パターン

第10回#TokyoWebminingに参加してきました。第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)?1st... - Eventbrite オープニング @hamadakoichihamadaさんの話はHadoopカンファレンスからの抜粋を含んでいたのですが、いつもの双方向の進行により議論が進み、時間が伸びるというパターンで安心しましたw 1... 続きを読む

第7回自然言語処理勉強会を開催しました #ToyoNLP - nokunoの日記

2011/09/10 このエントリーをはてなブックマークに追加 41 users Instapaper Pocket Tweet Facebook Share Evernote Clip ATND TokyoNLP ジャイアン カーネル ECナビさん

第7回自然言語処理勉強会を開催しました.会場をご提供いただいた@ajiyoshiさんとECナビさん,発表者の皆様,参加していただいた皆様,ありがとうございました&お疲れ様でした.第7回自然言語処理勉強会 #TokyoNLP : ATND きれいなジャイアンのカカカカ☆カーネル法入門-C++ by @sleepy_yoshiさん 自己紹介 本日の内容 オンライン学習でカーネルを使う方法を紹介 本日の... 続きを読む

第3回さくさくテキストマイニング勉強会に参加しました #sakuTextMining - nokunoの日記

2011/06/04 このエントリーをはてなブックマークに追加 40 users Instapaper Pocket Tweet Facebook Share Evernote Clip 日記

というわけで参加してきました。会場は数理システムさんです。第3回 さくさくテキストマイニング勉強会 : ATND 入門セッション(AntiBayesian)第三回さくさくテキストマイニング勉強会 入門セッション View more presentations from AntiBayesian 単語重要度入門 〜テキストをダイエットさせよう〜( toilet_lunch ) TF*IDFの話 えっ... 続きを読む

 
(1 - 25 / 59件)