タグ 索引化
人気順 10 users 50 users 100 users 500 users 1000 users米国議会図書館が機械学習で300年ぶんの新聞の画像を抽出し検索可能に | TechCrunch Japan
昔の事件や人々に関する記録に関心のある歴史家たちは、かつては古い新聞の目録カードをかき分けていたが、次にマイクロフィルムをスキャンするようになり、やがてデジタルリストを検索するようになった。だが現代の技術は、個々の単語や写真に至るまで索引化を可能にした。米国議会図書館では、最新鋭の機械学習を使っ... 続きを読む
簡単なトライ - LINE ENGINEERING
これはLINE Advent Calendar 2018の14日目の記事です。 LINEの上村です。今日は文字列です。 はじめに トライ (trie)は文字列の集合を索引化し高速な検索を可能にするデータ構造であり、領域効率や高速性を向上させた多様なアルゴリズムが提案され種々の実装が公開されています。 IPアドレスの検索、形態素解析器におけ... 続きを読む
文法圧縮に基づく高速クエリー検索法に関する論文を公開しました - tb_yasuの日記
今年の実験的アルゴリズムに関する国際会議SEA2014に採択された論文をarxivにて公開しました。内容は文法圧縮の索引化に基づく高速クエリー検索です。Yoshimasa Takabatake, Yasuo Tabei, Hiroshi Sakamoto: Improved ESP-index: a practical self-index for highly repetitive texts,... 続きを読む
おーい、Google! Twitterがリンク先も索引化し始めるぞ
Twitter検索がTwitterの中でもっとも将来有望な機能であるのは間違いない。ユーザーはつまらない日常生活について投稿する。企業サイトにリンクしたりセレブをフォローしたりもする。しかしそれらはみな小さな問題だ。Twitterの本当の重要性は全体としての巨大なデータ量だ。GoogleやもしかするとAppleその他の有力プレイヤーがTwitterに興味を示す本当の理由はそこにある。一部の人はそう... 続きを読む