タグ Hive
新着順 10 users 50 users 100 users 500 users 1000 users無料、しかも容量無制限のスレトレージ「Hive」、間もなくiOSアプリも | Techable(テッカブル)
写真やビデオ、書類などの保管にクラウドストレージサービスを利用している人も多いだろう。代表的なものにDropboxやBoxなどがあるが、有料のストレージが多い中、無料で容量制限なしに使えるのが「Hive」だ。 ・有料版は広告フリーに Hiveはメールアドレスなどでアカウントを作成するとすぐに無料でストレージを使えるようになる。容量制限なしという太っ腹のサービスだが、ただし1カ月あたり50GBまで、... 続きを読む
Facebook、分散SQLエンジン「Presto」公開。大規模データをMapReduce/Hiveの10倍効率よく処理すると - Publickey
Facebookは、数ペタバイト級の大規模データに対しても、対話的にアドホックな問い合わせを可能にする分散SQLエンジン「Presto」を、オープンソースで公開しました。 PrestoはFacebook社内で大規模データの分析のために開発され、すでに同社社内使われているもの。 FacebookはPrestoを開発した背景として、大量のデータをHadoop/HDFSベースで保存したものの、バッチ指向... 続きを読む
無料で無制限に写真・音楽・動画・文書を保存&ストリーミング再生可能なオンラインストレージ「Hive」 - GIGAZINE
デジカメやスマートフォンなどの写真や動画、ネットで保存した画像や、好きな音楽のMP3ファイル、学校や仕事で作成したドキュメントファイルなどなど、容量を圧迫するファイルは知らない内にどんどん増えてしまうもの。そんな「残しておきたいもの」から「削除しても良いか分からないもの」まで、ありとあらゆるファイルを無料かつ容量無制限でブラウザアプリからアップロードしまくれる上に、保存したファイルをストリーミング... 続きを読む
単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース - 銀座で働くデータサイエンティストのブログ
一般に、データ分析の大半はそれほど高度なテクニックの類を必要としないものです。僕も常日頃から口に出して言うことが多いんですが、「統計学だの機械学習だのの出番なんてそもそも少なくて当たり前」。工数もかかるし、できればやらない方が良いです。ぶっちゃけ単純な四則演算で十分なケースの方が多数派でしょう。 なので、普段はDB上でSQL(というかHiveなど)でサクッと四則演算だけで集計処理を済ませてしまって... 続きを読む
バッチ処理、ジョブ管理について書いてみる - wyukawa’s blog
Azkaban, 技術僕はHive, Pythonでバッチ処理を書いてAzkabanでジョブ管理するシステムを構築、運用した経験が2年ほどあるので今日はバッチ処理、ジョブ管理について書いてみようと思います。僕の経験上Hadoop特有の部分、例えばテスト環境が作りづらいとかバッチサーバーはジョブをsubmitするだけなので負荷はそんなにかからないとか、はあるけれど割と汎用的なのではないかと思います。... 続きを読む
無料でストレージ容量無制限のクラウドストレージサービス「Hive」がスタート、Androidアプリも後日リリース予定 | juggly.cn
世の中には様々なクラウドストレージサービスが存在しますが、最近「Hive」と呼ばれる無料アカウントなのにストレージ容量が無制限という新サービスがローンチしました。 Hive は香港のスタートアップが運営しているクラウドストレージサービスで、現在はベータ版として一般公開されています。 このサービスの特徴は、無料でいきなりストレージ容量が無制限という点です。Hive はそもそもストレージ容量で収益を上... 続きを読む
HRForecast - もうひとつのデータビジュアライズツール - blog.nomadscafe.jp
ずいぶん前から作って動かしてはいるのですが、GrowthForecastの他にもうひとつのグラフ作成ツールを公開しています。 https://github.com/kazeburo/HRForecast デイリーで更新される数値のビジュアライズに使う事が出来ます。GrowthForecastにはない過去データの登録もできます。 モリスさんのスライドでも少し登場しています。弊社では主にHiveでの集... 続きを読む
Logをs3とredshiftに格納する仕組み
Statistics Likes 0 Downloads 0 Comments 0 Embed Views 0 Views on SlideShare 0 Total Views 0 Logをs3とredshiftに格納する仕組み Presentation Transcript LogをS3と Hive Redshi/ に 格納する仕組み 2013年5月22日 株式会社ゆめみ 森下 健 ... 続きを読む
SQLite + Pythonユーザ定義関数組込で進捗ダメじゃないですになりました - あんちべ!
2013-12-17 SQLite + Pythonユーザ定義関数組込で進捗ダメじゃないですになりました 概要 これまで「Hiveからデータ取得・簡単な加工→Pythonで加工・分析」 という流れで作業していたのですが、 Hive→SQLite→Pythonという流れにしたところ進捗が改善されたので、 SQLiteの簡単な使い方とPythonによるSQLユーザ定義関数の組込方法 についてメモを残し... 続きを読む
SQL感覚でHiveQLを書くと痛い目にあう例 — still deeper
SQL感覚でHiveQLを書くと痛い目にあう例 tl;dr explainとjob historyを読め 1 reducerは悪 data skewは悪 前書き みんな大好きSQLでHadoop上での処理を実行できるHiveにはみなさん普段からお世話になっていることでしょう。ちょっと調べ物でググる度に目に入る愛らいしいマスコットが、荒んだ心に清涼な風をはこんでくれます。 ですがHiveのクエリ言語... 続きを読む
Facebook、Hadoopのスケーラビリティ問題を解決する、独自の「Hadoop Corona」をオープンソースで公開 - Publickey
Facebook、Hadoopのスケーラビリティ問題を解決する、独自の「Hadoop Corona」をオープンソースで公開 Facebookでは、24時間ごとに0.5ペタバイトのデータが生成され、それらを分析するために毎日6万回以上ものHiveのクエリが実行されているそうです。 こうした大規模処理を行うプラットフォームとして使われているのがHadoop。しかしFacebookはHadoop Map... 続きを読む
MongoDBがHadoopとの統合強化。HiveでMongoDBデータへSQL問い合わせ可能、BSONをHDFS上に保存など - Publickey
Integration of Hadoop and MongoDB, Big Data’s Two Most Popular Technologies, Gets Significant Upgrade | 10gen, the MongoDB company MongoDB Connector for Hadoopは、Hadoopへの入出力データとしてMongoDBを使えるようにするソフトウェア... 続きを読む
Amazon Elastic MapReduceでニコニコデータセットを使ってHiveとImpalaの速度を比較する。 - Qiita
EC2安くなる 気がついたら、EC2がだいぶ値下げしていて、我が家の ニコニコデータセットの分析環境のHive利用料も安くなっていた。 参考 【AWS発表】42回目の値下げ!EC2、S3、RDS、ElastiCache、そしてElastic MapReduceも! http://aws.typepad.com/aws_japan/2014/03/aws-price-reduction-42-ec2... 続きを読む
TreasureData - 大規模データを確実にMySQL/Redshiftに入れる—Treasure Dataのクエリ結果書き出し機能の実装 - Qiita
大規模データを確実にMySQL/Redshiftに入れる—Treasure Dataのクエリ結果書き出し機能の実装TreasureData(45)frsyukiが2014/12/14に投稿(2014/12/14に編集)編集履歴(2)編集リクエストを作成する こんにちは。古橋です。今日はいつものはてなブログから趣向を変えて、QiitaでTDアドベントカレンダー14日目の投稿です。 Hiveのクエリ結... 続きを読む
Pig, Hiveなど8種類のMapReduce言語についての比較 - nokunoの日記
以下の記事ではPig, Hiveなど8種類の言語でMapReduceの一番単純な例、WordCountを記述した場合のスクリプトの比較を行っています。とても興味深かったので紹介したいと思います。Pigs, Bees, and Elephants: A Comparison of Eight MapReduce Languages « Dataspora なお、今回はRSS購読しているDataSpo... 続きを読む
Hadoop利用者ならきっと知ってる、Hive/Prestoクエリ関数の挙動の違い - Qiita
HiveQLではスピードに難を感じていたため、私もPrestoを使い始めました。 MySQLやHiveで使っていたクエリを置き換える時にハマったTipsをまとめていきます。 Prestoとは Prestoはオンメモリで動く分散SQLエンジンで、その進化は目を見張る物です。 発表された当時は色々な成約があり使うことを躊躇していましたが、2015年1月現在はもう使わない理由はなくなりました。 アドホッ... 続きを読む
machie-learning - Hive/Hivemallを利用した広告クリックスルー率(CTR)の推定 - Qiita [キータ]
Hadoop Advent Calendar 2013 2013 12/25のXmasエントリです。 本記事では私が開発しているHadoop/Hive上で動作する機械学習ライブラリのHivemallについて、KDD Cup 2012, Track 2のデータセットを用いて利用方法を解説します。 基本的にプロジェクトのWikiサイトにあるKDDCup 2012 track 2 CTR predict... 続きを読む
O'Reilly Japan - ZooKeeperによる分散システム管理
ZooKeeperは、Apacheソフトウェア財団のオープンソースプロジェクトの1つで、大規模分散システムの協調動作を実現するツール。分散システムが協調動作するために必要なコア機能を提供することで、開発者の負荷を大幅に低減します。HiveやHadoopの新しいスケジューラであるYARNなど、多くのプロジェクト、企業、組織で利用されつつあります。分散システムの協調動作に頭を悩ませていた多くの開発者に... 続きを読む
Amazon Web Services ブログ: Apache Spark on Amazon EMR
spark Amazon EMR上でApache Sparkがサポートされました!そのことについてEMRのプロダクトマネージャのJoh Fritzのブログを書いていますので、これを翻訳してみます。 今井 -- 本日、Amazon EMRはApache Sparkをサポートしたことを発表いたします。Amazon EMRはHiveやPig、HBase、Presto、ImpalaなどのHadoopエコシ... 続きを読む
無料でストレージ容量無制限のクラウドストレージサービス「Hive」がスタート、Androidアプリも後日リリース予定 | ガジェット通信
無料でストレージ容量無制限のクラウドストレージサービス「Hive」がスタート、Androidアプリも後日リリース予定 世の中には様々なクラウドストレージサービスが存在しますが、最近「Hive」と呼ばれる無料アカウントなのにストレージ容量が無制限という新サービスがローンチしました。Hive は香港のスタートアップが運営しているクラウドストレージサービスで、現在はベータ版として一般公開されています。こ... 続きを読む
「CIAがカスペルスキーに成りすますコードを作成した」とWikiLeaksが新文書「Vault 8」を発表 - GIGAZINE
by Ludovic Toinel WikiLeaksが「Hive」と呼ばれるCIAのハッキングツールのソースコードを公開しました。公開されたコードは、CIAがセキュリティ関連企業のカスペルスキーのウイルス対策ソフトに偽装してターゲットから秘密裏に情報を盗んでいたということを示しています。 WikiLeaks - Releases https://wikileaks.org/vault8/rele... 続きを読む
Amazon Web Services ブログ: 【AWS発表】 Amazon EMRでImpalaを使って大規模データを分析可能に
ImpalaはHadoop用のオープンソースのクエリーツールです。使い慣れたSQLライクなステートメントを使って、Inmalaの分散インメモリクエリーエンジンを起動して、すばやく、効率的に大量のデータ処理を行えます。多くの場合、ImpalaはHiveよりも圧倒的に高速で、リアルタイムにデータをやり取りすることができます。ImpalaはHDFSおよびHBaseのテーブルに保存されたデータを処理するこ... 続きを読む
Cloudera Impala #pyfes 2012.11.24
Cloudera Impala #pyfes 2012.11.24 — Presentation Transcript Cloudera Impala 低レイテンシクエリエンジン 2012/11/24 @shiumachi アジェンダ • Impalaとは • Hadoop、Hive、そしてImpala • どれくらい速いの? • Impala と Hive の違い ... 続きを読む
Treasure Dataに入りました&Plazma tech talkで話しました – Aki Ariga – Medium
Field Data Scientist at Cloudera. Love machine learning, data analysis, Ruby and Python. Treasure Dataに入りました&Plazma tech talkで話しました気づけば入社して2ヶ月ほど経ってしまいましたが、Treasure Dataに入ったと思ったらArmに入社していました。 Machine Learning teamの3人目のエンジニアとして、Hive... 続きを読む
金融機関でのHive/Presto事例紹介
金融機関でのHive/Presto事例紹介 1. 1 金融機関でのHive/Presto事例紹介 2016/02/08 Ryosuke Iwanaga Solutions Architect, Amazon Web Services Japan 2. 2 Amazon EMR - 1クリックでHadoop/Spark • 分散処理基盤 – クラスタを簡単に構築 して破棄 • 分散処理アプリ – 使... 続きを読む