タグ Hive
人気順 5 users 10 users 50 users 500 users 1000 usersバッチ処理、ジョブ管理について書いてみる - wyukawa’s blog
Azkaban, 技術僕はHive, Pythonでバッチ処理を書いてAzkabanでジョブ管理するシステムを構築、運用した経験が2年ほどあるので今日はバッチ処理、ジョブ管理について書いてみようと思います。僕の経験上Hadoop特有の部分、例えばテスト環境が作りづらいとかバッチサーバーはジョブをsubmitするだけなので負荷はそんなにかからないとか、はあるけれど割と汎用的なのではないかと思います。... 続きを読む
無料、しかも容量無制限のスレトレージ「Hive」、間もなくiOSアプリも | Techable(テッカブル)
写真やビデオ、書類などの保管にクラウドストレージサービスを利用している人も多いだろう。代表的なものにDropboxやBoxなどがあるが、有料のストレージが多い中、無料で容量制限なしに使えるのが「Hive」だ。 ・有料版は広告フリーに Hiveはメールアドレスなどでアカウントを作成するとすぐに無料でストレージを使えるようになる。容量制限なしという太っ腹のサービスだが、ただし1カ月あたり50GBまで、... 続きを読む
無料でストレージ容量無制限のクラウドストレージサービス「Hive」がスタート、Androidアプリも後日リリース予定 | juggly.cn
世の中には様々なクラウドストレージサービスが存在しますが、最近「Hive」と呼ばれる無料アカウントなのにストレージ容量が無制限という新サービスがローンチしました。 Hive は香港のスタートアップが運営しているクラウドストレージサービスで、現在はベータ版として一般公開されています。 このサービスの特徴は、無料でいきなりストレージ容量が無制限という点です。Hive はそもそもストレージ容量で収益を上... 続きを読む
無料で無制限に写真・音楽・動画・文書を保存&ストリーミング再生可能なオンラインストレージ「Hive」 - GIGAZINE
デジカメやスマートフォンなどの写真や動画、ネットで保存した画像や、好きな音楽のMP3ファイル、学校や仕事で作成したドキュメントファイルなどなど、容量を圧迫するファイルは知らない内にどんどん増えてしまうもの。そんな「残しておきたいもの」から「削除しても良いか分からないもの」まで、ありとあらゆるファイルを無料かつ容量無制限でブラウザアプリからアップロードしまくれる上に、保存したファイルをストリーミング... 続きを読む
SQLite + Pythonユーザ定義関数組込で進捗ダメじゃないですになりました - あんちべ!
2013-12-17 SQLite + Pythonユーザ定義関数組込で進捗ダメじゃないですになりました 概要 これまで「Hiveからデータ取得・簡単な加工→Pythonで加工・分析」 という流れで作業していたのですが、 Hive→SQLite→Pythonという流れにしたところ進捗が改善されたので、 SQLiteの簡単な使い方とPythonによるSQLユーザ定義関数の組込方法 についてメモを残し... 続きを読む
SQL感覚でHiveQLを書くと痛い目にあう例 — still deeper
SQL感覚でHiveQLを書くと痛い目にあう例 tl;dr explainとjob historyを読め 1 reducerは悪 data skewは悪 前書き みんな大好きSQLでHadoop上での処理を実行できるHiveにはみなさん普段からお世話になっていることでしょう。ちょっと調べ物でググる度に目に入る愛らいしいマスコットが、荒んだ心に清涼な風をはこんでくれます。 ですがHiveのクエリ言語... 続きを読む
Facebook、分散SQLエンジン「Presto」公開。大規模データをMapReduce/Hiveの10倍効率よく処理すると - Publickey
Facebookは、数ペタバイト級の大規模データに対しても、対話的にアドホックな問い合わせを可能にする分散SQLエンジン「Presto」を、オープンソースで公開しました。 PrestoはFacebook社内で大規模データの分析のために開発され、すでに同社社内使われているもの。 FacebookはPrestoを開発した背景として、大量のデータをHadoop/HDFSベースで保存したものの、バッチ指向... 続きを読む
単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース - 銀座で働くデータサイエンティストのブログ
一般に、データ分析の大半はそれほど高度なテクニックの類を必要としないものです。僕も常日頃から口に出して言うことが多いんですが、「統計学だの機械学習だのの出番なんてそもそも少なくて当たり前」。工数もかかるし、できればやらない方が良いです。ぶっちゃけ単純な四則演算で十分なケースの方が多数派でしょう。 なので、普段はDB上でSQL(というかHiveなど)でサクッと四則演算だけで集計処理を済ませてしまって... 続きを読む
Logをs3とredshiftに格納する仕組み
Statistics Likes 0 Downloads 0 Comments 0 Embed Views 0 Views on SlideShare 0 Total Views 0 Logをs3とredshiftに格納する仕組み Presentation Transcript LogをS3と Hive Redshi/ に 格納する仕組み 2013年5月22日 株式会社ゆめみ 森下 健 ... 続きを読む
HRForecast - もうひとつのデータビジュアライズツール - blog.nomadscafe.jp
ずいぶん前から作って動かしてはいるのですが、GrowthForecastの他にもうひとつのグラフ作成ツールを公開しています。 https://github.com/kazeburo/HRForecast デイリーで更新される数値のビジュアライズに使う事が出来ます。GrowthForecastにはない過去データの登録もできます。 モリスさんのスライドでも少し登場しています。弊社では主にHiveでの集... 続きを読む
Facebook、Hadoopのスケーラビリティ問題を解決する、独自の「Hadoop Corona」をオープンソースで公開 - Publickey
Facebook、Hadoopのスケーラビリティ問題を解決する、独自の「Hadoop Corona」をオープンソースで公開 Facebookでは、24時間ごとに0.5ペタバイトのデータが生成され、それらを分析するために毎日6万回以上ものHiveのクエリが実行されているそうです。 こうした大規模処理を行うプラットフォームとして使われているのがHadoop。しかしFacebookはHadoop Map... 続きを読む