タグ Hive
人気順 10 users 50 users 100 users 500 users 1000 usersTreasure Dataに入りました&Plazma tech talkで話しました – Aki Ariga – Medium
Field Data Scientist at Cloudera. Love machine learning, data analysis, Ruby and Python. Treasure Dataに入りました&Plazma tech talkで話しました気づけば入社して2ヶ月ほど経ってしまいましたが、Treasure Dataに入ったと思ったらArmに入社していました。 Machine Learning teamの3人目のエンジニアとして、Hive... 続きを読む
「CIAがカスペルスキーに成りすますコードを作成した」とWikiLeaksが新文書「Vault 8」を発表 - GIGAZINE
by Ludovic Toinel WikiLeaksが「Hive」と呼ばれるCIAのハッキングツールのソースコードを公開しました。公開されたコードは、CIAがセキュリティ関連企業のカスペルスキーのウイルス対策ソフトに偽装してターゲットから秘密裏に情報を盗んでいたということを示しています。 WikiLeaks - Releases https://wikileaks.org/vault8/rele... 続きを読む
金融機関でのHive/Presto事例紹介
金融機関でのHive/Presto事例紹介 1. 1 金融機関でのHive/Presto事例紹介 2016/02/08 Ryosuke Iwanaga Solutions Architect, Amazon Web Services Japan 2. 2 Amazon EMR - 1クリックでHadoop/Spark • 分散処理基盤 – クラスタを簡単に構築 して破棄 • 分散処理アプリ – 使... 続きを読む
HiveとImpalaにワークフロースケジューラーに入れてみた(前編) - CyberZ公式エンジニアブログ
2015-11-12 HiveとImpalaにワークフロースケジューラーに入れてみた(前編) こんにちは、CyberZのエンジニアの遠藤です。 もうすっかり秋めいてきたので、温泉に行きたい今日このごろです。 さて、今回は社内にあるデータ分析用基盤のHadoop環境にワークフロースケジューラーを導入したので、前編と後編に分けてCyberZでの導入事例を書きたいと思います。 弊社ではさまざまなデータの... 続きを読む
Hadoopが扱う機密データのマスキングについて - Qiita
CDH 5.4 から導入された、Sensitive Data Redaction (機密データのマスキング) 機能を紹介します。 できること Hadoopクラスタのログファイル、Hive/Impalaクエリに含まれる任意の機密データのマスキングが可能です。 必要なもの CDH 5.4 / Cloudera Manager 5.4 手順 Cloudera Managerにログインし、HDFSサービス... 続きを読む
バッチ処理、ジョブ管理について書いてみる - wyukawa’s blog
Azkaban, 技術僕はHive, Pythonでバッチ処理を書いてAzkabanでジョブ管理するシステムを構築、運用した経験が2年ほどあるので今日はバッチ処理、ジョブ管理について書いてみようと思います。僕の経験上Hadoop特有の部分、例えばテスト環境が作りづらいとかバッチサーバーはジョブをsubmitするだけなので負荷はそんなにかからないとか、はあるけれど割と汎用的なのではないかと思います。... 続きを読む
Amazon Web Services ブログ: Apache Spark on Amazon EMR
spark Amazon EMR上でApache Sparkがサポートされました!そのことについてEMRのプロダクトマネージャのJoh Fritzのブログを書いていますので、これを翻訳してみます。 今井 -- 本日、Amazon EMRはApache Sparkをサポートしたことを発表いたします。Amazon EMRはHiveやPig、HBase、Presto、ImpalaなどのHadoopエコシ... 続きを読む
CDH5.4 Hiveでのカラムずれ問題 - イクジニアブログ
2015-06-12 CDH5.4 Hiveでのカラムずれ問題 Hadoop ビールはキリン党のにいやんです。こんばんわ。 一番搾りが好きですが、プリン体がラガーの方が少ないと聞き、ラガーに浮気しようかと・・・ さてさて、先日CDH5.4のアップデート方法を書いて、特に問題なかったぜ!って思ったのですが。 後から大問題が確認されました。。。 なんとHiveのバグを思いっきり踏んでいたらしく、sel... 続きを読む
AWS Solutions Architect ブログ: Amazon EMRでHiveとPrestoを体験するハンズオンを開催しました
ソリューションアーキテクトの岩永 (@riywo) です。先日Amazon Data Services Japanの目黒オフィスにて、Amazon EMRでHiveとPrestoを体験するハンズオンセミナーを開催し、19名の方にご参加頂きました。 セミナー内では、Amazon EMRの機能紹介に始まり、Hiveやそれにまつわる技術の紹介、またPresto等の紹介を行いながら、実際にAmazon E... 続きを読む
Hadoop利用者ならきっと知ってる、Hive/Prestoクエリ関数の挙動の違い - Qiita
HiveQLではスピードに難を感じていたため、私もPrestoを使い始めました。 MySQLやHiveで使っていたクエリを置き換える時にハマったTipsをまとめていきます。 Prestoとは Prestoはオンメモリで動く分散SQLエンジンで、その進化は目を見張る物です。 発表された当時は色々な成約があり使うことを躊躇していましたが、2015年1月現在はもう使わない理由はなくなりました。 アドホッ... 続きを読む
無料、しかも容量無制限のスレトレージ「Hive」、間もなくiOSアプリも | Techable(テッカブル)
写真やビデオ、書類などの保管にクラウドストレージサービスを利用している人も多いだろう。代表的なものにDropboxやBoxなどがあるが、有料のストレージが多い中、無料で容量制限なしに使えるのが「Hive」だ。 ・有料版は広告フリーに Hiveはメールアドレスなどでアカウントを作成するとすぐに無料でストレージを使えるようになる。容量制限なしという太っ腹のサービスだが、ただし1カ月あたり50GBまで、... 続きを読む
TreasureData - 大規模データを確実にMySQL/Redshiftに入れる—Treasure Dataのクエリ結果書き出し機能の実装 - Qiita
大規模データを確実にMySQL/Redshiftに入れる—Treasure Dataのクエリ結果書き出し機能の実装TreasureData(45)frsyukiが2014/12/14に投稿(2014/12/14に編集)編集履歴(2)編集リクエストを作成する こんにちは。古橋です。今日はいつものはてなブログから趣向を変えて、QiitaでTDアドベントカレンダー14日目の投稿です。 Hiveのクエリ結... 続きを読む
無料でストレージ容量無制限のクラウドストレージサービス「Hive」がスタート、Androidアプリも後日リリース予定 | juggly.cn
世の中には様々なクラウドストレージサービスが存在しますが、最近「Hive」と呼ばれる無料アカウントなのにストレージ容量が無制限という新サービスがローンチしました。 Hive は香港のスタートアップが運営しているクラウドストレージサービスで、現在はベータ版として一般公開されています。 このサービスの特徴は、無料でいきなりストレージ容量が無制限という点です。Hive はそもそもストレージ容量で収益を上... 続きを読む
無料でストレージ容量無制限のクラウドストレージサービス「Hive」がスタート、Androidアプリも後日リリース予定 | ガジェット通信
無料でストレージ容量無制限のクラウドストレージサービス「Hive」がスタート、Androidアプリも後日リリース予定 世の中には様々なクラウドストレージサービスが存在しますが、最近「Hive」と呼ばれる無料アカウントなのにストレージ容量が無制限という新サービスがローンチしました。Hive は香港のスタートアップが運営しているクラウドストレージサービスで、現在はベータ版として一般公開されています。こ... 続きを読む
無料で無制限に写真・音楽・動画・文書を保存&ストリーミング再生可能なオンラインストレージ「Hive」 - GIGAZINE
デジカメやスマートフォンなどの写真や動画、ネットで保存した画像や、好きな音楽のMP3ファイル、学校や仕事で作成したドキュメントファイルなどなど、容量を圧迫するファイルは知らない内にどんどん増えてしまうもの。そんな「残しておきたいもの」から「削除しても良いか分からないもの」まで、ありとあらゆるファイルを無料かつ容量無制限でブラウザアプリからアップロードしまくれる上に、保存したファイルをストリーミング... 続きを読む
O'Reilly Japan - ZooKeeperによる分散システム管理
ZooKeeperは、Apacheソフトウェア財団のオープンソースプロジェクトの1つで、大規模分散システムの協調動作を実現するツール。分散システムが協調動作するために必要なコア機能を提供することで、開発者の負荷を大幅に低減します。HiveやHadoopの新しいスケジューラであるYARNなど、多くのプロジェクト、企業、組織で利用されつつあります。分散システムの協調動作に頭を悩ませていた多くの開発者に... 続きを読む
Hadoop と Hiveを使用してマシン・データを抽出する
お客様が developerWorks に初めてサインインすると、お客様のプロフィールが作成されます。会社名を非表示とする選択を行わない限り、プロフィール内の情報(名前、国/地域や会社名)は公開され、投稿するコンテンツと一緒に表示されますが、いつでもこれらの情報を更新できます。 送信されたすべての情報は安全です。 developerWorks に初めてサインインするとプロフィールが作成されますので... 続きを読む
Amazon Elastic MapReduceでニコニコデータセットを使ってHiveとImpalaの速度を比較する。 - Qiita
EC2安くなる 気がついたら、EC2がだいぶ値下げしていて、我が家の ニコニコデータセットの分析環境のHive利用料も安くなっていた。 参考 【AWS発表】42回目の値下げ!EC2、S3、RDS、ElastiCache、そしてElastic MapReduceも! http://aws.typepad.com/aws_japan/2014/03/aws-price-reduction-42-ec2... 続きを読む
Hiveで大きめの結果ファイルをエクスポートして相手に渡す話 - wyukawa’s blog
Hadoop, Hiveいろいろな部署でデータ分析するようになると「うちのデータとおまえんところのデータを結合して解析したいからデータをくれ、もしくはおれのデータをおたくのクラスタにインポートしてくれ」みたいな話が出るようになります、たぶん。1つのHadoopクラスタにデータが全てあってみんなでそこをいじるのであればこのような話は出ない訳ですが、世の中そう話は単純ではないです。インポート、エクスポ... 続きを読む
Cloudera Impalaのアーキテクチャ | Tech Blog
Cloudera Impalaは一から開発されたHadoop上の分散クエリエンジンです。英語の資料はそれなりに公開されていますが、日本語の情報が少ないのでまとめてみました一人アドベントカレンダー25日目、最終日です。 最終日はCloudera Impala(以下Impala)について。Impalaは分散クエリエンジンです。最近EMRでも利用できるようになりました。 Hiveとは何が違うのか、なぜH... 続きを読む
machie-learning - Hive/Hivemallを利用した広告クリックスルー率(CTR)の推定 - Qiita [キータ]
Hadoop Advent Calendar 2013 2013 12/25のXmasエントリです。 本記事では私が開発しているHadoop/Hive上で動作する機械学習ライブラリのHivemallについて、KDD Cup 2012, Track 2のデータセットを用いて利用方法を解説します。 基本的にプロジェクトのWikiサイトにあるKDDCup 2012 track 2 CTR predict... 続きを読む
懸垂機できました #vgadvent2013 - すずけんメモ
2013-12-24 懸垂機できました #vgadvent2013 せっかくなので今年の振り返りをしてみます。個々エンジニアのタイムライン追うことはなかなか無いと思うので、そんな視点で楽しんでいただけると嬉しいです。 1-3月: 分析から始まった1年, HiveとかMahoutとか この頃はユーザの行動分析的なことを少しやっていた。 それとこの時期は協調フィルタリング周りを触って回したりしていて、... 続きを読む
SQLite + Pythonユーザ定義関数組込で進捗ダメじゃないですになりました - あんちべ!
2013-12-17 SQLite + Pythonユーザ定義関数組込で進捗ダメじゃないですになりました 概要 これまで「Hiveからデータ取得・簡単な加工→Pythonで加工・分析」 という流れで作業していたのですが、 Hive→SQLite→Pythonという流れにしたところ進捗が改善されたので、 SQLiteの簡単な使い方とPythonによるSQLユーザ定義関数の組込方法 についてメモを残し... 続きを読む
Amazon Web Services ブログ: 【AWS発表】 Amazon EMRでImpalaを使って大規模データを分析可能に
ImpalaはHadoop用のオープンソースのクエリーツールです。使い慣れたSQLライクなステートメントを使って、Inmalaの分散インメモリクエリーエンジンを起動して、すばやく、効率的に大量のデータ処理を行えます。多くの場合、ImpalaはHiveよりも圧倒的に高速で、リアルタイムにデータをやり取りすることができます。ImpalaはHDFSおよびHBaseのテーブルに保存されたデータを処理するこ... 続きを読む
SQL感覚でHiveQLを書くと痛い目にあう例 — still deeper
SQL感覚でHiveQLを書くと痛い目にあう例 tl;dr explainとjob historyを読め 1 reducerは悪 data skewは悪 前書き みんな大好きSQLでHadoop上での処理を実行できるHiveにはみなさん普段からお世話になっていることでしょう。ちょっと調べ物でググる度に目に入る愛らいしいマスコットが、荒んだ心に清涼な風をはこんでくれます。 ですがHiveのクエリ言語... 続きを読む