タグ Apache Spark
人気順 10 users 50 users 100 users 500 users 1000 users「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表
「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表 Apache Sparkなどの開発で知られるデータブリックス社は、同社が主催したイベント「DATA+AI Summit 2023 by Databricks」で、英語をApache Sparkの問い合わせ言... 続きを読む
AWS GlueでApache Sparkジョブをスケーリングし、データをパーティション分割するためのベストプラクティス | Amazon Web Services ブログ
Amazon Web Services ブログ AWS GlueでApache Sparkジョブをスケーリングし、データをパーティション分割するためのベストプラクティス AWS GlueはApache Spark ETLジョブでのデータ分析・データ処理を行うために、様々なデータソースから大量のデータセットを準備(抽出および変換)し、ロードするサーバーレスな環境を... 続きを読む
Apache IgniteとApache Sparkの統合による大規模データ処理における機能拡張や処理能力の向上 - Yahoo! JAPAN Tech Blog
Apache Igniteは、Apache Sparkと同様にインメモリ技術を活用した高耐障害性分散データ処理プラットフォームです。 しかし、Apache Sparkは非トランザクション(バッチ)的な分析を処理の対象をしている一方、Apache Igniteはリアルタイム処理に優れ、非トランザクションとACIDトランザクション的な処理を両方サポートしま... 続きを読む
Apache Kafkaにも注目 ―Hadoop, Spark,分散処理フレームワークをめぐる2019年:新春特別企画|gihyo.jp … 技術評論社
あけましておめでとうございます。 今年も大規模データ向けの分散処理フレームワークの展望についてご紹介します。例年Apache HadoopとApache Sparkを中心にお届けしておりましたが,今年はこれらに加えて,2018年に活用が広がりが認知された分散メッセージシステムのApache Kafkaについても 同様に取り上げたいと思いま... 続きを読む
[速報]Microsoft SQL Server 2019発表。SparkとHDFSを製品に統合、データ仮想化を搭載。Microsoft Ignite 2018 - Publickey
マイクロソフトは米フロリダで開催中のイベント「Microsoft Iginte 2018」で、同社のリレーショナルデータベースの次期バージョン「Microsoft SQL Server 2018」を正式に発表しました。 SQL Server 2019ではビッグデータの処理や機械学習への対応などが重視され、Apache SparkとHDFS(Hadoop Distributed File System)... 続きを読む
シリコンバレーNextレポート - 存在感薄れつつあるビッグデータ処理ソフト「Spark」、深層学習で巻き返し:ITpro
ビッグデータ処理のオープンソースソフトウエア(OSS)である「Apache Spark」のディープラーニング(深層学習)対応が進んでいる。Sparkの主要開発企業である米Databricksや米Intel、米Microsoft、米Verizon傘下の米Oath(旧Yahoo!)などが、Sparkの深層学習対応に熱心だ。 分散処理ソフトのSparkは、2014年ごろには機械学習の大規模化に欠かせない... 続きを読む
RubyもApache Arrowでデータ処理言語の仲間入り - Kouhei Sutou - Rabbit Slide Show
Description Apache Arrowはデータ分析システム間でのデータ交換を効率化することを目的としたデータフォーマットです。pandasやApache SparkやRなど主要なデータ分析システムはApache Arrowの対応を進めています。近い将来、データ分析システム間でのデータ交換はApache Arrowを使う状態になるでしょう。RubyもApache Arrowに対応することで... 続きを読む
バッチとストリーミング処理のための分散処理ツール「Apache Beam」がトップレベルプロジェクトに | OSDN Magazine
Apache Software Foundation(ASF)は1月10日(米国時間)、分散処理ツール「Apache Beam」がトップレベルプロジェクト(TLP)となったことを発表した。 Apache Beamは、バッチとストリーミング処理の両方を任意の実行エンジンで動かすことができるユニファイドプログラミングモデルを提供するソフトウェア。Apache SparkやApex、Apache Fli... 続きを読む
2016ー2017のApache Sparkに起こったこと/起こること:新春特別企画|gihyo.jp … 技術評論社
Sparkの2016年は, 1月4日にバージョン1. 6.0のリリースからスタートしましたが, なんといっても今年の目玉はバージョン2. 0.0のリリースでした。2016年7月26日にリリースされ, この開発には2,000以上のパッチが投稿され, 世界中から280人もの開発貢献者の参画があったと言われています。 バージョン2. 0ではアーキテクチャが抜本的に見直され, さらなる性能向上, さらなる... 続きを読む
YARN、HDFS、そしてSparkの将来像とは:「Hadoop/Spark Con」基調講演 - ZDNet Japan
日本Hadoopユーザー会は2月8日、東京都品川区で「Hadoop Conference Japan 2016」を開催した。第6回目となる今回のイベントでは「Spark Conference Japan 2016」が初めて併催され、キーノートにはApache Sparkの主要開発者であるXin Reynold氏も登壇。2016年にリリース予定のSparkの次期バージョン「Spark 2.0」の最新... 続きを読む
大規模分散データ処理フレームワーク「Apache Spark 1.6」正式リリース。メモリコンフィグレーションの自動化、静的型付けのDataset API、速度の向上も実現 - Publickey
Spark 1.6では、よく使われるデータフォーマットの1つであるParquetの読み込みに、新しいParquet Readerを導入。いくつかの処理のバイパスやコードの最適化を行った結果、ベンチマークでこれまで1秒あたり290万行の読み込み速度だったものを1秒あたり450万行まで、約50%改善したと説明されています。 また、1.6ではこれまで設定により固定されていた実行用のメモリ領域とキャッシュ... 続きを読む
さくらインターネットが構築した、データセンターの要素すべてを対象とした精緻な原価計算システムの仕組みとその背景 - Publickey
さくらインターネットが構築した、データセンターの要素すべてを対象とした精緻な原価計算システムの仕組みとその背景 さくらインターネットは、Apache SparkとAsakusa Frameworkを用いた原価計算システムを導入しています。 データセンターの土地代から電気代、トラフィック量などサービスに関わる膨大な要素とそのコストを細かく計算し、同社が提供しているサービスやユーザーごとに儲かっている... 続きを読む
ビッグデータ界隈で話題の「Apache Spark」を1000万件のデータで検証してみた | D2Cスマイル
こんにちは、BICCチームの力徳です。 前回記事に引き続き、現在、世界中で注目を集めているビッグデータ分析基盤技術Apache Sparkの機能の紹介をさせていただきます。 今回は、マーケティングなどでよく使われるデータマイニング手法のうち、最近Sparkで実装された頻出系列パターンマイニングアルゴリズムPrefixSpanの紹介をさせていただきます。 デキるマーケッターは知っている!頻出系列パタ... 続きを読む
特集:IoT時代のビジネス&IT戦略(3):知らないと大損する、Apache Sparkの基礎知識と3つのメリット (1/3) - @IT
特集:IoT時代のビジネス&IT戦略(3):知らないと大損する、Apache Sparkの基礎知識と3つのメリット (1/3) 社会一般から大きな注目を集めているIoT(Internet of Things)。だが、その具体像はまだ浸透しているとはいえない。今回は、IoTやビッグデータのキーテクノロジとして注目されている「Apache Spark」について、Sparkを製品に取り込んでいる日本IB... 続きを読む
Java8 Stream APIとApache SparkとAsakusa Frameworkの類似点・相違点
Java8 Stream APIとApache SparkとAsakusa Frameworkの類似点・相違点 1. 2015/11/28 ひしだま Java8 Stream APIとApache Sparkと Asakusa Frameworkの類似点・相違点 JJUG CCC 2015 Fall 2. 2 セッション内容 前提 l JJUGの皆さんならJava8 Stre... 続きを読む
SparkR 1.5 の開発でできたこと・できなかったこと | Advanced Technology Lab
こんにちは,アドバンストテクノロジーラボの石川有です. 業務として携わっている Apache Spark™ の最新版 Apache Spark 1.5 が先日リリースされました. 今回の記事では Spark のコンポーネントであるSparkR の 1.5 リリースまでの開発でできたこと・できなかったことを書きたいと思います. なにがサポートされたとか,どういう使い方ができるようになったなどの情報は... 続きを読む
Apache Sparkがスループットとレイテンシを両立させた仕組みと最新動向を、SparkコミッタとなったNTTデータ猿田氏に聞いた(前編) - Publickey
Apache Sparkがスループットとレイテンシを両立させた仕組みと最新動向を、SparkコミッタとなったNTTデータ猿田氏に聞いた(前編) 最近ビッグデータ処理基盤として急速に注目を集めているのが「Apache Spark」です。 Sparkは、Hadoopと比較されることも多く、Hadoopよりも高速かつ高機能な分散処理基盤だと言われています。Sparkとはいったい、どのようなソフトウェアな... 続きを読む
SparkとHadoopは友だちである、敵ではない | TechCrunch Japan
[筆者: Raymie Stata](AltiscaleのCEO) 今年の6月はApache Sparkにとってエキサイティングな月だった。San Joseで行われたHadoop Summitで頻繁に話題になっただけでなく、Spark関連のプレゼンテーションも多かった。6月15日にIBMは、Sparkの関連技術に大量の投資をすると発表した。 この発表がSan Franciscoで行われたSpark... 続きを読む
Spark Casual Talk #1 に行ってきました — Elliptium
Spark Casual Talk #1 に行ってきました 最近データ解析や機械学習で色々と話題な Apache Spark ですが, その勉強会があるというので行ってきました. 一般枠が 123 人のところに 150 人の申し込みがあり, Spark が注目されているのが分かります. 勉強会の構成は, 発表が 2 つと LT が 6 本で 2 時間というものでした. 名前に casual とある... 続きを読む
メキメキ開発の進む Apache Sparkのいまとこれから (Spark Casual Talk #1 発表資料)
Transcript 1. Copyright © 2015 NTT DATA CorporationCopyright © 2015 NTT DATA Corporation 2015年6月23日 株式会社NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 猿田 浩輔/土橋 昌 メキメキ開発の進む Apache Sparkのいまとこれから OSS Professional Se... 続きを読む
IBM、「Spark as a Service」を発表。Apache Sparkへのコミットで3500人の研究者やエンジニアを投入 - Publickey
IBM、「Spark as a Service」を発表。Apache Sparkへのコミットで3500人の研究者やエンジニアを投入 米IBMはオープンソースの大規模分散処理基盤「Apache Spark」への本格的なコミットメントを数日前に発表し、3500人の研究者やエンジニアを投入すると宣言しました。 同社が合わせて発表したのが、Apache Sparkをクラウド上でサービスとして提供する「Sp... 続きを読む
Amazon Web Services ブログ: Apache Spark on Amazon EMR
spark Amazon EMR上でApache Sparkがサポートされました!そのことについてEMRのプロダクトマネージャのJoh Fritzのブログを書いていますので、これを翻訳してみます。 今井 -- 本日、Amazon EMRはApache Sparkをサポートしたことを発表いたします。Amazon EMRはHiveやPig、HBase、Presto、ImpalaなどのHadoopエコシ... 続きを読む
Apache Spark による推薦システム案件例 // Speaker Deck
All slide content and descriptions are owned by their creators. 続きを読む
『GMO プライベート DMP で ビッグデータ解析をするために アプリクラウドで Apache Spark の検証をしてみた』の資料を公開しました - べにやまぶろぐ
2015-02-02 『GMO プライベート DMP で ビッグデータ解析をするために アプリクラウドで Apache Spark の検証をしてみた』の資料を公開しました Apache Spark Scala アドテク 発表資料・スライド Apache Spark を今後活用していくに当たって行ったプレ検証の結果について slideshare にアップロードしました。 もう少し詳細な内部の実装や挙... 続きを読む
2015年のHadoopとビッグデータ活用:新春特別企画|gihyo.jp … 技術評論社
新春特別企画 2015年のHadoopとビッグデータ活用 2015年1月2日 濱野賢一朗 Hadoop, MapReduce, Apache Spark, Apache Tez, SQL, YARN この記事を読むのに必要な時間:およそ 2 分 あけましておめでとうございます。濱野 賢一朗です。 1年は早いものですね。本当にあっという間に過ぎ去ってしまうものです。しかし,いざ1年を振り返ってみると... 続きを読む