[Oracle Cloud] HPC/GPUについて調べてみた

本記事の目的

Oracle Cloud Infrastructure(以下、OCI)のHPC/GPU周りを調べたメモ。

 

 

そもそもHPC/GPUとは?

HPC科学技術計算の救世主か-GPUで作れる「プライベートスパコン」
の説明が分かりやすそうだったので、少し抜粋させて頂く。

HPCとは、ハイ・パフォーマンス・コンピューティング、高性能計算のことです。
HPCは、科学技術計算用途で多く利用され、巨大なスーパーコンピュータで計算することが一般的でした。しかし、GPU(グラフィック・プロセッシング・ユニット)の発展によりHPCに大きな変化が訪れています。

これまでのHPCでは、数100億円~1,000億円という莫大な予算を掛けたスーパーコンピュータ(スパコン)が使われていました。これほど大きな予算を使えるのは、国の研究所などごく一部です。よって、HPCではごく少数のスパコンを共同利用するのが一般的でした。

これまでの、HPC・スパコンの概念を崩すことになるのが、近年発展著しいGPUです。GPUを使えば、HPCに自由に使える「プライベートスパコン」の構築も可能です。

 

GPUは、グラフィック・プロセッシング・ユニットの略で、その名の通り元々3Dゲームや映画のCG作成などの画像処理に使われていました。(中略)GPU活用で、HPC用の「プライベートスパコン」を手に入れることができるのです。
国家レベルの予算が必要だったスパコン。HPCへのGPU活用で、企業などの1組織が「プライベートスパコン」を所有し、自由に研究に使うことが可能となりました。このパラダイムシフトにより、今後の科学技術研究のスピードが大きく変わってくるかもしれません。

 

OCIにおけるHPCの取り組み

High Performance Computing (HPC) on Oracle Cloud Infrastructure

ハイパフォーマンス・コンピューティング

Oracle Cloud Infrastructure: コンピュートおよびHigh-Performance Computing ロードマップ・アップデート

HPCにおけるOracle Cloud Infrastrucgture(OCI)の既存ポートフォリオはクラス最高のものです。この領域で十分な機能を提供できていない他のクラウド・プロバイダーのサービスとは異なり、オンプレミスのHPCクラスターに匹敵するものとなっています。

NVIDIA A100 Bare Metal Performance in Oracle Cloud Infrastructure

Oracle Cloud Infrastructure is making available a system featuring NVIDIA’s Ampere architecture, the next generation of data center computing hardware. The A100 shape has been tuned to give the best possible performance and adds to a growing list of performance systems that provide on-premises performance in the cloud.

 

 

提供されているGPUインスタンスの種類

マニュアルの「Compute Shapes」にも載っているが、「Cloud Price List」の方が一覧で載ってて分かりやすい。

画面ショット(2020/12/04時点)

NVIDIAのP100,V100,A100というモデルに対応。A100は現時点ではベアメタルのみリリース。

 

GPUインスタンスの利用手順

・マニュアル「Oracle Cloud InfrastructureでのNVIDIA GPU Cloudの使用

 

・GPUインスタンスでディープラーニング – Oracle Cloud Infrastructureアドバンスド

OCIチュートリアルに記事があった。

GPUインスタンス作成からPyTorch(オープンソースの機械学習ライブラリ)での実行確認まで。

 

 

Qiitaにもいくつか記事があったのでメモ。

Oracle Cloud (OCI) で GPU の VM インスタンスを CentOS で使おう

Oralcle CloudでNVIDIAのGPUインスタンスを構築する

各種クラウドと地上の PC で NGC のコンテナー イメージを動かしてみた

 

その他

NVIDIA GPU CloudをOracle Cloud Infrastructure上で利用してディープラーニングを行う

 

 

OCIのマーケットプレイスにも使えそうなイメージが色々あるので、チェックしてみると良さげ。

AI (All-in-One) GPU Image for Data Science

This image contains open source AI/ML/DL frameworks like TensorFlow 2, PyTorch. Keras, MXnet, Scikit-learn, Seaborn, Pandas, NumPy, Matplotlib and more than 100 other Python machine learning libraries with necessary utilities for running Machine Learning/Deep Learning development and training workloads on Oracle Cloud Infrastructure. The image also includes open source distribution of JupyterLabs Jupyter Notebook. R support has been dropped.

Oracle-Linux-7.8-Gen2-GPU-2020.05.26-0
•    Image Family: Oracle Linux 7.x
•    Operating System: Oracle Linux
•    Kernel Version: kernel-uek-4.14.35-1902.302.2.el7uek.x86_64.
•    CUDA Version: 10-2-10.2.89-1
•    cuDNN Version: 7.3.1
•    Release Date: June 1, 2020

 

 

oci-hpc-runbook-openfoam

とある研修動画内で紹介されていたopenfoam(オープンソースの流体解析などを得意とするライブラリらしい)を利用したデモや手順を紹介している。

 

 

GPUインスタンスを触ってみた

触れる環境が手に入ったら書く予定。誰かください。

 

 

備考

2020/12/04 新規作成

2020/12/05 Oracle Cloud Infrastructure #2 Advent Calendar 2020 の Day 3が空いてたから登録。

2020/12/06 リンク追記など

スポンサードリンク

Be the first to comment

Leave a Reply

Your email address will not be published.


*