
本記事の目的
Oracle Cloud Infrastructure(以下、OCI)のHPC/GPU周りを調べたメモ。
そもそもHPC/GPUとは?
・HPC科学技術計算の救世主か-GPUで作れる「プライベートスパコン」
の説明が分かりやすそうだったので、少し抜粋させて頂く。
HPCとは、ハイ・パフォーマンス・コンピューティング、高性能計算のことです。
HPCは、科学技術計算用途で多く利用され、巨大なスーパーコンピュータで計算することが一般的でした。しかし、GPU(グラフィック・プロセッシング・ユニット)の発展によりHPCに大きな変化が訪れています。これまでのHPCでは、数100億円~1,000億円という莫大な予算を掛けたスーパーコンピュータ(スパコン)が使われていました。これほど大きな予算を使えるのは、国の研究所などごく一部です。よって、HPCではごく少数のスパコンを共同利用するのが一般的でした。
これまでの、HPC・スパコンの概念を崩すことになるのが、近年発展著しいGPUです。GPUを使えば、HPCに自由に使える「プライベートスパコン」の構築も可能です。
GPUは、グラフィック・プロセッシング・ユニットの略で、その名の通り元々3Dゲームや映画のCG作成などの画像処理に使われていました。(中略)GPU活用で、HPC用の「プライベートスパコン」を手に入れることができるのです。
国家レベルの予算が必要だったスパコン。HPCへのGPU活用で、企業などの1組織が「プライベートスパコン」を所有し、自由に研究に使うことが可能となりました。このパラダイムシフトにより、今後の科学技術研究のスピードが大きく変わってくるかもしれません。
OCIにおけるHPCの取り組み
・High Performance Computing (HPC) on Oracle Cloud Infrastructure
・Oracle Cloud Infrastructure: コンピュートおよびHigh-Performance Computing ロードマップ・アップデート
HPCにおけるOracle Cloud Infrastrucgture(OCI)の既存ポートフォリオはクラス最高のものです。この領域で十分な機能を提供できていない他のクラウド・プロバイダーのサービスとは異なり、オンプレミスのHPCクラスターに匹敵するものとなっています。
・NVIDIA A100 Bare Metal Performance in Oracle Cloud Infrastructure
Oracle Cloud Infrastructure is making available a system featuring NVIDIA’s Ampere architecture, the next generation of data center computing hardware. The A100 shape has been tuned to give the best possible performance and adds to a growing list of performance systems that provide on-premises performance in the cloud.
提供されているGPUインスタンスの種類
マニュアルの「Compute Shapes」にも載っているが、「Cloud Price List」の方が一覧で載ってて分かりやすい。
画面ショット(2020/12/04時点)
NVIDIAのP100,V100,A100というモデルに対応。A100は現時点ではベアメタルのみリリース。
GPUインスタンスの利用手順
・マニュアル「Oracle Cloud InfrastructureでのNVIDIA GPU Cloudの使用」
・GPUインスタンスでディープラーニング – Oracle Cloud Infrastructureアドバンスド
OCIチュートリアルに記事があった。
GPUインスタンス作成からPyTorch(オープンソースの機械学習ライブラリ)での実行確認まで。
Qiitaにもいくつか記事があったのでメモ。
・Oracle Cloud (OCI) で GPU の VM インスタンスを CentOS で使おう
・Oralcle CloudでNVIDIAのGPUインスタンスを構築する
・各種クラウドと地上の PC で NGC のコンテナー イメージを動かしてみた
その他
・NVIDIA GPU CloudをOracle Cloud Infrastructure上で利用してディープラーニングを行う
OCIのマーケットプレイスにも使えそうなイメージが色々あるので、チェックしてみると良さげ。
例
・AI (All-in-One) GPU Image for Data Science
This image contains open source AI/ML/DL frameworks like TensorFlow 2, PyTorch. Keras, MXnet, Scikit-learn, Seaborn, Pandas, NumPy, Matplotlib and more than 100 other Python machine learning libraries with necessary utilities for running Machine Learning/Deep Learning development and training workloads on Oracle Cloud Infrastructure. The image also includes open source distribution of JupyterLabs Jupyter Notebook. R support has been dropped.
Oracle-Linux-7.8-Gen2-GPU-2020.05.26-0
• Image Family: Oracle Linux 7.x
• Operating System: Oracle Linux
• Kernel Version: kernel-uek-4.14.35-1902.302.2.el7uek.x86_64.
• CUDA Version: 10-2-10.2.89-1
• cuDNN Version: 7.3.1
• Release Date: June 1, 2020
とある研修動画内で紹介されていたopenfoam(オープンソースの流体解析などを得意とするライブラリらしい)を利用したデモや手順を紹介している。
GPUインスタンスを触ってみた
触れる環境が手に入ったら書く予定。誰かください。
備考
2020/12/04 新規作成
2020/12/05 Oracle Cloud Infrastructure #2 Advent Calendar 2020 の Day 3が空いてたから登録。
2020/12/06 リンク追記など
Leave a Reply