Google 基調講演、Hot Chips 23 で ML ドライバーをグラフ化

ジョン・ラッセル著

2023年8月31日

Google の科学者である Jeff Dean 氏と Amin Vahdat 氏は、今週開催された共同 Hot Chips 23 のオープニング基調講演で、主要な ML ハードウェアとソフトウェアの設計トレンドに関する興味深いツアーを実施しました。両氏は、密度よりも疎性の増大、適応型通信への取り組み、より優れた消費電力とシステムパフォーマンス指標の開発、AI主導の高速チップ設計などに取り組みました。

ディーンとヴァハダットは、厳重に守られていた Google ニュースは明らかにされなかったものの、ほとんど石を残さなかった。後者の一部は、本日サンフランシスコで始まる Google Cloud Next 23 イベントで明らかになりそうです。それにもかかわらず、Dean 氏と Vahdat 氏の広範な筆致は、ML コンピューティングの需要が多くの要因によって促進されているため、進歩を加速する必要性を強調しました。その中には、当然のことながら、モデルのサイズ (パラメーターの数) の急増がインフラストラクチャの能力を上回っていることも含まれます。

「明らかに、近年、機械学習により、コンピューターで実現できると考えられていることが変わりました」とディーン氏は述べています。「コンピューターは、これまでよりもはるかに上手に画像を理解し、音声を理解し、言語を理解できるようになり、刺激的な新しい可能性が開かれます。もう 1 つの観察結果は、規模を拡大し、より多くの計算、より多くのデータを使用し、より大きなモデルを作成すると、より良い結果が得られるということです。そして、私たちが実行したい計算の種類や、それを実行したいハードウェアも劇的に変化しています。

「これはコンピューターハードウェア設計者にとって重要な教訓だと思います。改善する ML 研究状況にある程度対応できるようにする必要があるということです。講演の残りの部分では、いくつかの重要なトレンドと機械学習モデル、コンピューターアーキテクトへの影響、そして急速に変化する分野に追いつくために ML ハードウェアを設計して迅速に導入する方法について話したいと思います。」

場合によっては、最初に結論から始めることが最善です。

Google の主任研究員である Dean は講演の前半を行い、（主に）ハードウェア設計のトレンドを掘り下げました。 Google フェローでネットワーキングの技術リーダーでもあるヴァハダット氏は、炭素排出量を抑制する Google の取り組みに取り組み、Google のグッドプット指標についてかなりの時間を費やして議論しました。 Vahdat 氏は、「Google は 2030 年までに 24 時間 365 日カーボンフリーで運営することを公に約束しました。本当に野心的な目標です。」と述べました。

野心的なお話でした。ここでは、彼らのスライドの一部と、スパース性、適応計算、動的に変化するニューラルネットワークなどの ML モデルのトレンドに関するディーンの発言を紹介します。 HPCwire はヴァハダトのコメントについて続報を掲載する予定です。

「高密度モデルは、おそらくあなたが最もよく知っているニューラルネットワークであり、入力例ごと、または生成されるトークンごとにモデル全体がアクティブ化されるモデルであり、機械学習コミュニティの大多数が注目しています。。彼らは素晴らしく、多くの素晴らしいことを達成することができましたが、スパースコンピューティングは将来的に重要なトレンドになるでしょう」とディーン氏は言いました。

「スパースモデルには、必要に応じて適応的に呼び出されるさまざまな経路があります。この巨大なモデルを使用するよりも、これらの疎モデルの方がはるかに効率的です。それらは、モデル全体の適切な部分を呼び出すだけです。そして、適切なピースの側面も、トレーニングのプロセス中に学習されるものです。モデルのさまざまな部分をさまざまな種類の入力に特化できます。最終的には、非常に大きなモデルのちょうど適切な 1% または適切な 10% をタッチすることになり、これにより応答性と精度が向上します。」

Dean らが 2022 年の論文 (A Review of Sparse Expert Models in Deep Learning) で指摘したように、スパース性は決して新しいものではありません。

その論文の中で、彼らは次のように書いています。このクラスのアーキテクチャには、専門家混合、スイッチトランス、ルーティングネットワーク、BASE レイヤなどが含まれており、各サンプルはパラメータのサブセットによって動作するという統一されたアイデアがすべて含まれています。そうすることで、スパース性の程度によってパラメーター数がサンプルごとの計算から切り離され、非常に大規模でありながら効率的なモデルが可能になります。結果として得られたモデルは、自然言語処理、コンピュータービジョン、音声認識などのさまざまな領域にわたって大幅な改善が実証されました。」