ニュース
NVIDIA、「ChatGPTはAIにおける"iPhone"モーメント」
2023年7月19日 20:37
半導体メーカーのNVIDIA(エヌビディア)は、7月19日に「NVIDIAのコンピューティング プラットフォームが可能にする、生成AI 開発とその可能性」と題するプレス説明会を開催した。NVIDIAのGPU(グラフィック・プロセッシング・ユニット)はAIの機械学習処理に広く使われており、ほぼ全ての生成AI開発に用いられている。説明会では、日本法人でテクニカル マーケティング マネージャーを務める澤井理紀氏が、生成AIと従来のAIとの違いや開発における課題、NVIDIAプラットフォームの紹介と企業での導入方法、事例などを紹介した。
ゲームキャラとも自由に会話できるように
NVIDIAの澤井理紀氏は、まず生成AIの概況を紹介した。2022年11月に登場したChatGPTはわずか2カ月でユーザー数1億人突破。MicrosoftはAIを全面的に採用した「Copilot」の計画を進めている。METAも新たなビジネスグループの設定を行ない、700億パラメーターモデルの「LLaMA 2」をリリースした。Googleも主力製品やサービスを強化すると発表している。スタートアップや大手企業も今どう活用するかを探求中だ。
澤井氏は「真の力を理解してもらうため」としてゲームへの応用例を紹介した。Convaiと協力して作られたデモで、生成AIを使うことで、プレイヤーはゲームキャラクターと自由にコミュニケーションがとれるようになる。自然言語でマイクを使って話しかけると、ゲームキャラクターが、ゲームの世界観やプレイヤーの履歴を理解して会話する。リアルタイムの音声認識・合成、表情生成にもAIが使われている。
ビジネスを加速する生成AI
生成AIによって変わるのはゲームだけではない。ビジネスにも革命が起きるという。澤井氏は「生産性が飛躍的に拡大し、顧客とのつながりが強くなり、マーケティングコピーやパーソナライズ・コンテンツを作ることでよりコンバージョンを高められる」と述べた。人間に近いレベルの会話ができるチャットボットによって効率的なカスタマーサービスが可能になる。また膨大な情報を瞬時に要約して、リアルタイム多言語翻訳も可能になる。
ソフトウェア開発でもコードを自動生成して効率的なプログラミングが可能になり、人間は、より高度なタスクに専念できるようになる。ビジュアルコンテンツでも、リアルなキャラがユーザー体験を向上させることでき、ブランドアイデンティティーを高められる。
ライフサイエンスにおいても化合物設計を加速することで創薬分野で活用できる。複雑な分子構造を分析して挙動を予測できる。このように、幅広い分野でビジネスの進化をもたらすことができる。
生成AIを活用することで企業はイノベーションを加速し市場競争力を獲得できる。だが、そのためにはAIインフラへの投資が必要となる。
従来のAIとの違いは文脈理解と予測
生成AIは、これまでのAIと何が違うのか。AIは人間の学習・分析・予測を模倣する。機械学習は大量のデータセットと統計を使って、結果を予測する手法だ。いまもっとも広く使われているのがディープラーニングで、複雑なニューラルネットワークを膨大なデータでトレーングし、画像や音声に関わる用途で使われている。
生成AIはトレーニングデータのパターンや傾向を分析、新しいコンテンツを文脈の理解と予測を行ないながら生成できる。この「文脈理解と予測」の部分が従来とは異なっている。
生成AIは過去のデータから新しいデータを生成できる。多様なデータで学習した生成AIは問題解決能力に優れていて、汎用的人工知能に近い働き方ができる。つまり、一つのモデルを多様な用途に使える。
基盤モデルと大規模言語モデル
中心になっているのが「基盤モデル」だ。テキストからテキストを出力したり、テキストから画像を出力するなど様々な種類がある。基盤モデルはユーザー固有のニーズに合わせてカスタマイズできる。これが「基盤モデル」と言われる理由だ。独自ドメイン、独自タスクに特化させることもできる。特に言語を扱うモデルが大規模言語モデル、LLMと呼ばれる。
膨大なテキストデータを学習することでパターンを学習したLLMは非常に流暢な文章を生成できる。LLMのモデルは数十億から数千億パラメータを持っている。
LLMは単語そのものではなく、単語を分割したサブワードを「トークン」として扱う。たとえば「サンドウィッチ」は「サンド」と「ウィッチ」のように2つのトークンからなる。LLMは数兆に及ぶトークンを含むコーパス(文章データ)を学習することで、トークン同士の関係を理解して新たな文章を生成する。行なっていることは与えられた単語列に続く単語を予測することで非常にシンプルだが、様々なタスクに対応できる。多言語のほかプログラムにも対応する。
Transformerの活用
ある単語列の次に続く単語列を予測できるようになったのは「Transformer」というアーキテクチャによる。Transformerは入力データのうち、互いに影響し合う部分を検出する「注意機構」を採用したディープラーニングモデルだ。エンコーダ・デコーダモデルがベースとなっていて、エンコーダーで言語を理解、デコーダーで生成する。このTransformerによってLLMが可能になった。
まとめると、従来の自然言語処理ではラベル付けが必要で、モデルもせいぜい数億パラメータにとどまり、能力も限定されていた。またRNN(回帰型ニューラルネットワーク)ベースで、あまり並列処理に向いておらず、トレーニングや推論の高速化も難しかった。
いっぽうLLMはラベル付けは不要で、並列化も可能。高速推論もできるようになった。パラメータ数は数十億から数兆へと大規模化。大規模計算リソースで大規模データを学習することで十分な能力を獲得し、一つのモデルを様々なタスクに適用できるようになった。
生成AI開発の流れ
LLMのトレーニングデータはネット上の広範な知識だ。だが特定ドメイン知識の引き出しは難しい。学習データに含まれていない特定業務知識や専門知識も持っていない。だからビジネス課題に適用するには、チューニングする必要がある。澤井氏はプロンプトを使った「P-Tuning」を行なったあとの回答例を示した。チューニングによって、同じ質問でも用途に応じた回答ができるようになる。
つまり基盤モデルは特定の要件に合わせて最適化できる。基盤モデルのカスタマイズはモデルの主要目的に合わせて異なる範囲で行なわれる。まず広範なコーパスで基盤モデルを構築して、カスタマイズして、最後にユーザーにサービス展開するのが生成AI開発の流れだ。
生成AIはカスタマイズでさらにパワーを発揮する
カスタマイズをどの程度行なうかは目的によって変わってくる。一般的な生成AI活用であれば、カスタマイズは少なくてすむ。ChatGPTならプラグインが使える。応答に満足できなければプロンプトを調整する。今はこれがごく一般的な使い方だ。APIを使って独自サービスと結合することもできる。
中程度のカスタマイズは、特定ドメインのために訓練済みモデルをファインチューニングする。基盤モデルに追加データを入れるためには専門知識が必要で、開発から展開には数カ月かかる。
より広範なカスタマイズは特定ユースケースに合わせて独自モデルを構築する、あるいは大幅にカスタマイズをするものだ。これには長期の開発期間が必要となる。
澤井氏はカスタマイズの具体例を2つ示した。ブルームバーグは500億パラメータの基盤モデルを構築している。一般的なデータセットに40年分以上の文書データを加えて、7,000億トークンを超える大規模コーパスを構築してトレーニングを行なった。同規模の既存モデルを大きく超える性能を出しているという。
またUCバークリーはAPIの入力を最適化する「Gorilla」というモデルを開発している。MetaのLLaMAをファインチューニングしてAPI Callに特化させたモデルで、記述においてGPT-4を上回る性能を出している。このようにファインチューニングを行なうことで、一般的モデルでは達成できないタスクが可能になる。
独自AIにはNVIDIAプラットフォーム利用が一番簡単
課題もある。独自AIを作るメリットは大きいが膨大なデータが必要だ。大規模計算リソースや深い専門知識も必要となる。モデル構築後にも、ドメイン知識を持たないこと、トレーニング時点で知識は固定されてしまうので時間経過と共にギャップが広がっていく問題や、「幻覚」と呼ばれる問題、有害な情報を提供してしまうリスクもある。
澤井氏は「独自AIを作るためにはNVIDIAのプラットフォームを使ってもらうのが一番簡単」だと述べ、同社のアクセラレーテッド・コンピューティング・プラットフォームを紹介した。NVIDIAはGPU、CPU、DPU、その間を繋ぐ高速低遅延のネットワーキング技術などハードウェアのほか、それらを効率的に動作させるためのシステムソフトウェア、アクセラレーションソフトウェアやライブラリも持っている。つまりハードウェアからソフトウェアまでフルスタックで揃えている。
モデルをトレーニングするためには膨大な計算能力が必要だ。NVIDIAのGPUはAI処理に最適化されており、高い演算能力を提供できる。CPUとは比較にならないほど高速で電力性能も優れており、複数サーバーを使う上でも高いスケーラビリティがあるという。ChatGPTの場合は約1万基のGPUで数週間のトレーニング処理を行なった。
生成AIトレーニング向け最新GPUが「H100 TensorコアGPU」だ。H100にはTransformerの処理を高速化する「Transformer エンジン」が搭載されている。澤井氏は「NVIDIAは数年前からTransformerが今後のAIの主流になることは気づいていた」と語った。「Transformer エンジン」は、各レイヤー処理が何ビットの演算で行なわれるべきかを統計分析して、結果としての精度を落とさずに、できるだけ少ないビット数で計算できるようにすることで、より多くの演算を1回のクロックで回せるようにしている。8ビットで問題なければ8ビットで行ない、16ビットにしないと精度が落ちるときは16ビットにする。
主要なクラウドサービスからもH100が利用できる。幅広い製品と提供が開始されており、高性能なGPUリソースを活用可能だと紹介された。DGXクラウドも高速低遅延のネットワークで接続されたインスタンスとなっており、複数のインスタンスを使って高速処理ができる。また、専門家からのサポートも受けられる。様々な形態でGPUが利用できるようになっている。
指数関数的に増加するデータ/モデルサイズ
国内導入事例としては、筑波大学、東工大、さくらインターネット、サイバーエージェント、三井物産、ソフトバンクが紹介された。多くのパートナーが最先端のAI開発に取り組んでいる状況だという。
最新のH100は従来の「A100」と比べても非常に高い性能が発揮できる。A100を320基使っていたデータセンターは、同等のパフォーマンスを64基のH100で賄えるようになる。所有コストは1/3になり、サーバーノード数は1/5、エネルギー効率は3.5倍になる。もちろん、もっと大規模な拡張も可能となる。
6月末にはクラウド サービス プロバイダーのCoreWeaveが、MLPerfベンチマークで、3,584基のH100 GPUのクラスタでGPT-3ベースの大規模モデルをわずか11分でトレーニングできたと発表している。
データサイズやモデルサイズは指数関数的に増え続けている。NVIDIAは次のアーキテクチャの処理にも取り組んでる。GH200は256個のNVIDIA Grace Hopper Superchips全体で144TBの大規模な共有メモリ空間を提供する。CPUとGPUはNVLink-C2Cで接続されており、合計600GBのメモリに高速アクセスできる。複数接続もでき、最大256基を接続できる。
DGX GH200は、ソフトウェアからは1つの大きなGPUとメモリとして扱うことができる。1兆パラメータ規模の生成AIを作るためのコンピュータで、2023年のCOMPUTEXで発表された。年内に発売予定だ。
生成AI開発とサービスに特化したハード/ソフトウェア
モデルのトレーニングには膨大なデータセットが必要だが、1回の推論の処理は遥かに少ない。だがAIを大規模に展開すると膨大なリクエストがやってくる。それをできるだけ小さなレイテンシで返さないといけない。NVIDAは、より推論に特化したモデルを構築するためのプラットフォームも提供している。
L40は画像生成を従来よりも7倍速く行なえる。オムニバースのようなデジタルツイン作成にも適用できる。H100 NVLは合計188GBのメモリを搭載している。PCI Express接続を使っているので幅広いサーバーに搭載可能だ。
開発にはソフトウェアも必要だ。NVIDIA Enterpriseは4,000以上のソフトウェアパッケージからなる。生成AIモデルを構築するためのクラウドネイティブフレームワークの「NeMo(ニモ)」はモダリティを超えたアーキテクチャをサポートし、イメージにも展開できる。NeMoは基盤モデル構築に不可欠な機能を提供する。データセットのキュレーションのためのツールや、LLMを複数に分割して複数サーバでトレーニングする機能も提供する。1つのサーバーではメモリに乗り切らない場合、分散トレーニングできるようにする。
基盤モデルをカスタマイズする機能も提供する。独自ドメイン、企業固有の知識を学習させることもできる。また人間が評価した結果を反映させることで継続的にモデルを改善することもできる。フレームワークを使って最新情報にアクセスすることもできるようになる。
生成AIを大規模に展開するための機能もある。パフォーマンスの加速、マルチGPU、マルチノードで処理するためのテンソル/パイプライン並列性、ノード内/ノード間通信のためのMPIとNCCLなどの提供により、大規模推論が可能になる。
運用時のためのガードレール機能も提供
生成AIの運用時にはガードレールを設けることが必要だ。悪意のあるコードなどを防ぐため、運用においては必須になる。NeMoでは「NeMo Guardrails」という機能を設けており、ユーザーと言語モデルのあいだの入出力を監視する。現在オープンソースとしてGithubで公開されている。
カスタム生成AIのためのクラウドサービス
ハードウェアとソフトウェアの環境を構築するのは大変なのでクラウドサービスとしても提供している。言語モデル用のNeMo、画像用のPicasso、ライフサイエンス用のBioNeMo、いずれもDGXクラウド上でハードウェア・ソフトウェアが事前に設定されているので心配なく使える。
NeMoサービスではトレーニング済みの基盤モデルも提供している。パラメータの異なる3種類のモデル(GPT-8、GPT-43、GPT-530)が用意されている。これらをベースとして用途に合わせてカスタマイズできる。
Picassoはビジュアルコンテンツ作成のためのサービスだ。NVIDIAの「Edify」モデルから画像・動画などを生成できる。
BioNeMoはライフサイエンス向けサービスでAIが分子構造を理解し、物性を予測する。基盤モデルをカスタマイズすることで創薬プロセスを加速できる。澤井氏は例としてInstadeep、Evozyne、Amgenの3社による取り組みを紹介した。
大規模言語モデルおよびビジュアル モデルを作成するためのクラウドサービス「NVIDIA AI Foundations」は、いまプライベートプレビュー、早期アクセスを提供中だ。
業務プロセス改革から産業用メタバースまで
澤井氏は最後に事例を挙げた。1,600以上の生成AI関連企業がNVIDIAを活用しているという。ServiceNow(サービスナウ)は企業内の業務プロセスを一元管理して、プラットフォームに生成Aiを統合しようとしている。やりとりを要約したり、バーチャルエージェントを使ったり、インシデントの自動分類、優先順位づけなどを行なわせる。ワークフローを改善し、生産性をあげているという。
Snowflake(スノーフレイク)はデータウェアサービスを提供している会社だ。Snowflakeの顧客がデータウェアハウス内のデータを使ってカスタムLLMを構築するのを助けている。
世界最大の広告代理店・WPPは、産業用メタバースアプリを構築するためのOmniverseクラウド上に生成AIコンテンツエンジンを構築している。高度にパーソナライズされたビジュアルコンテンツを従来よりも迅速かつ効率的に構築できるようにしているという。このほか国内でもNVIDIAプラットフォームを使って多くの取り組みが行なわれている。
7月28日にはオンラインイベント開催
澤井氏は「ChatGPTによってAIにおけるiPhoneモーメントが訪れている。生成AIのパワーを見て誰もが業務に活用しようとしている。生成AIが扱う言語や画像は大事なデータ。活用すれば企業の生産性は飛躍的に向上する。そのためには適切なAIインフラへの投資が必要。NVIDIAプラットフォームはAIのために設計されており比類なきパワーとエネルギー効率を提供する。H100はクラウド、オンプレミスから既に利用可能で、スーパーコンピュータ規模まで拡張可能。AIの開発と展開を効率化するエンタープライズ・ソフトウェアには生成AIのための『NeMoフレームワーク』が含まれている。構築カスタマイズや独自サービスの提供も可能。生成AI開発のためのクラウドサービスの提供も開始する。用途に合わせて構築・カスタマイズできる。生成AIによる様々なアプリケーションやサービスを可能にする」とレクチャーを締めくくった。
NVIDIAは7月28日にオンラインイベント「NVIDIA 生成AI Day Summer 2023」を開催する。基調講演は東大の松尾豊氏らが行なう。そのほか様々なNVIDIAのパートナーが講演する予定だ。
なお、世界的なGPU不足については「予想を上回る大きな需要が生まれて、それに対応している。今年下期には大きく供給を増やせる見込み」とのことだった。