スピルバーグ映画の冒頭のような話です。 1990 年代初頭、アリゾナ州の人里離れた砂漠の真ん中にある小さなゴルフリゾートタウンを思い浮かべてください。砂地の庭を持つ郊外風のスタイリッシュなランチハウスが立ち並ぶ袋小路の突き当たりに、開いたガレージのドアがある。カメラはゆっくりとガレージの中に入ると、古い IBM のコンピューターが積み重なっているのが見える。モニター、キーボード、配線をかき分けているのは 10 歳の少年で、システムを組み立てるために必要なパーツを選んでいる。Greg Diamos 氏にとって、この現実の光景は AI の誕生を描いていると言っても過言ではないでしょう。
彼の人工知能への追求は、実は幼少期から始まっていました。MLCommons と AI 企業 Lamini 社の共同設立者である Diamos 氏は、母親が IBM での本業から持ち帰ったコンピュータをいじって幼少期を過ごしました。
「退屈で退屈でたまらなかった」と振り返ります。
この Tech Barometer のポッドキャストでは、Diamos氏がいかにして IBM のマシンがコンピューターへの執着に火をつけ、企業向け AI ソフトウェアのパイオニアとなったかを語っています。
2000 年代、彼は Baidu のシリコンバレー AI ラボに在籍していました。検索エンジンの機能強化を任された Diamos 氏と彼のチームは、ディープラーニングシステムのスケーラビリティという重要な事実に遭遇しました。
「それは、物理学の方程式、E = MC の 2 乗のような、一次方程式に当てはめることができます」と彼は言いました。「非常に単純で、一貫性のある関係でした」
このブレークスルーは技術的な達成にとどまらず、 AI の潜在能力を着実に引き出し、より複雑で高度なタスクを達成するために段階的に発展させることができる未来へのブループリントでもありました。
「アプリケーション・レベル、あるいはユーザー・レベルでその意味を説明するならば、それは我々が繰り返し使える知能のレシピを持っているということです」。
Diamos 氏によると、このテクノロジーは ChatGPT の基礎となっており、現在 ChatGPT 4 まで進化しています。
「将来を予測するならば、データを供給し続け、計算をさせ続けることができる限り、より賢くなり続けるでしょう」
編集部注:エッジからコアまでの AI イニシアチブを簡素化し、迅速に導入できるように設計されたフルスタックのソフトウェア定義 AI 対応プラットフォームである Nutanix GPT-in-a-Box など、AI 向け Nutanix プラットフォームの詳細についてはこちらをご覧ください。
トランスクリプト:
Greg Diamos: コンピューティングは、人々に超能力のような魔法のような能力を与える方法だと思います。私は、それをすべての人に与えることができる世界に住みたい。例えば、すべての人がスーパーパワーを持ったらどうなるでしょう?私は基本的に 10 年間何もすることがなく、ガレージに山積みのコンピューターがあるだけでした。
Jason Johnson:早速ですが、Greg、あなたの仕事について少し教えてもらえますか?
Greg Diamos: 私は ChatGPT や Copilot のようなアプリケーションを実行するために必要なソフトウェア・インフラを構築している一人です。それでは、最初からお話ししましょう。私の名字は Diamos です。ギリシャの名前です。半分に切ったような名前です。約100年前、私の家族はアメリカに移住し、主に西部に定住しました。
私が生まれる前、父はアリゾナに移り住んでいました。彼の人生の目標は、引退してリラックスできる場所を見つけ、ゴルフをすることだった。それでアリゾナののんきなところに引っ越しました。アリゾナといえば、ほとんどの人は Tucson や Sedona など、普通の人が行くような場所を思い浮かべるでしょう。グランドキャニオンとかね。Carefree は誰も行かないような場所です。砂漠のど真ん中だからね。人は少ないけど、ゴルフ場がたくさんあって、とてもリラックスできる。まるでスパのようだ。だから、そういう意味ではいい場所なんだけど、 10 歳の少年にとってはとても退屈で、残酷なほど暑い場所でした。 彼らはほとんど西部に定住しました。
だから、退屈で退屈で仕方なかった。母は IBM でデータベース管理者として働いていました。当時の IBM はメインフレーム事業を行っていました。だから、基本的に前世代のものは捨ててしまっていました。母はゴミ箱行きになったマシンを全部車に積んで、車で運び出して、家のガレージに捨てていたんだ。私は基本的に 10 年間何もすることがなく、ただガレージにコンピュータの山があるだけでした。だから、 10 歳のときから 25 歳くらいまで、マシンの仕組みを理解するのにかなりの時間を費やしたんだ。そんなものを作れるなんて、私には魔法のように思えます。砂漠で育った小さな子どもでも、そんなことができたんだから。私はコンピューター工学の博士号を取得しました。その後、ジョージア工科大学に進みました。
さて、今回の話をしよう。私はこの話をするのが大好きです。私は実際に Baidu の検索エンジンで仕事をしていました。中国の Google と考えていただければいいと思います。検索バーに行くと、小さなマイクがついています。マイクを押すと、話しかけることができる。これは前世代の機械学習技術に基づいていた。機械学習は使われていましたが、ディープラーニングは使われていませんでした。これは現在、すべての主要な検索エンジンに存在しています。 2014 年か 2015 年頃、 Baidu は最初のディープラーニングシステムを導入するところでした。
Baidu Silicon Valley の AI ラボで行っていたプロジェクトのひとつは、発明されて間もないディープラーニングを応用して、その特定の製品を改善するというものでした。その際、数多くの研究者がいました。そのうちの一人が Jesse Engel でした。彼は材料科学者でしたが、ディープラーニングの研究者ではありませんでした。実際、私たちの誰もディープラーニングの研究者ではありませんでした。彼がやったことのひとつは、システムの全パラメーターに対してスイープを行ったことです。
このプロットは、システムの精度や品質と、モデルに投入されるデータの量やモデルのサイズとの間に関係があることを示しているようだ。ニューラル・ネットワークを、本物のニューロンではなく、何千何万時間にもわたって録音された人々の会話に基づいて訓練された、システム内のシミュレートされたニューロン、つまり 1 トンのニューロンの集合体だと考えてみてください。ニューロンやシミュレーテッド・ニューロンを増やし、人々が話している録音を増やしていくと、システムはより賢くなるように思えた。ただ恣意的にそうなったわけではありません。物理学の方程式、 E は mc の 2 乗に等しいような方程式、つまり 1 つのパラメータ方程式で当てはめることができる、非常に明確な関係で起こったのです。非常にシンプルで一貫性のある関係でした。これは非常に興味深いことだと私たちは思いました。このプロジェクトが成功した後、チームは大きく成長することになったのです。
私は、 40 人ほどのかなり大きな研究者グループを受け継ぎました。何をすべきか決めなければなりませんでした。今まで見た中で一番面白いと思っていたので、これが実際にできるかどうか試してみよう。これを再現してみよう。もっとよく理解しよう。私たちはその実験を約 1年間にわたって繰り返しましたが、絶対に解読することはできませんでした。さまざまなアプリケーションで繰り返し実験を行いました。画像認識でも試してみました。
さまざまなタイプの音声認識、さまざまな音声認識モデルで試しました。また、言語モデルでも試しました。当時の言語モデルは、基本的にスペルチェックとして音声認識に使われていました。基本的に、ある比率に従ってモデルのサイズを大きくすると、ある比率に従ってデータ量を増やすと、システムの品質、例えば言語モデルの未来予測能力、例えば次の単語を予測する能力が、非常に予測可能な方法で向上するという、非常に一貫した、非常に再現性のある効果が得られました。
私たちはこれを論文として発表しました。Deep Learning Scaling is Predictable Empirically(ディープラーニングのスケーリングは経験的に予測可能)というものでした。これは確か 2016 年に出たものだったと思います。知性を実際に予測できるなんて、とても奇妙だと思いました。それを証明するために、私たちはさらに努力しました。様々な機械学習理論の専門家に相談し、ようやくその理由がわかりました。なぜこのようなことが起こるのか、実は理論的な説明があるのです。これらのすべての結果から、私たちは基本的にこれを解明することはできないということがわかったのです。これは実際にあることなのです。これは実際にあることで、再現性のある関係なのです。
なぜなら、アプリケーション・レベルやユーザー・レベルでその意味を説明しようとすると、インテリジェンスのための再現可能なレシピがあるということになるからです。このレシピを適用すれば、インテリジェンスを生み出すことができるのです。その意味を私たちは理解しました。特に、私たちのグループの研究者でもある Dario Amodi は、その意味をよく理解していたと思います。彼は生物学者で、非常に詳細な計算生物学の実験を行っていました。彼はそれを GPT-2 に組み込みました。 GPT-2 はどんどんスケールアップされ、より賢くなりました。 GPT-2 は GPT-3 に進化しました。これを動かすには、膨大な量の計算が必要だったのです。
最終的に、チャット GPT と GPT-4 のあたりで限界点を超えてしまったようでした。もうスペルチェックだけではありません。英語を読み書きする能力、論理的に推論する能力、計画を立てる能力、ソフトウェアを正しく書く能力など、人間特有の能力だと考えられる能力になってきました。
これらは研究室だけで作られているわけではありません。実際に、すべてのユーザーに導入されている製品に組み込まれているのです。現在、チャット GPT のトラフィックは Netflix よりも多くなっています。このようなことを話しているのは、もう AI 研究者だけではありません。実際に普及しています。 AIにデータを与え続け、計算をさせ続けることができる限り、AIはより賢くなり続け、人間の能力を超えるような新たな能力が生まれる可能性さえあるのです。
Jason Lopez: Greg Dimos 氏は ML Commons の共同設立者であり、 Lamini社の共同設立者でもあります。また、Silicon Valley AI Lab の創設メンバーでもあり、ディープ・スピーチとディープ・ボイス・システムの開発に携わった。これは Tech Barometer のポッドキャストです。 Tech Barometer は The Forecast がプロデュースしており、エンタープライズ・ソフトウェアからクラウド革命、 AI 、デジタルトランスフォーメーションに至るまで、様々なトピックに関するテクノロジー記事を掲載しています。詳しくは theforecastbynutanix.com をご覧ください。以上、Jason Lopez がお送りしました。ご清聴ありがとうございました。
Jason Lopez 氏は、The Forecast のポッドキャストである Tech Barometer のエグゼクティブ・プロデューサーです。Connected Social Media の創設者であり、以前は PodTech のエグゼクティブ・プロデューサー、 NPR のレポーターを務めていました。
Jason Johnson 氏と Ken Kaplan 氏がこのコーナーに寄稿してくれました。Johnson 氏については Linkedin で確認できます。Kaplan 氏については LinkedIn および X @kenekaplan でご確認ください。
© 2024 Nutanix, Inc. 無断複写・転載を禁じます。その他の法的情報については、こちらをご覧ください。