海外のソーシャルメディアではここ数日、「ジブリ風」のアート画像が話題になっている。ユーザーはソーシャルメディア上でジブリ風のアート写真を共有しており、業界関係者はこれをジブリ風ミームのトレンドとみなしている。
誰かが、イーロン・マスク、ドナルド・トランプ、『ロード・オブ・ザ・リング』などのジブリ風の画像や動画を生成して投稿しました。 OpenAIのCEOサム・アルトマン氏も、自身のソーシャルプラットフォームXのアバターとしてジブリ風の個人画像を設定した。
ジブリスタイルとは、日本のスタジオジブリに代表される、温かみがあり幻想的で繊細な手描きの質感を持つ美的スタイルを指します。 『千と千尋の神隠し』や『となりのトトロ』など、よく知られている作品はスタジオジブリの代表作です。
ユーザーたちはここ数日、繊細なパステル調の画像をソーシャルメディアでシェアして大騒ぎしている。これはすべて、OpenAIが3月25日にリリースしたChatGPT-4o画像生成機能のおかげです。
検索データによれば、新しいモデルの導入後、Googleトレンドでキーワード「ChatGPT」が一時的に「Google」自体を上回った。そして、月曜日(3月30日)のわずか1時間で、ChatGPTへの登録数が100万件を超えました。 OpenAIのCEO、アルトマン氏はGPT-4oを「これまでで最高のモデル」であり「私たちがこれまでに公開したものの中で最も興味深くクールなもの」と呼んだ。
しかし、新しいモデルの導入と大量のユーザーの流入により、ChatGPT ではコンピューティング リソースが不足しています。
アルトマン氏はソーシャルメディア上で、GPUが溶けていると述べた。
これは、GPT-4o が、より多くの計算能力を使用して、以前の AI アート ツールとはまったく異なる方法で画像を生成するためです。ほとんどの画像ジェネレーターは拡散モデルを使用します。拡散モデルは、多数のランダムなピクセルから開始し、鮮明な画像が形成されるまで継続的に調整します。
しかし、GPT-4o は、テキスト推論を処理するのと同じように、ピクセルごとに予測する自己回帰アプローチを使用します。 GPT-4o は独立した DALL-E テキストベースの画像モデルを呼び出さなくなりました。代わりに、GPT-4o のマルチモーダル機能を使用して、画像を生成するときに指示により正確に従い、画像上のテキストをより正確にレンダリングし、一貫した文字画像を維持しながら複数回の反復的な画像最適化をサポートします。
このアプローチにより、より正確な詳細と優れたテキスト レンダリングが実現しましたが、OpenAI の GPU にとっては「溶けてしまう」ものでした。
ChatGPT の画像生成と他の AI モデルの画像生成の違いは、簡単に言えば、「絵を描くこと」と「モザイクを作ること」の違いです。ユーザーが画像を要求するたびに、複数の GPU コアがトリガーされ、複雑な数学的計算を並行して実行するため、大量の電力が消費され、高温が発生します。フル稼働で長時間実行すると、ハードウェアが損傷する可能性があります。
GPU コンピューティング リソースの過剰消費の問題を解決するために、強力な Microsoft と SoftBank の支援を受ける OpenAI は、コンピューティング リソースの不足を心配する必要がありません。しかし、OpenAI の大規模モデルに強力な GPU コンピューティング能力を動的かつ均等に供給するにはどうすればよいでしょうか。 AIテクノロジー、ブロックチェーン、プライバシーテクノロジーに基づいた分散型コンピューティングクラウドサービスが解決策となるかもしれません。
Google、Microsoft、AWS、Nvidia などの集中型コンピューティングの大手企業にとって、コンピューティング リソースの供給は懸念事項ではありません。しかし、どのように動的に供給のバランスをとるか、たとえば、大規模な 24 時間動的バランス供給モデルなど、それが現時点で検討すべき課題となっています。 ChatGPT が市場に投入されて間もなく、ほとんどの大規模 AI モデルでは、おそらくコンピューティング リソースとパフォーマンスを考慮して、ユーザーが夜間に制限なく AI を使用できるようになりました。
分散型コンピューティング クラウド サービス (PowerVerse など) は、供給の不均衡の問題を解決し、高性能なコンピューティング能力を提供し、コンピューティング能力の使用のしきい値とコストを下げることができます。これが近い将来、最先端技術に求められる DePIN インフラになると信じています。