AI競争の激化による2つの「変化の波」
2023年3月に「GPT-4時代のエンジニアの生存戦略」をQiitaに投稿した鈴木氏。そこから早くも1年が経ったことになるが、その間の変化はかなり大きなものであったと振り返る。
鈴木氏によると、2023年3月にGPT-4やCopilot関連のさまざまなサービスがリリースされた後、数カ月間は大きな変化がない状態が続いたものの、あっという間に競争が激化。6月頃にはAnthropic社が「Claude 2」をリリースし、その2ヶ月後にはOpenAI社が「DALL-E 3」や「GPT-4V」を発表。11月以降は怒涛のリリースラッシュで、GitHub社の「Copilot Enterprise」「Workspace」、Microsoft社の「Copilot Studio」、Stability AI社の「Video Diffusion」と続いた。そして2023年12月には、Google DeepMind社がGPT-4の数字をさまざまな面で上回る「Gemini」というモデルをリリースした。
このように競争が激化するなか、鈴木氏は「大きな変化の波が2つ発生している」と指摘する。
1つ目は、「AIとのコミュニケーション方法の多様化」である。鈴木氏によれば、従前のAIとのコミュニケーションは基本的にテキストがメインだったが、GPT-4Vの登場によってマルチモーダル化した。これを受けて、音声や画像や動画を交えた複数の要素のコミュニケーションに対応できるようになった。
鈴木氏はAIの活用例として、画像と音声入力の組み合わせによって、街を歩いている人の服装の情報を取得し、実際に買い物までできるという架空のサービスを提示する。
また工場における活用例として、MRヘッドセットと音声入力を組み合わせることで、組み立て手順をヘッドセットに投影しながら実際の組み立てを行ったり、不具合を発見した際に音声コミュニケーションによって報告を行ったり、はたまた部品が不足した際にリアルタイムでパーツ発注を頼んだりといったことを挙げる。
「つまり、AI自体がヒューマンインターフェースになる可能性が示されたということ。今まではデバイス単体で実現が難しかったことが、デバイスの接続先にAIがあることによって、実現できる可能性が開かれたというのは、非常に大きな変化だ」(鈴木氏)
2つ目の変化の波は、「自然言語によるプログラミング環境の充実」である。鈴木氏によると、2023年3月時点でも自然言語によるプログラミングは可能だったが、それをさらに拡張する環境が整ってきたという。
「GPT-4 TurboのJSONアウトプットのような形で、自然言語だけでプログラムが書ける状態になってきている。自然言語、特に英語が、プログラミング言語としてより強く機能し始めたということだ」(鈴木氏)
AIが適応可能な領域は近年非常に広がってきている。このような潮流を踏まえ、「AIを活用する能力がますます重要になってきている」と鈴木氏は強調する。