AIによる画像・動画生成や自然言語処理など、ディープラーニングがより身近に
まずは深層学習(ディープラーニング)の概要から。深層学習とは、大量のデータを機械に学習させることで、画像、動画、文章などの複雑なデータを解析できるようになる機械学習モデルだ。例えば「猫」や「犬」などのラベルがついた画像を大量に読み込ませる(学習させる)と、任意の画像で「猫」や「犬」と識別できるようになる。
画像ではなく文章を分析する際は、自然言語処理と呼ばれる。人間の言葉や文章をコンピュータに理解させる時に必要になる。この場合、大量の文章を入力したLanguageモデルから意味を学習していく。
自然言語処理はWeb検索、翻訳、音声アシスタントなど身近なところで活用されている。Gmailのスマホアプリを使っているなら見覚えがあるかもしれないが、メールで簡単な返信の候補を生成することもできるようになっている。例えば同僚から「あの資料どうなってる?」という問い合わせが来たら、「ただいま準備中」など状況に合った複数の返信候補が生成される。その他にも、簡単なコード生成も可能だ。例えば「虹色の表」とテキスト入力すると、七色のテーブルのHTMLタグを自動生成する。
今年に入り「Stable Diffusion」のようにテキストから画像を生成するものが話題になり、試した人も多いのではないだろうか。「Stable Diffusion」では、例えば「青いベレー帽とチェックのタートルネックを着たゴールデンレトリバー」と入力すれば、それらしい画像が自動生成される。