Developers Summit 2026 セッションレポート

国産LLM「tsuzumi」開発者が解説！コーディング能力の獲得手法から「SWE-bench」など評価指標まで

【19-D-1】ソフトウェア開発に向けた大規模言語モデルの応用と発展

2026/04/15 09:00

ポスト

　生成AIの台頭により、ソフトウェア開発のあり方が根本から問われる時代を迎えている。単なるコードの補完にとどまらず、AIが自律的に考え、システム全体を改修する未来が現実味を帯びてきた。このパラダイムシフトの中心にあるのが、大規模言語モデル（LLM）の進化である。アメリカや中国が次々と最新モデルを発表する中、日本で国産LLMの開発に挑むのがNTTだ。本セッションでは、同社の大規模言語モデル「tsuzumi」の研究開発プロジェクトに参画する風戸広史氏が、LLMがソフトウェアの開発能力を獲得するための学習や評価の仕組み、また最新の研究動向について解説した。

ポスト

GPU1枚で機敏に動作する国産LLM「tsuzumi」、なぜ開発に至ったか？

　2022年末に登場した「ChatGPT」は世界に衝撃を与えたが、海外製の巨大なモデルは日本語の処理効率や機密情報の取り扱いにおいて、日本のエンタープライズ環境にそのまま適用するには高いハードルがあった。特に、官公庁や金融機関など、インターネットから隔離されたセキュアな環境での開発が求められる現場では、クラウドに依存するAIモデルの採用は困難を極める。

　NTTが日本発の独自のLLM開発に踏み切った背景には、そんなセキュリティや運用コストと日本語処理能力の課題があった。風戸氏は「開発環境自体がネットワークから隔離される環境でも使っていただけるようなAIを目指しています」と、同社が目指す目的地を説く。

　この仮説と課題意識に基づき開発されたのが、NTTの大規模言語モデル「tsuzumi」である。 tsuzumiは、四十年にわたるNTTの自然言語処理研究の知見を結集し、日本語の語彙や文章構造を極めて効率的に処理できる独自のトークナイザ（テキストをAIモデルが理解できる最小単位のトークンに分割する仕組み）を採用している。

本質的複雑性と偶発的複雑性 — 同じ文字列を少ないトークン数で表現し、学習・生成の計算コストを抑える「トークナイザ」

　他社のモデルでは日本語1文字を表現するのに複数のトークンを消費することが多いのに対し、tsuzumiは1トークンでより多くの文字情報を表現できる。これにより、少ない計算資源で高度な情報処理が可能となり、比較的高価なサーバーに頼らずとも、GPU1枚を搭載したローカル環境で機敏に動作する軽量性を実現した。

　海外モデルに後から日本語データを追加学習させるのではなく、ゼロから10兆トークンという膨大なデータを学習させるフルスクラッチのアプローチを採用した背景には、どのようなデータでAIが作られているかを完全に管理し、経済安全保障やAI主権を確保する目的がある。

会員登録無料すると、続きをお読みいただけます

新規会員登録無料のご案内

・全ての過去記事が閲覧できます
・会員限定メルマガを受信できます
・翔泳社の本が買える！
500円分のポイントをプレゼント

メールバックナンバー

新規会員登録無料

次のページ
大規模言語モデルが「コードの補足」に留まらず、現実の開発タスクを遂行するまで

この記事は参考になりましたか？

印刷用を表示

ポスト

Developers Summit 2026 セッションレポート連載記事一覧: 約46％のエンジニアリングリーダーが燃え尽きを経験──Coding Agentによって我々...

フロントエンドでは完結しない？厄介な「2重リクエスト」の攻略HANDBOOK

ピクシブがLLM利用率80％を実現した「テクノロジー・プロセス・ピープル」三位一体の変革

もっと読む

この記事の著者: 中野佑輔（編集部）（ナカノユウスケ）

　日本総合研究所を経て2025年よりCodeZine編集部所属。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事; 関口達朗（セキグチタツロウ）

フリーカメラマン　1985年生まれ。東京工芸大学卒業後、2009年に小学館スクウェア写真事業部入社。2011年に朝日新聞出版写真部入社。2014から独立し、政治家やアーティストなどのポートレート、物イメージカットなどジャンルを問わず撮影。2児の父。旧姓結束。趣味アウトドア。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事