AIコーディングが急進化した5年、NTTのtsuzumi開発者が分析:Interop Tokyo 2026
AIコーディング急進化の5年、NTT開発者が分析

AIコーディングが飛躍した5年、NTT開発者が語る進化の軌跡

大規模言語モデル(LLM)がコーディングに活用され始めたのは2021年ごろ。それからわずか5年で、AIは競技プログラミングの問題を解くレベルにまで成長した。なぜAIはコーディングをこれほど得意になったのか。6月10日から12日まで開催された「Interop Tokyo 2026」(幕張メッセ)で、NTTの国産LLM「tsuzumi」のコーディング能力向上を担当するNTT人間情報研究所の風間広志さん(思考処理プロジェクト 主任研究員)が解説した。

tsuzumiとは

tsuzumiはNTTがスクラッチで開発した国産LLM。現行の「tsuzumi 2」は、一定の性能とGPU1枚で動く軽量さの両立を特徴としており、2025年10月に商用提供も始まった。研究開発に約3年携わる風間さんは、LLMのコーディング性能が進化した背景には、その発展に応じた手法の開発や研究があったと話す。

LLM進化の3段階:ベースモデルから推論モデルへ

風間さんはLLMの進化を3段階に分ける。最初の「ベースモデル」は「GPT-3」に代表される2020〜21年ごろのモデルで、与えた文章の続きを生成する。プログラマーが途中までコードを書くと残りを補完する「GitHub Copilot」は、この仕組みで実現した。続く「インストラクションモデル」はChatGPTの前身「InstructGPT」から始まり、質問に対して人間にとって望ましい答えを返す。そして2024年後半から登場したいわゆる「推論モデル」は、長考により難しい課題も細かく分解してステップごとに解く。競技プログラミング級の問題や、複数の開発工程にまたがる作業をこなせるようになり、「Claude Code」をはじめとした今日のAIエージェントサービスを支えている。

Pickt横長バナー — Telegram用の共同買い物リストアプリ

始まりは159GBのPythonコード

ベースモデルは、大量のテキストを与えて続きを学習させていたと風間さん。米OpenAIの研究者はソースコードを大量に与えれば続きを書けるはずだと考え、GitHubからPythonコード159GBを集めて学習させたという。これが初代「Codex」で、Copilotの最初のバージョンに使われた。ただし性能は現行のLLMと比べるべくもなく、手作りの問題164問で構成されるベンチマーク「HumanEval」の正答率は28.8%にとどまっていた。現行のLLMは9割以上を解けるという。

一方で、ベンチマークというルールが誕生したことで、新たに競争も始まったと風間さん。研究者やオープンソースコミュニティも自前のコードLLM開発に乗り出し、GitHubからコードを集めた。オープンモデル「StarCoder2」の学習用データセット「The Stack v2」は、集めたコードからライセンスに問題のないものを選び、パスワードなどの機密情報のマスキングと重複除去を施して作られ、サイズは32.1TBに達した。

しかし、収集の限界という問題も生じた。学習データ量は1年で約10倍というペースで膨らみ、Llama 3は10兆トークンに達した。GitHubのコードを集め尽くした後どうするか、という問題が浮上した。

フィルタリングで品質向上

そこで中国の研究チームが手掛けた「OpenCoder」というモデルは、集めるのではなく厳選する方法を採った。コンパイルできない、TODOやFIXMEのコメントが残っている、といった品質の低いコードを捨てていく。風間さんは「日本酒を醸すときに山田錦を選別していくように、データの品質を上げていく」と例えた。フィルタリングなしでは30点程度だったHumanEvalのスコアが、65点まで伸びたという。

一方で、捨てるのはもったいないという立場の研究もある。東京科学大学の研究グループは、別のLLMを使って品質の低いコードを書き換えてから学習に使う手法を提案した。コーディング規約に沿った書き直しなどのルールを組み合わせ、高い学習効果を得たという。

Pickt記事後バナー — 家族イラスト付きの共同買い物リストアプリ

「問題集」無限に作られるように

さらに、学習データの拡大手法として、LLM自身にコーディング問題と解答を生成させる方法も登場。これにより、学習用の問題集を無限に作り出せるようになった。風間さんは「人間が問題を作るのは大変だが、LLMに問題を生成させ、その解答をチェックするプロセスを自動化することで、質の高い学習データを大量に作れる」と説明する。こうした技術の積み重ねが、現在のAIエージェントの基盤を支えている。