はじめに
このシリーズは、新しいモデルが出るたびに「同じお題・同じプロンプト・同じビルド手順」で図解を描かせて横並び比較する定点観測ベンチマークです。今回の3モデルは左から Claude Fable 5 / Gemini 3.5 Flash / GPT-5.5 の順で並べています。
- Claude Fable 5: この作業セッションの Claude Code(モデルID:
claude-fable-5)自身が、プロンプトから直接 source を書き起こしました
- Gemini 3.5 Flash:
agy コマンド(Gemini CLI 系のローカルエージェントCLI)の print モード(agy -p)で生成。既存10題材は 2026-05-22 生成分をそのまま流用し、新題材2つだけ今回 agy で追加生成しました
- GPT-5.5:
codex exec(Codex CLI の非対話モード)で12題材すべてを今回新規生成しました
この記事は、題材設計、コード生成、比較、記事化までをAIで進める Full AI 方式で書いています。
冒頭画像と OGP には、シリーズの顔であるクマのぬいぐるみ題材の TikZ 比較を Fable 5 / Gemini 3.5 Flash / GPT-5.5 の3列で並べた画像を使っています。
比較条件
- モデル: Claude Fable 5 / Gemini 3.5 Flash / GPT-5.5
- 形式: TikZ / matplotlib / SVG
- 題材: 12題材(従来の10題材 + 今回追加の2題材)
- 総数: 12題材 × 3形式 × 3モデル = 108個
- 今回の新規生成分: Claude Fable 5 が36個、GPT-5.5 が36個、Gemini 3.5 Flash が新題材分の6個(計78個)
- 流用分: Gemini 3.5 Flash の既存10題材 × 3形式 = 30個(2026-05-22 生成)
- 確認日: 2026-06-10 JST
題材のうち5つはユーザー指定です。残りは比較差が出やすいようにAIで設計しました。今回追加した2題材(夏祭りの花火大会・Transformerのアーキテクチャ図)もAI設計で、「夜景の配色」と「高密度なラベル配置」という、従来の10題材ではカバーできていなかった軸を狙っています。過去の題材は1つも削除していません。
題材一覧
| 題材 |
出題元 |
見たい点 |
| クマのぬいぐるみ |
ユーザー指定 |
かわいさ、左右対称、部品バランス、質感差 |
| 独居おばあちゃんがリビングでテレビを見ている絵 |
ユーザー指定 |
生活空間、人物と家具の関係、構図の自然さ |
| 自分の部屋でVRゴーグルで遊んでいる様子をお母さんに見られる息子 |
ユーザー指定 |
2人物の視線、状況説明力、部屋の整理 |
| 油圧ピストンの構造解説 |
ユーザー指定 |
断面、部品ラベル、圧力の流れ |
| 7軸ロボットアームとその軸の説明 |
ユーザー指定 |
多関節、軸番号、回転方向、空間把握 |
| カルマンフィルターのブロック線図 |
AI設計 |
フィードバック、数式ラベル、信号線 |
| RAGパイプライン構成図 |
AI設計 |
取得と生成の分離、データフロー整理 |
| ゼロトラスト認証とトークン交換 |
AI設計 |
境界越え、認証経路、複雑フロー |
| ブロッホ球 |
AI設計 |
空間認識、数式、幾何配置 |
| マイケルソン干渉計 |
AI設計 |
光路、対称性、部品配置 |
| 夏祭りの花火大会 |
AI設計(今回追加) |
夜の配色、放射状の光、群衆と屋台の構図 |
| Transformerのアーキテクチャ図 |
AI設計(今回追加) |
ラベル密度、残差接続、Cross-Attentionの正確さ |
形式
| 形式 |
見たい点 |
ビルド方法 |
| TikZ |
数式や工学図の厳密さ、構文の安定性 |
xelatex -> pdftoppm -> cwebp |
| matplotlib |
手続き的に図を組み立てる力、部品配置の堅さ |
python -> png -> cwebp |
| SVG |
生の座標設計とレイアウト感覚 |
rsvg-convert -> png -> cwebp |
ベンチマークケースについて
- ユーザー指定ケース: クマのぬいぐるみ, 独居おばあちゃんがリビングでテレビを見ている絵, 自分の部屋でVRゴーグルで遊んでいる様子をお母さんに見られる息子, 油圧ピストンの構造解説, 7軸ロボットアームとその軸の説明
- AI設計ケース: カルマンフィルターのブロック線図, RAGパイプライン構成図, ゼロトラスト認証とトークン交換, ブロッホ球, マイケルソン干渉計, 夏祭りの花火大会, Transformerのアーキテクチャ図
共通チェック項目は scripts/diagram_benchmark_2026/manifest.yml に置いています。お題のプロンプトは scripts/diagram_benchmark_2026/prompts/ にあります(3モデル共通)。
source 欄は単なるパス文字列ではなく、サイト上でそのまま開ける公開 source へのリンクにしています。
実行方法
各モデルの生成経路はそれぞれ次のとおりです。
- Claude Fable 5: この作業セッションの Claude Code 自身が
prompts/ の各プロンプトから一発で書き起こし(レンダリング結果を見てからの手直しはなし)
- Gemini 3.5 Flash:
agy -p <prompt> の print モードで生成(run_gemini_batch.py)
- GPT-5.5:
codex exec -m gpt-5.5 の非対話モードで生成(run_codex_batch.py)
# Gemini 3.5 Flash(agy 経由)
python3 scripts/diagram_benchmark_2026/run_gemini_batch.py
# GPT-5.5(codex exec 経由)
python3 scripts/diagram_benchmark_2026/run_codex_batch.py
# 3モデル分の source を画像へ
scripts/diagram_benchmark_2026/render_all.sh fable5
scripts/diagram_benchmark_2026/render_all.sh gemini35flash
scripts/diagram_benchmark_2026/render_all.sh gpt55
CLI 経由の2モデル(Gemini / GPT-5.5)には「構文チェック(SVGのXMLパース・Pythonコンパイル・xelatexコンパイル)に通るまで最大3回リトライ」という同条件のバリデーションを掛けています。見た目を確認しての描き直しはどのモデルにもさせていません。
生成時に起きたこと(記録)
定点観測なので、生成過程でつまずいた点も正直に記録しておきます。
- GPT-5.5: イラスト系のTikZ(おばあちゃん・VR息子・花火)で「未定義の色名を参照する」コンパイルエラーを繰り返し、リトライ複数ラウンドを要しました。特にVR息子のTikZは合計11回目の生成でようやくコンパイルが通りました
- Gemini 3.5 Flash: 新題材のTransformer SVG で不正なXMLを3連続で出し、再実行ラウンドで成功しました
- Claude Fable 5: ゼロトラストのTikZで、自作スタイル名が TikZ の既存キー
step と衝突してコンパイルに失敗し、スタイル名の変更(描画内容には無関係)を1回行いました
トークン消費の記録も残しておきます。Fable 5 は1Mコンテクストの31%を消費した時点で、5h limit の95%に到達しました。
この記事の作業セッションの Fable 5 のステータスライン。ctx 31%/1M の時点で 5h limit 95%(残り3h0m)。
新題材のハイライト
今回追加した新題材「夏祭りの花火大会」の TikZ 比較。夜景の配色・放射状の光・屋台と群衆の構図という、これまでの題材にはなかった軸で差が見えます。
出力一覧
01. クマのぬいぐるみ
お題
- かわいいクマのぬいぐるみを正面向きで描く
- 頭は丸く、耳は左右対称で少し大きめ
- 胴体は柔らかい綿入りの感じが出るように少し横幅を持たせる
- 腕と脚は短めで、ぬいぐるみらしい丸みを付ける
- 目、鼻、口、足裏、胸のワッペンなどで質感差を出す
- 暖色寄りでやさしい配色にする
TikZ
matplotlib
SVG
02. 独居おばあちゃんがリビングでテレビを見ている絵
お題
- リビングでおばあちゃんがテレビを見ている情景を描く
- おばあちゃんは一人で、椅子かソファに座っている
- テレビ、テーブル、照明、カーテンなどで生活空間を出す
- テレビの方へ視線が向いていることが分かるようにする
- 家庭的で温かい雰囲気にする
TikZ
matplotlib
SVG
03. 自分の部屋でVRゴーグルで遊んでいる様子をお母さんに見られる息子
お題
- 子ども部屋で息子がVRゴーグルを装着して遊んでいる場面を描く
- 息子は両手にコントローラーを持ち、楽しそうに動いている
- 部屋の入口側からお母さんがその様子を見ている
- 机、棚、ベッドなどで子ども部屋らしさを出す
- 人物同士の視線関係が分かるようにする
TikZ
matplotlib
SVG
04. 油圧ピストンの構造解説
お題
- 油圧ピストンの断面構造図を描く
- シリンダー、ピストン、ロッド、左右の圧力室を表現する
- 流体の流れを矢印で示す
- 主要部品にラベルを付ける
- 教育用の図として読みやすく整理する
TikZ
matplotlib
SVG
05. 7軸ロボットアームとその軸の説明
お題
- 7軸ロボットアームの全体図を描く
- 各関節を J1 から J7 までラベル付けする
- 各軸の回転方向を小さな矢印で示す
- ベース、リンク、手先の関係が分かるようにする
- やや立体感のある構図で描く
TikZ
matplotlib
SVG
06. カルマンフィルターのブロック線図
お題
- カルマンフィルターのブロック線図を描く
- Prediction, Update, Measurement, State estimate を分ける
- 入力とフィードバックの向きを矢印で示す
- Kalman gain や residual など主要な情報流も入れる
- 制御図として見やすく整理する
TikZ
matplotlib
SVG
07. RAGパイプライン構成図
お題
- RAG のパイプライン構成図を描く
- User Query, Embed/Retrieve, Vector DB, Retrieved Context, LLM, Answer を入れる
- オンライン処理と事前の文書投入を区別する
- データフローを矢印で示す
- 現代的なAIシステム図として整理する
TikZ
matplotlib
SVG
08. ゼロトラスト認証とトークン交換
お題
- ゼロトラスト認証とトークン交換の流れを描く
- User, Browser, IdP, API Gateway, Service A, Service B を入れる
- ID token, access token, service token の流れを区別する
- 信頼境界を領域として表現する
- 複雑でも読めるセキュリティ図にする
TikZ
matplotlib
SVG
09. ブロッホ球
お題
- ブロッホ球を2D投影で描く
- x, y, z 軸を示す
-
- theta と phi の角度を小さな弧で示す
- 物理の教科書に出てくる図として整える
TikZ
matplotlib
SVG
10. マイケルソン干渉計
お題
- マイケルソン干渉計の模式図を描く
- Laser, Beam Splitter, Mirror A, Mirror B, Screen を入れる
- 光路を直線矢印で示す
- ビームスプリッタで2方向に分岐して戻る流れを見せる
- 対称性を保って配置する
TikZ
matplotlib
SVG
11. 夏祭りの花火大会(今回追加の新題材)
お題
- 夜空に大きな打ち上げ花火が開いている夏祭りの情景を描く
- 花火は放射状の光の筋で2〜3発、色を変えて描く
- 画面下部に提灯の付いた屋台と人々のシルエットを置く
- 夜空は深い紺色のグラデーション風にして星を散らす
- 光の反射や提灯の灯りなど、夜らしい演出を入れる
TikZ
matplotlib
SVG
お題
- Transformer の encoder-decoder アーキテクチャ図を描く
- Input Embedding, Positional Encoding, Multi-Head Attention, Feed Forward, Add & Norm, Linear, Softmax を入れる
- Encoder スタックと Decoder スタックを左右に分けて配置する
- 残差接続が Add & Norm に入る流れを矢印で分かるように描く
- Decoder 側の Masked Multi-Head Attention と、Encoder から渡る Cross-Attention を区別する
- 論文スタイルの読みやすいブロック図として整理する
TikZ
matplotlib
SVG
現時点の見どころ
- かわいいイラスト系では、装飾を盛る方向に出るか、破綻を避けて記号寄りに出るかが見やすいです。Fable 5 がどちらに寄るかも、左列で並べて見られます
- 夜景の花火は、暗背景での発色・光のグラデーション表現・シルエットの説得力に各モデルの個性が出ます
- 機械・制御系では、構造の整列とラベルの読みやすさで差が出ます
- Transformer 図は、残差接続と Cross-Attention の結線を正確に描けるかという「知識の正確さ」も同時に試されます
- 数学・物理系では、空間把握と数式周辺の配置の上手さが見やすいです
参考
おわりに
新登場の Claude Fable 5 を一番左の列に迎え、右列を codex exec 生成の GPT-5.5 に刷新し、新題材2つを加えた12題材 × 3形式 × 3モデルの総当たり比較にしました。同じお題でも、モデル差と形式差を1画面で見比べられます。次のモデルが出たら、また同じお題で定点観測を続けます。