[Google Cloud Next '25 Las Vegas] セッション参加レポート: プロンプトの上手な書き方（Long context）

2025.04.16 2025.04.25 杉山聖乃

next25lv_kv

Google Cloud Next '25 Las Vegasとは

Google Cloud Next '25は、2025年4月9日から4月11日の3日間、アメリカ・ラスベガスのMandalay Bayにおいて開催されるGoogleのクラウドサービスに関する世界最大級のイベントです。「今回は、これまでで一番多彩なデベロッパーコンテンツを用意します。デベロッパー専用のエクスペリエンスやコンテンツを充実させ、アプリ開発や AI のほか、スケーラブルで安全なデータ駆動型アプリケーションの学習や開発に役立つ重要なトピックを網羅します。」と銘打っており、AIコンテンツで大いに盛り上がった昨年や一昨年にも勝るとも劣らないイベントとなることが期待されます。

私たち日本情報通信株式会社も、Google Cloudに精通した専門家として、技術イノベーションの最新動向を取り入れ、顧客に対するソリューション提供に活かしていくことを目指して参加しています。

このような貴重な機会ですので、現地からいち早くブログで最新情報や熱量を発信してまいります。

本記事で紹介するセッション概要

講演日時：2025年4月10日
セッションタイトル：Long context is all you need
セッション内容のサマリ
Geminiは、最大200万トークンという画期的な長文コンテキストウィンドウをサポートするために、ゼロから構築されました。ニコライ・サビノフと共に、この長文コンテキストを最大限に活用する方法と、無限のコンテキストがもたらす可能性を探りましょう。

このセッションで期待できること

以前中々思うような回答をGeminiにもらえなかったとき、「GeminiはLong contextを受け付けるから、なるべく多くの情報を与えた方がいい！」とアドバイスをくださった方がいらっしゃいました。そんな言葉を思い出し、プロンプトを上手く書くことが業務効率化にもつながる時代、どんな書き方が最も良いのか！といった情報を得られることに期待して参加したセッションです。

セッション内容

生成AIの各モデル比較等を行う際、よく「トークン」という言葉を耳にすることがあると思いますが、「トークン」というのは、LLMが処理する基本的な単位のことです。英文のテキストの場合は、単語、単語の一部、句読点などが該当します。

では、今回の表題にもある「コンテキスト」とはなにかというと、プロンプト自体やPDFなどのファイル、Wikipediaのような背景情報を指し、関連性の高い回答を生成するために不可欠な情報のことです。

コンテキストがない場合、LLMは訓練データに基づいた内部メモリに頼るしかなく、情報の陳腐化などの問題が起こります。例として、最新のGeminiのバージョンに関する質問を行った結果が以下の通りです。

単純に "What is the latest version of Gemini available to users right now?"のみをプロンプトに入力した場合、訓練データが古い赤の回答は "Gemini 1.5"と誤った回答をしています。一方、コンテキストを追加した緑の回答は"Gemini 2.5 Pro"と正確な回答を返しています。

さらにAgent等での利用を想定した場合、「明日のフライトを予約して」とのみ入力しても情報が足りず実行はできません。一方、次のようにメールの内容をコンテキストとして追加することで、Agentを思うままに動かすことが可能になります。

長文コンテキストは、ユーザーが望むだけの多くの情報を提供することを可能にし、情報選択の煩わしさを解消することが可能です。最新のWeb検索や企業内の知識を活用することで、LLMはハルシネーションや一般的な回答ではなく、より関連性が高く、役立つ回答を提供できます。

以下では①Gemini 2.5 Proの機能について ②Long contextとRAGの比較 ③Gemini利用におけるベストプラクティスの3つをご紹介します。

Gemini 2.5 Pro

そもそもGeminiモデルはマルチモーダル対応しており、テキストやビデオ、音声、画像処理が可能です。Gemini 1.5 Proでは200万トークン、2.5 Proでは100万トークン（近々200万トークン予定）の長文コンテキストを提供しています。200万トークンがどの程度かというと、10万行のコードや2時間のビデオ、60冊の平均的な長さの英語の小説など大容量に対応していることがわかります。

また、Gemini 2.5 ProはGeminiの最新モデルであり、他の生成AIモデルと比較しても圧倒的な処理能力の高さを示しています。

MRCR（Multi Round Chat Retrieval：長いマルチターンの会話で AI モデルに対して変化球をぶつけ、それまでの会話で提供された回答を AI モデルに再現させる）
LOFT (Long-Context Frontiers：LCLMs の長文コンテキストにおける性能を評価するためのベンチマーク)
LongBench v2（長文コンテキストを必要とするタスクにおいて、大規模言語モデル（LLM）の性能を多角的に評価するためのベンチマーク）
Fiction.liveBench @120k（ユーザーがライティングタスクにおいてどのLLMを選択すべきかを示すためのベンチマーク）

Long contextとRAGの比較

長文コンテキストの代替手段として、RAG(Retrieval Augmented Generation)というものがあります。RAGは推論時に高速かつ安価ですが、マルチ推論が難しく、検索制度に依存し、システム構築と維持が複雑である欠点があります。一方、長文コンテキストはシンプルでマルチ推論が可能ですが、RAGと比べると高価で推論が遅くなる可能性があります。
※コンテキストキャッシュによって後者のデメリットは軽減可能

それぞれのメリデメを踏まえ、長文コンテキストはRAGと競合するものではなく、むしろ組み合わせることによってより多くの情報を検索し、回答を向上させることが可能です。

Gemini利用におけるベストプラクティス

これまでの話のまとめとして、セッションでは5つのベストプラクティスが紹介されました。

コスト削減を目的としたコンテキストキャッシュの利用
- 特にチャットボットなどでのファイルのキャッシュは有効的
RAGと組み合わせ数十億トークン規模の知識に対応
無関係なコンテキストを追加しない
- マルチ検索の負荷低減
リアルタイムアプリケーションにおける長いコンテキストに注意
- 長いコンテキストは遅延が大きくなる傾向にあるため、リアルタイムで必要な場合は使用に注意
困難なタスクには長文コンテキスト処理能力の高いProモデルを使用
- Flashなど速度に強みを持つモデルと使い分けるようにする

まとめ・感想

Gemini 2.5 Proの登場により、益々困難なタスクにも対応できるようになったGeminiですが、利用者としてもよりGeminiを活かせるようなプロンプトの書き方・情報の与え方を学ぶ機会となり、大変有意義なセッションでした！是非皆さまもベストプラクティスに沿った書き方でレベルアップしたGeminiを体感していただければと思います。