自社が「AIに引用されているか」を手動で観測する方法——LLMO定点観測のはじめ方

ChatGPTやClaude、Gemini、Perplexityといった生成AIに「●●業界のおすすめは？」「××サービスを比較して」と聞かれたとき、自社が回答に登場するか——これをLLMO（LLM最適化）の効果指標として観測したい、という相談が増えています。

本格的な定量計測ツール（CitelligenceやSpotlight、Otterly等）は月額数百〜数千ドルかかりますが、まずは社内で手動の定点観測から始めるのが現実的です。ただし、何も考えずに「同じ質問を週1回投げてスクショを撮る」だけだと、観測データを誤読する落とし穴があります。

この記事では、広報・マーケティング部門の若手1名が週2〜3時間で回せる、現実的な手動観測の手順を解説します。

なぜ「ただ質問を投げる」だけでは不十分なのか

ChatGPTもGeminiも、メモリ機能でユーザーの過去の会話を参照して回答を個人化します（Claudeも有料プランで類似の設定があります）。

これが何を意味するかというと——

担当者のAさんが、自分の業務用ChatGPTアカウントで「Web制作会社のおすすめは？」と聞いたとします。ChatGPTはAさんの過去の会話から「Aさんは中堅製造業の広報担当」「以前にサイトリニューアルを相談していた」を覚えていて、Aさん向けの答えを返します。このとき自社が回答に登場した場合、それが「LLMO施策の効果」なのか「Aさんが過去に自社の話題を出していたから」なのか、区別できません。

しかも、AIの回答は同じ質問でも毎回少し揺れます（生成の確率的な性質によるものです）。1回のスクショを根拠に「先月より露出が増えた」と判断するのは、コインを1回投げて「表が出やすい」と結論づけるのに近い話です。

つまり、同じ条件・同じ作法で・複数回測る——という観測の基本作法が必要になります。

はじめの一歩：観測の準備

1. 観測専用のAIアカウントを4つ用意する

担当者の業務用アカウントとは別に、観測専用のアカウントを4つ作ってください。

ChatGPT用：新規メールアドレスで登録、設定でメモリ機能をオフ
Claude用：同上、メモリ機能をオフ
Gemini用：新規Googleアカウント。検索・YouTube等の履歴連携も最小限に
Perplexity用：Perplexityはユーザー履歴の影響が小さいので、ログアウト状態のシークレットウィンドウ運用でも可

無料プランで構いません。観測専用なので、業務会話を一切入れないルールにしてください。アカウントの管理は広報部門のひとつのGoogleドライブ等で集中管理し、退職者が出ても引き継げるようにしておきます。

2. 観測用の質問リストを20本用意する

自社業界で、見込み客が実際にAIに投げそうな質問を20本選びます。SEOキーワードのように単語を並べるのではなく、自然な文章で書くのがコツです。

質問は以下の3カテゴリから、それぞれ6〜7本ずつ選ぶとバランスが取れます。

比較系：「中規模企業向けのCRMサービスを5つ比較して」「Webサイト制作会社で、BtoBに強いところを教えて」
推薦系：「製造業のサプライチェーン管理に強いSaaSを教えて」「採用広報に強いコンテンツ制作会社のおすすめは？」
課題解決系：「営業資料の作成に時間がかかるんだけど、どうすればいい？」「BtoBサイトのリード獲得が伸び悩んでいる、何から見直すべき？」

質問リストは1度作ったら3か月間は変えないでください。途中で質問を変えると、変化が「施策の効果」なのか「質問が変わったから」なのか分からなくなります。

3. スプレッドシートのテンプレートを作る

Googleスプレッドシートで、以下の列を持つ記録シートを作ります。

列名	内容
観測日	YYYY-MM-DD
AI	ChatGPT / Claude / Gemini / Perplexity
質問番号	Q1〜Q20
試行回数	1〜3
自社言及	あり / なし
自社サイト引用	あり / なし
言及された競合（最大5社）	社名カンマ区切り
自社の登場順位	何番目に出たか（出なければ空欄）
回答全文URL	スクショ or テキスト保存先のリンク
備考	個人化アカウント結果との差分メモ等

質問20本×AI4種類×試行3回＝週240セルの記録になります。手作業でこなすには上限が240セルくらいまで、というのが現実的なラインです。

実践：毎週の観測ルーティン

Step 1：観測日と時間帯を固定する

毎週同じ曜日・同じ時間帯（例：火曜日の午前10〜12時）に観測を行います。AIの回答は時間帯やサーバー負荷で揺れる可能性があるため、条件を揃えるのが基本です。

Step 2：1質問につき新規セッションで3回投げる

ChatGPTの場合、左側の「新規チャット」を毎回押し、前の会話文脈をリセットしてから投げます。1つの質問につき3回——これで多数決が取れます。

「3回中2回以上で自社が言及された」場合のみ、「あり」に分類するというルールを決めておくと、判断がブレません。1回だけのまぐれヒットを過大評価せずに済みます。

Step 3：個人化ありの結果も並行して記録（任意・余裕があれば）

担当者の業務用アカウント（個人化あり）で同じ質問を1回ずつ投げ、観測専用アカウントの結果と並べて記録します。

このとき、両者に差があれば——たとえば「観測専用アカウントでは自社が出ないが、業務アカウントでは出る」——その差分こそが、自社業界におけるAIパーソナライゼーションの強さを示す指標になります。

Step 4：週次でサマリを作る

毎週末、シートから以下の数値を集計します。

自社言及率（質問20本×AI4種類＝80パターン中、自社が言及されたパターンの比率）
自社サイト引用率（同上で、自社サイトがリンクされたパターンの比率）
競合別の言及回数ランキング（どの競合がよく出ているか）
「個人化なし」と「個人化あり」の差分

3か月後、この週次サマリを並べると、自社の施策が効いた領域・効いていない領域が構造的に見えてきます。

観測データの読み方——絶対値ではなく「変化」を見る

ここが最も重要なポイントです。

手動観測のデータは、絶対値（「自社言及率35%」など）を社内に報告する用途には使うべきではありません。サンプル数が少なすぎますし、AIの個人化や生成揺らぎの影響を完全に排除はできません。

代わりに、先月と比べてどう変わったかという相対的な変化を見るのが正しい使い方です。

「3月は競合A社・B社が頻出していたが、5月にはC社・D社に入れ替わった」
「比較系質問で自社が言及される頻度は変わらないが、課題解決系質問では言及が増えた」
「ChatGPTでの言及率は変化していないが、Geminiでの引用率が下がった」

こうした構造の変化は、コンテンツ施策・PR施策・第三者メディアへの露出戦略の優先順位を判断する材料になります。

「自社の言及率が35%から42%に上がりました」というレポートは社内で誤解を生みますが、「比較系質問でC社が新たに頻出するようになった——同社のコンテンツ施策を分析すべき」というレポートは、次のアクションを生みます。

使いこなすためのコツ

質問リストは3か月固定：途中で質問を変えない。変えるならリストを「v1」「v2」と分けて、別観測として並行運用してください。
スクショは必須ではない：AI回答の全文をテキストでコピーしてスプレッドシートのリンク先（Googleドキュメント等）に保存すれば十分です。スクショは検索もできず、保管容量も食います。
判断ルールを最初に決める：「3回中2回以上で言及」「ブランド名の表記揺れ（株式会社の有無）はあり扱い」「英語表記でも自社言及とみなす」など、観測前に文書化しておきます。
担当者を1人に固定する：曜日や時間帯を揃えても、観測者が変わると判断基準が揺れます。最低3か月は同じ担当者が回す前提で人選してください。
本格的な定量計測への移行タイミングを決めておく：3か月続けて「手動では足りない」と判断したら、CitelligenceやSpotlight等の専門ツール（月額数百〜数千ドル）に移行します。手動運用は専門ツール導入の判断材料を作るための助走期間でもあります。

まとめ

LLMO定点観測は、ChatGPTやGeminiのメモリ機能による個人化と、AIの生成揺らぎを踏まえた統計的な観測作法が必要です。手動運用でも、（1）観測専用アカウントの分離、（2）3回投げて多数決、（3）絶対値ではなく構造変化を見る——という3つの作法を守れば、3か月後には施策の判断材料になるデータが揃います。

広報部門の若手1名が週2〜3時間で回せる、専門ツール導入の前段階として最適な運用です。「来週から始めるならどう動くか」が、この記事で具体的に見えていれば幸いです。

この記事の著者今津学株式会社ノース・ヒル　AIディレクター

著者について →