機密情報を外に漏らさぬために

こんなXでのポストを目にしました。

昨今、これはフィクションだ！という人もいらっしゃるようですが、それ以上に重要なのは「そうならないようにちゃんと周辺コンポーネント含めて情報見てる？」ってことでして。そのことについて今回は話してみたいと思います。

このストーリー内では、筆者はこんな対策をとってたようです。

この人はChatGPTを使っていた
学習に使用されないよう、オプトアウト設定をしていた

オプトアウト設定をしていたということは、有償アカウントを使用していたのだろうと推察していますし、いろんな相談を無節操に質問しまくっていたとすると、単純にそれらを何も足してないChatGPT環境で実行してるのではなく、Grounding機能やエージェントをそれなりに突っ込んで動かしてたのかな？と読み取りました。

オプトアウトとは？

オプトアウトというのは、所謂「御社の基盤にある私のデータを勝手に使わないでね」と主張することで、例えばOpenAI社のモデルに対して「学習しないでね」とか「コンテンツフィルタに使わないでね」とか「いちいちあなた方が不正監視しなくてもいいから」ということで、データを蓄えさせたり、許可なしにユーザデータを使用させないようにする設定です。

Enterprise分野になるとこの設定は必須の設定であり、Enterprise用途として必要最低限の実装はできる人だと読み取れました。

しかし、SNS等に無節操に入れたデータがなぜか漏洩し、調査したところ、

「調べてみると、俺が使っていたのはChatGPTだけじゃなかった。比較のために何個か試してたマイナーなAIサービスの中に、デフォルトで会話が公開設定になっているものがあった。しかも無料プランでは会話ログが検索エンジンにインデックスされる仕様。利用規約の一番下に小さく書いてあったらしい。読んでない。当然読んでない。」

とのこと。

そもそもChatGPT以外のサービスに問題があったようで、そこのAIサービスがやり取りした内容を公開設定にしたとのことで、SNSに情報が拡散されたとのこと。しかもそれは無料Tierで使用しているということ。利用規約は読んでないとのこと。

このあたりをフィクションとして突っつかれてることで炎上したようなんですが、ここで重要なのがいくつかあります。

公開設定という設定があるということを見落としている
無料Tierを利用し、それを契機に情報が拡散されていること

この見落としは意外と多いんじゃないでしょうか。
意外とUIの見分けが出来なくなっていて、本来ChatGPTでやり取りしてたつもりが違うサービスのUI上で危ない情報を入れたりというのは割とあるあるな話がしましたし、気づかないうちに無償Tierを利用してたというのもこれまたあるあるな話に思えます。

ここから、最低限学んでほしいことについて述べていきたいと思います。

無償でAIを触ろうとするな

まず、無償サービスに機密情報を突っ込むのはちょっと厳しいのかなと思います。ご存じのようにAIサービスというのは相当なコストを伴ってサービスが提供されます。これが国としての福祉、地球人としての福祉サービスということであればわからんでもないですが、サービスを提供するのはいろんな「営利企業」です。

なので当然それは回収しようとします。場合によってそれはプロモーションとしての用途であり、有償Tierへ導くことが回収に該当するという人もいらっしゃるのでしょうが、現実はそんなに甘くなく。学習データとして入力データを生かさせてもらうために無償提供するケースも実は少なくありません。

例えばGeminiシリーズの「Experimental」モデルはいわゆる「実験」モデルであり、入力データは原則学習用途に利用されます。学習を避けるなら基本は有償ユーザであってもPreview以降にしなければなりません。他社モデルもそうです。

また、DeepSeekやQwenを提供する中国産モデルについては、ローカルLLM用途であれば看過できますが、API提供方式でアクセスすることはやめておいたほうが無難です。API提供をしているのがどこであるかをまずは把握してください。中国国内において、法的に政府に対する情報提供が求められた際にこれを守るよう定められているからです。

決められたツール以外は基本使うな

基本、ChatGPTというのは個人ツールです。個人ツールに業務情報を入れるのは原則やめましょう。そういう場合はEnterprise用のサービスを使用すべきなのは言うまでもありません。これは、個人ツールのほうが頻繁に利用規約の変更が発生するためです。ある日ひっそりメールが飛んできても、ほぼ確実に私たち一般ユーザはその通知を看過します。が、商用ユーザの場合、それを見て把握することがお仕事ですから、もう少し担当者はちゃんと見て対策を講じます。

個人ツールを使うことは個人で責任を負うことにほかなりませんので、個人ツールの利用は極力やめましょう。
また、ChatGPTのようなSaaSですと、入力データは開示の許可・不許可関係なくそのデータはサービス企業側のストレージに格納されます。APIの場合ですと、そのサービスによりけりですが、場合によっては「オプトアウト」を仕掛けることによりサービス企業側のストレージにデータを残さずに対応することができる場合もあります。

個人ツールは非常に便利ですが、先述したようにそれを使うということは「個人責任で業務を行う」ことを意味してますし、プライベート情報を記述することは「そうしたリスクを受容する」ことを意味します。くれぐれもこの点、理解の上で利用するようにしましょう。

周辺コンポーネントのデータIN/OUT関係をきちんと把握しよう

エージェントやSkillsなどを使用した場合、別のAPIサービスにコンタクトする形で処理が行われることになります。その際の別のAPIとやらにはどんなサービスがいて、どういう処理が行われるのか、そこに漏洩リスクが歩かないかは厳に確認することがおそらくは必要になってきます。

その外部APIサービスにAIモデルが「〇〇〇に関する検索」とかやって、加えて「〇〇〇」は今後のために公開情報として掲示することがあります・・とかなってたら大変だと思います。実際、昔のGoogleでは面白機能として直前に全世界のユーザのうち、〇〇語だとこんな検索ワードがありました的なものが流れる機能があったりして、それがテレビ番組で使われたりしていました。
仮に危ないのが流れていたとして、Google社なりテレビ局なりがそのあたりは削除して放送するのでしょうが、それでも公開の場に危ないワードが流れることはありうる話で、今考えると非常にぞっとします。

昨今、検索エンジンをAIに使わせるというのは、Enterprise領域にあっては危険と判断されたのか、Google社は一定の代替策としてVertexAISearchを推奨しています。こちらは、Microsoft Azure AI Searchに似た機能とも言え、検索情報のドキュメントやサイト情報を加えてインデックスに蓄え、その中から検索する機能がありますが、一部Enterpriseフィーチャーの中で「指定した外部サイトの検索をする機能」があります。

こうしたEnterprise向けの機能をうまく活用することにより、制御可能な情報減の中を探索させるような手法が徐々に出来上がってきているところです。広い情報が欲しいというのはわからないでもないですが、昨今はそうしたものに価値を見出して徐々に門戸を閉ざしているケースが増えてきてますし、実際SEO対策とかあるように危険な情報が簡単に検索できるような無秩序な一面が目立ってきていることから、こうしたところは致し方ないのかなと思います。

同時に、AIに対するガードレール設定がどんどん組み込まれており、危険サイトの検索がなされないように、あるいは危険を及ぼす回答をしないようにモデル自体に強力な学習を施して回答を拒絶するような仕組みが実装されているところです。が、どうしてもアンダーグラウンドな領域は実社会と同様に存在します。このあたりの連携ロジックなどは、システム供給側とともに利用者も一定の認識が必要です。