[Google Cloud Next '23] BigQueryとPaLMによる次世代データ分析

2023.09.01 2023.10.02 XIMIX 重永

Google Cloud Next '23 inサンフランシスコ

2023年8月29日〜31日、アメリカ・サンフランシスコで開催されているGoogle Cloud Next'23に、日本情報通信株式会社クラウドインテグレーション部から5名が参加しています。

このイベントは、世界最大規模のクラウドコンピューティングイベントであるGoogle Cloud Next'23で、Google Cloudの最新情報やソリューションを学ぶことができます。

基調講演やブレイクアウトセッションでは、Google Cloudのトップエンジニアやソートリーダーから直接話を聞くことができます。

日本よりも3年ほど先に進んでいると言われている現地で、最先端のGoogle Cloudの最新情報や今後の方向性について、自身の目で見てくる非常に貴重な機会です。

このような貴重な機会ですので、現地からいち早くブログで最新情報や熱量を発信してまいります。

本日は3日目となります。

いくつかのセッションやブースを回ってきた中で、参加したセッション「Next-generation data analytics with BigQuery and PaLM」についてご紹介します。

セッション概要

講演日時：2023年8月29日12:15 - 13:00 GMT-7
セッションタイトル：Next-generation data analytics with BigQuery and PaLM
登壇者
- Seamus Abshere
  - ファラデーで世界有数の消費者予測エンジンを構築
  - ファラデーの前は、銀行のインフラを構築していた
- Chris Crosbie
  - BigQuery Advanced Analyticsのプロダクトリーダー
セッション内容のサマリ
- このセッションでは、GoogleのAIに関する研究成果とイノベーションをBigQueryのデータに直接活用する方法について紹介します。BigQuery内に組み込まれた機械学習機能やモデル推論、さらにはVertex AIの大規模言語モデル（LLM）の活用方法について学びます。このセッションでは、顧客予測プラットフォームであるFaradayがBigQuery内の基礎となるLLMの力をどのように活用しているかについてのライブデモも行われます。

このセッションで期待できること

BigQueryの組み込み機械学習機能や言語モデルの活用方法について具体的な事例を見ることができます。
特に、感情分析や固有表現抽出などの高度なユースケースを簡単に実現する方法について学ぶことができます。
また、Faradayがどのように基礎となるLLMを活用し、顧客予測にどのような成果を上げているかをライブデモで体験することもできます。

セッション参加の感想

本セッションでは、BigQueryとPaLMを使用することで今後のデータ分析がどのように変わるのか説明されました。

結論を先に紹介します。

BigQuery内でテキストコンテンツを直接生成する全く新しい機能の登場
すべての操作はBigQuery内で行われるため、データを移動したり、パイプラインを構築したり、APIを叩いたりする必要がない
分析結果は古典的なモデル（NLPなどの）よりもはるかに優れている

以下、詳細を説明します。

初めに、「BigQuery内でテキストコンテンツを直接生成する全く新しい機能」であるML.GENERATE_TEXTについて紹介します。

以下の画像では、BigQueryに保存されている都市名から国名をML.GENERATE_TEXTを用いて推論しています。仮にデータ分析の際に必要な情報が抜け落ちていても、既存のデータから情報を得ることができるようになります。

ML.GENERATE_TEXTのユースケースは以下が挙げられます。

コンテンツ生成 - BigQueryのデータからパーソナライズされたメールを生成
センチメント分析 - 全てのユーザーコメントのセンチメント分析を行う
データエンリッチメント - データセットに各国の首都を追加する
要約 - このデータセットのテキストの要約を提供する
分類 - データセットのテキストを分類する
エンティティ抽出 - データセットから主なエンティティを抽出する
リライト/リフレーズ - テキストフィールドのスペルや文法を修正する

また、ML.GENERATE_TEXT_EMBEDDINGとML.DISTANCEを使うことで、ベクトル検索ができます。
ベクトル検索とは、テキストや画像、音声などのデータをベクトルに変換し、そのベクトルの類似度に基づいて検索を行う技術です。

ベクトルとは、データの特徴量を数値で表したもので、例えばテキストであれば単語の出現頻度や文脈情報、画像であれば色や形状の情報、音声であれば周波数や音色の情報などです。

ベクトル検索は、従来のキーワード検索では難しかった、意味や類似性に基づいた検索を可能にします。（古典的なモデルよりもはるかに優れている）

以下のユースケースでベクトル検索は活用されています。

LLM の長期記憶 - LLM が過去に学習したことを記憶し、それを将来の処理に使用できます
セマンティック検索 - 意味とキーワードに基づいて検索します
類似性検索 - 他のテキストに類似したテキストを特定します

そして、ここまでの操作は全てBigQuery内で完結しており、データを別の場所に移動・複製したり、外部のAPIに渡すことはしておりません。

今後は、データはクラウド上に一か所で保存され、移動や複製をせずに使用されるため、データの鮮度が常に保たれる（複製先・元のデータが古いままということはない）ようになると思われます。

また、ベクトル検索を用いることで、データ分析の精度も向上していくと思われます。

会場の様子

会場はほぼ満席で、イベント3日目にもかかわらず、熱気は冷めやらず、会場が沸き立ちました！

特に、BigQueryStudioのノートブックのリビジョン管理機能や共有機能が紹介されると、会場からは拍手が鳴りました！

今後のBigQueryの新機能と、それによりどのように皆様の業務が変わるのか、Google Cloudの最新情報をぜひご覧ください！