エクセルデータでGPTを無料でトレーニングするには? (ベータ)
CodyのナレッジベースとトレーニングChatGPTにExcelデータを追加するためのガイドを無料で提供しています。
御社のExcelデータでコーディーのトレーニングを始める前に、ボットから最高の回答を得るためにいくつかのコンセプトを明確にする必要があります。 GPT(Generative Pre-Trained Transformers)とは、文やフレーズを完成させるために、次の単語を予測するために広範なデータセットで訓練された言語モデルである。 これらは特に、構造化されていない会話や文字データの大規模なサンプルからなる自然言語データセットで学習される。 線形回帰のような統計モデルとは異なり、GPTは論理的な学習データを使って数値を予測することには長けていない。 例えば、2+2=5と主張するデータセットでGPTを訓練すると、GPTは論理的矛盾を理解しようとせずに、2+2=5と答えるだろう(これはあくまで例であり、OpenAIはこのようなクエリにも正確な回答を返す)。 これはLLMのもう一つの限界である幻覚と相まって、数学的計算には不向きな環境を作り出している。
GPTの限界を理解したところで、GPTをExcelデータでトレーニングするプロセスを無料でご案内しましょう。 CodyのナレッジベースにExcelやCSVデータを追加する方法を開発しました。 前述したように、GPTは自然言語を理解することに長けているので、Excelデータを言語モデルによって簡単に読み取れる形式に変換します。
ステップ1:エクセルデータの変換
ボットを訓練したいCSVまたはExcelデータを取得し、弊社が作成したユーティリティを使用してテキストファイルに変換します。 このユーティリティは、対応するヘッダーでデータに注釈を付けることで、エクセルデータをテキストファイルに変換します。 セル項目にヘッダーのアノテーションを付けることで、前処理の段階で文書のセグメンテーションによってヘッダーがスキップされる可能性が高くなるため、言語モデルが文脈をより理解しやすくなる。
例えば。
エクセルのデータ:
名称 | 年齢 |
---|---|
ジョン | 16 |
マリー | 18 |
テキストデータ:
{The Name is ‘John’. The Age is ‘16’.}, {The Name is ‘Marie’. The Age is ‘18’.}
生成されるテキストファイルは、JSONに似たフォーマットに従っているが、より人間に近い感覚を提供するために、より文学的なスタイルになっている。 このソリューションは現在実験段階であり、Codyアプリにはまだ統合されていませんが、GPTの3モデルすべてでうまく機能します。
ユーティリティ・インターフェース:
サンプルCSVデータ:
ボットから最高の品質の回答を得るには、変換前にデータをクリーニングすることをお勧めします。
CSVまたはExcelデータをユーティリティにアップロードした後、GPT互換テキストファイルを生成する前にデータをプレビューすることができます。
パートごとの行数:大きなデータセットの場合、データセットを複数のパートに分割することが望ましい。 この分割により、セマンティック検索が改善され、回答の質が向上する。
セル参照を含める:テキストファイルにExcelのセル参照を含める場合は、このオプションを選択できます。 ボットは、エクセルで実行可能なアクションのステップバイステップのガイドを作成する際に、これらのセル参照を参照することができます。 例えば、中央値を求める数式を生成することができる。
圧縮されたzipフォルダーが生成され、その中にはエクセルデータのすべての部分が.txt形式で含まれています。
ステップ2:Codyナレッジベースにデータを追加する
変換されたデータをCody Knowledge Baseに追加するには、以下の手順に従ってください:
- Codyのアプリケーションにアクセスし、「コンテンツ」セクションに移動する。
- ナレッジ・ベース内にデータを保存する新しいフォルダを作成します。
- フォルダが作成されたら、その中に移動する。
- アップロード」ボタンをクリックして、変換されたデータをアップロードします。
- ローカル・ストレージから、ナレッジ・ベースに追加したい変換データ・ファイルをすべて選択します。
- 選択を確認し、アップロードプロセスを開始します。
- 変換されたデータファイルはアップロードされ、作成したフォルダ内に保存されているCody Knowledge Baseに追加されます。 文書が正常に学習されると、文書のステータスが「学習済み」と表示されます。
ステップ3:ボットパーソナリティの設定
これはまだ実験段階なので、テンプレートモードに追加する前に、プロンプトの改良に取り組んでいます。
プロンプト
あなたはデータ・コーディ、私の会社のAIデータ・アナリストです。 あなたの主な目的は、提供されたExcelデータから推論を生成することです。 エクセルのセル参照は、$Cellの形式で指定することができる。 回答にはセル参照を記載しないでください。 ‘{}’に含まれる情報は1レコードである。 特定の記録の詳細を尋ねられた場合は、ポインタで列挙する。
システムプロンプト:
どんな些細なことでも聞かれたら、人間らしく答えるようにする。 自分の答えを正当化してはいけない。
関連性スコア | ワイド/バランス |
---|---|
トークン配布(コンテキスト・ヒストリ・レスポンス) | 70-10-20 |
パーシスト・プロンプト | オン |
逆ベクトル検索 | オフ |
このプロセスはGPTの3つのモデルすべてで有効なので、無料プランの方でもお試しいただけます。 しかし、GPT-3.5の16KとGPT-4のモデルは、データをよりよく理解する傾向があることは注目に値する。 無料プランで得られる回答には満足しているが、回答の書式をより柔軟に変更したり、複数のレコードを比較したりしたい場合は、GPT-3.5 16K または GPT-4 にアップグレードすることが有益です。 これらのモデルによって提供される追加のコンテキストウィンドウは、より包括的な分析とデータの操作を可能にする。
デモ
最初のクエリの参照:
2つ目のクエリの参照:
制限事項
CodyにExcelやCSVファイルをアップロードできるからといって、Google SheetsやMicrosoft Excelのような表計算ツールの直接の代替にはならない。 Codyで構造化データを扱う場合、考慮すべきいくつかの制限がある:
- 分析的課題中の幻覚:コーディに平均値、中央値、最小値/最大値を尋ねるなど、統計的または分析的な計算を伴う課題では、誤った回答が得られることがある。 コーディはリアルタイムの計算を行わないため、不正確な結果を提供する可能性がある。 コード・インタープリターや関数呼び出しのようなOpenAIの最近のアップデートは、将来的にこれを改善するかもしれない。
- レコード比較中のエラー:場合によっては、Codyがドキュメントの異なるセグメントからデータを取得する際に問題が発生し、その結果、情報が利用できないことを示す応答が返されることがあります。 このシナリオは、無料プランで利用可能なGPT-3.5モデルで可能性が高くなります。 ベーシックプランまたはプレミアムプランにアップグレードすると、GPT-3.5 16KモデルまたはGPT-4モデルを使用できるようになります。 これらのモデルはどちらもコンテキストウィンドウが大きく、この制限に対処できる可能性がある。
結論
このような制限はありますが、このプロセスは、ビジネスFAQデータや、従業員のトレーニングデータなどのリテラルデータがExcelやCSV形式で保存されている場合に特に有効です。 Codyは、このデータに対して何の修正も必要とせずに訓練することができる。 Codyはまた、単一のレコードの詳細を取得したり、データを説明したり、貸借対照表や売上高のような数値データセットから推測される洞察に基づいて提案を提供したりする際にも優れたパフォーマンスを発揮する。
エクセルやCSVデータでコーディをトレーニングするための暫定的なソリューションとして、この方法についてのご意見をお寄せください。 私たちはあなたの意見を尊重し、私たちのDiscordサーバーで、またはヘルプを得る機能を通じて私たちとあなたの考えを共有することをお勧めします。 私たちはあなたの経験を聞き、あなたのフィードバックから多くを学びたいと思っています。 エクセルデータを使ったGPTの無料トレーニングのアプローチ、気に入っていただけたでしょうか? コーディについてもっと知りたい方は、私たちのブログをご覧ください。