ChatGPTの仕組みや学習方法を図解を用いてわかりやすく解説！

「ChatGPTが自然な回答を出せる仕組みを知りたい！」
「ChatGPTはなんで嘘をつくの？」

といった疑問をお持ちではないですか？ChatGPTは、人間による調整が行われたGPT-3.5という大規模言語モデルを軸に動くAIチャットツールです。たくさんのデータをもとに自然な文脈の回答を出力できるだけでなく、人の手で調整を行ったことで人間の意図を汲んだ回答を出力できます。

本記事では、ChatGPTの前身モデル「InstructGPT」の学習方法を中心に解説し、ChatGPTの仕組みを紐解いていきます。AI技術にくわしくない方でもわかるように、噛み砕いて解説しています。ぜひ参考にしてみてください。

AIチャットで
コンバージョンを自動化しませんか？

うちのAIなら
ChatGPTで御社の業務を効率化
できます。

ChatGPTの仕組み

ChatGPTは、大規模言語モデル「GPT-3.5」を搭載したAIチャットツールです。多くのデータをもとに学習した言語モデルにより、利用者の指示に対して適切な回答を出力できるようになっています。これまでにもAppleのSiriやAmazonのアレクサなど、人工知能を用いたチャットサービスは存在しましたが、従来のチャットサービスに比べ、より人間らしい回答ができる点が高く評価されています。

ChatGPTが人間好みの回答を出力できるのは、人の手で細かな調整を行ってきたためです。つまり、学習の過程を読み解けば、ChatGPTの仕組みの理解を深められるということになります。

ChatGPTの仕組みを理解するための用語集

ChatGPTの仕組みを理解する上で、まず知っておきたい「大規模言語モデル」と「InstructGPT」について解説していきます。

大規模言語モデルとは

大規模言語モデル（Large Language Models：LLM）とは、大規模なテキストデータを使ったトレーニングにより構築された言語モデルのことです。従来の自然言語モデルと比べて「計算量」「データ量」「パラメータ数」が大幅に増えていることに由来して「大規模」と定義されています。

言語モデルはそもそも、単語の出現確率に基づき、人間の言語をモデル化したものです。モデルをベースに、ユーザーからの指示に対して、自然と続く文章を生成しています。

InstructGPTとは

ChatGPTの前身モデルで、GPT-3を調整してできた大規模言語モデルです。大量のデータを学習し、入力されたテキストから、次の単語を予測できる「GPT」が、有用かつ無害な出力を行えるように調整されました。しかし、InstructGPTの段階ではChatGPTのようなチャット機能はなく、実用化はされていませんでした。

ChatGPTの学習方法

ChatGPTは、InstructGPTと同じ学習手法が用いられています。そのため、ChatGPTの学習方法を理解するには、InstructGPTの理解が不可欠です。InstructGPTの学習方法について解説していきます。

InstructGPTの学習方法

InstructGPTは、下記の流れで学習が進められました。

GPT-3を人間好みの回答を出力できるように調整する
文章の良し悪しの判断を可能にするための学習を行う
ステップ1＆2を最適化させるための調整を行う

ステップごとにくわしく解説していきます。

ステップ1：監督ありファインチューニング（Supervised Fine-Tuning：SFT）

GPT-3に対して、人間好みの回答を出力できるように調整を行います。

これは、ファインチューニングと呼ばれ、学習済みのモデルを改良するために微調整していきます。インターネット上のあらゆる文章から学習したGPT-3を、人間の意図を組んで回答できるようにすることを目的として行われました。

具体的には、プロンプトのサンプルに対し、人間が作成したデータセットを学習させる施策が行われたそうです。この段階のモデルは「SFTモデル」と呼ばれています。

ステップ2：報酬モデル（reward model ：RM）の学習

報酬モデルと呼ばれる、出力した文章の良し悪しを判断するためのモデルの学習を行います。InstructGPTにおいて、文の良さを図る要素は下記の3つです。

正確性
無害性
有益性

プロンプトに対して複数の回答を用意し、人間が評価してランク付けしたデータを報酬モデルに学習させました。

ステップ3：人間のフィードバックによる強化学習（RLHF）

SFTモデルをより人間好みにするための強化学習を行います。このステップでは、ステップ2で確立した報酬モデルの能力を最大化するために、SFTモデルをファインチューニングします。

PPO（Proximal Policy Optimization）と呼ばれる学習アルゴリズムを用いて、大きな更新は行わずに最適化していくことで、安定的な強化を実現しています。

自社サイトにChatGPTを導入できる？

簡単2ステップで無料診断

GPT-3からInstructGPTへの変化

InstructGPTは、強化前のGPT-3と比べて、さまざまな要素が変化しました。GPT-3からInstructGPTへの強化で、変化があったポイントを解説していきます。

ユーザーの意図に沿った回答ができるようになった

引用：Aligning language models to follow instructions

上図は、各言語モデルの出力の品質を評価した結果を示すグラフです。

GPT-3とInstructGPTに同一の指示を出し、出力された文章を比較した結果、InstructGPTからの回答の方が、ユーザーの指示に従う確率が高いという結果が出ています。

害のある回答が減った

GPT-3に比べてInstructGPTでは、虚偽を含む回答や毒性の高い回答、幻覚を含む回答の生成が減り、より適切な回答が出力可能になりました。

InstructGPTとChatGPTの違い

ChatGPTは、InstructGPTと同じ学習方法が用いられていますが、使用モデルと会話データに違いがあります。

	InstructGPT	ChatGPT
使用モデル	GPT-3	GPT-3.5
パラメータ数	1,750億	3,550億
会話データ	プロンプトと、それに対する出力	人間とAIの会話

パラメータ数に倍ほどの差があることから、より有用なコンテンツの生成が可能になっています。

会話データに関しては、InstructGPTではプロンプトに対する文章の出力という単純なやりとりのみでした。対してChatGPTは、「人間とAIの会話」を学習させたことで、対話に特化したモデルになりました。

人間のAIトレーナーが、人間とAIの両方の立場を演じた会話を提供することで、モデルの微調整を行い、初期モデルを訓練したそうです。

ChatGPTのさらなる発展に期待

学習を重ねるにつれ、人間の意図を汲んだ回答を出力できるようになってきたChatGPTは、今後も進化を続け、より多くの人に利用される高精度のAIツールへと進化していくと考えています。

現段階では「嘘をつく」「情報が古い」といった部分が目立ち、求める回答を得られないことは少なくありません。有効活用しようとさまざまなプロンプトを試し、工夫を重ねる人がいる一方で、使いこなすことを諦めてしまっている人も多く、二極化している状態です。

しかし、有料プランで導入されいている「ブラウジング機能」の無料版への展開や、利用者からのフィードバックを踏まえた改善が進めば、現在ChatGPTが抱える多くの問題は解消されるでしょう。そして、リテラシーに関わらず多くの人が気軽に利用できるようになるはずです。

今後、ChatGPTは進化に伴い、その仕組みも複雑化していくと考えられます。今のうちから理解度を高め、変化に対応できるように準備をしておくことが、AI時代を生き抜く鍵となるかもしれません。

参考文献

Aligning language models to follow instructions

Introducing ChatGPT

この記事を書いたライター

樋口可奈

運営元のJetB株式会社メンバーで優良WEB立ち上げから参加。得意ジャンルはSEO、マーケティングやEC分野。これまでに数百記事を執筆した経験を活かし、読者にわかりやすい記事を提供します。趣味はアイドルのライブや漫画鑑賞。

このライターの記事一覧

この記事を監修した人

藤澤尚也

優良WEB編集長・JetB株式会社メディア事業部SV。前職の大手IT企業の同僚から誘いを受け、2018年に営業として入社。その後Webディレクターに転身し、3年以上経験を積む。多様な経験からくる幅広いWebリテラシーと持ち前の文章力を買われて優良WEBの編集長に抜擢。ベースとラーメン二郎をこよなく愛する。

この監修者の記事一覧

ChatGPTの仕組みや学習方法を図解を用いてわかりやすく解説！

ChatGPTの仕組み