こんにちは。
北海道大学調和系工学研究室(川村秀憲教授、山下倫央准教授、横山想一郎助教)です。
梅雨入りしている地域もありますが、皆様いかがお過ごしでしょうか?
北海道大学では本日から3日間、「北大祭」が開催されています。今朝のキャンパスは、準備に励む学生たちの活気にあふれていました。
さて、このメルマガを読んで下さっている方の中には、ChatGPTなどのAIを業務で活用したり、日常生活で調べ物に使ったりする方が多くいらっしゃるのではないでしょうか。
最近では、悩み相談や気分転換の雑談相手など、人に話しづらい内容をAIに相談するケースもあるようですね。
今回のメルマガでは、ChatGPTがどうして人間のような「自然な会話」ができるのか、その仕組みについて、調和技研エンジニアブログをもとに詳しく紹介します。
ご興味のある方はぜひお読みになってください。
それでは、本日もどうぞよろしくお願いいたします。
2025年6月6日配信
━━━━━━━━━━━━━━━━━━
■ 本日のTopics
【1】調和技研エンジニアブログ内容紹介
【2】調和系工学研究室WHAT’S NEW
【3】人工知能・ディープラーニングNEWS
【4】調和系工学研究室関連企業NEWS
【5】AI川柳
━━━━━━━━━━━━━━━━━━
【1】調和技研エンジニアブログ内容紹介
━━━━━━━━━━━━━━━━━━
北大発認定スタートアップである株式会社 調和技研は同社webサイトにて、エンジニアによるブログを公開し、AIの最新動向、事例、ノウハウなどを紹介しています。
最近の記事から、内容を要約してご紹介しますので、ご興味のある方はぜひお読みになってください。
*下記の文章はChatGPTを使用して、ブログ記事「人間のフィードバックによる強化学習とデータセット構築」(2025年4月24日公開)を分かりやすく要約しています。
◆ ChatGPTが「自然な会話」をできる理由
ChatGPTが人間のように自然な会話ができるのは、RLHF(Reinforcement Learning from Human Feedback/人間のフィードバックによる強化学習)という技術を使っているからです。
RLHFは3つのステップでできています。
まず、お手本で教える
Supervised Fine-Tuning(SFT)→ 人間が作成した模範解答を用いて、モデルに自然な言葉遣いを学習させます。
次に、どれがいい答えかを教える
Reward Modeling(RM) → AIがいくつか答えを出し、人が「この順でいいね」と並べて評価します。それをもとに、「人が好む答え」を予測する仕組みを作ります。
最後に、さらに上手くなるように練習する
Reinforcement Learning(RL)with Proximal Policy Optimization(PPO) → 上で作った評価をもとに、「もっといい答えを出すにはどうすればいいか」をAIが学びながら改善します。
このように、人の好みや判断を取り入れながら、AIが自分でどんどん上達する仕組みになっています。だからこそ、ChatGPTはただの言葉の機械ではなく、より人に寄り添った会話ができるAIになっているのです。
次に、SFT、RM、RLの3つのステップについて詳しく解説します。
◇ ChatGPTのコア技術:ステップ1
Supervised Fine tuning(SFT)-お手本を見せて教える学習
ChatGPTの自然な会話力は、RLHF(人間のフィードバックを使った学習)という仕組みで作られています。
その最初のステップである「SFT(Supervised Fine-Tuning)=お手本を見せて教える学習」について紹介します。SFTは、人間が作った「質問と模範解答のペア」を使って、AIに“正しい答え方”を教えるステップです。
教えるためのデータには、開発チームの手作り(質問と理想的な答えを自分たちで作る)と、ユーザーの質問データの活用(実際の利用例を参考にする)があります。このようにして、高品質な「お手本」をたくさん集めてAIに学ばせます。
開発での主な課題と対策は2つあります。
1つ目の課題は、お手本データを作るのが大変で高コストであることです。対策として、公開データを使ったり、ChatGPT自身にデータを作らせて負担を減らす方法があります。
2つ目の課題は、高性能AIモデルを使うにはお金がかかることです。対策として、無料で使えるモデルを活用したり、自分たちでモデルを作ることも検討します。
ChatGPTは、人が教えた“良い答え方”を学ぶところから始まり、その後さらに人間の好みに合わせて成長していきます。その第一歩が「SFT」という、大切な学習ステップなのです。
[ 教師ありファインチューニング用データ(SFTデータセット)の構築 ]
昔は、人が手作業で質問と答えを1つずつ作っていました。でもこれはすごく大変です。そこで最近は、ChatGPTのようなAIに答えを自動で作らせ、人がそれをチェック・修正する方法が使われています。こうすることで、効率よく高品質なデータが作れるようになります。
「prompt」= 質問や指示(例:「明日の天気は?」)と「completion」= その答え(例:「明日は晴れです。」)、このようなペアがたくさん入っているデータが、AIにとっての会話の練習帳になります。
ChatGPTのようなAIをもっと賢くするには、良いお手本がたくさん必要です。最近はAI自身の力を使ってこのお手本を作ることで、効率よく、より人に近い会話ができるAIを目指しています。
◇ ChatGPTのコア技術:ステップ2
Reward Modeling(RM)-報酬モデルの学習
ChatGPTが自然な会話をできるのは、人間の好みに合わせて学習しているからです。その中で重要な役割を持つのが報酬モデルという仕組みです。これは簡単に言うと、「どの答えが一番いいかを判断する先生」のような存在です。
学ぶ方法は次の通りです。まず、AIに同じ質問に対して複数の答えを作らせます。次に、人間がその答えを見て、「一番いい」「まあまあ」「イマイチ」と順位をつけます。そして、そのランク情報をもとに、「どんな答えが人に好かれるか」をAIに学習させます。
「良い・悪い」だけじゃなく、どちらがより好ましいかを比べることで、より人間の感覚に近づけることができます。1つの質問に対して複数の答えを比べるので、少ないデータでも多くの学びが得られる工夫になっています。
本来は人間が答えを評価しますが、時間もお金もかかります。そこで、最近はChatGPT自身に他の答えを評価させる方法が研究されています。これにより、大量のデータを効率よく、安く学習できるようになることが期待されています。
つまり、ChatGPTは「どんな答えが好まれるか」を学ぶために、人やAIの評価を使ってトレーニングされているということです。
[ 順位付きのデータ(RMデータセット)の構築 ]
報酬モデルを育てるために使うのが、RM(Reward Model)データセットと呼ばれる特別なデータ集です。
RMデータセットとは、1つの質問に対して、複数の答えをAIに作らせ、それを「どれが一番いいか?」と人が順位づけします。データには、「質問」「答えの候補たち」「それぞれの順位」が記録されます。
しかし、このランク付けは人が行うので、時間もお金もたくさんかかるのが悩みです。そこで注目されているのが、AI自身の活用です。最近では、ChatGPT自身に答えを作らせ、さらに順位付けもさせるという方法が考えられています。
ChatGPTは高性能なので、人に近い感覚で答えを比べることができると期待されています。
◇ ChatGPTのコア技術:ステップ3 :
Reinforcement Learning(RL) -強化学習
ChatGPTがより人間らしい自然な会話をするための最終調整は、「強化学習」という方法で行われます。
強化学習とは、AIが“行動に対するごほうび(報酬)”をもらいながら、よりよい行動を学んでいく方法です。まるでゲームのスコアを伸ばすように、AIは「どう答えれば一番ほめてもらえるか?」を学んでいきます。
ChatGPTの場合、まず、最初に学んだモデルをコピーし、暴走しないように “お手本”として残します。次に安全のために、そのコピーした元のモデルは固定して「監視役」として変えずに残しておきます。
そして、新しいモデルを報酬のスコアとお手本モデルとの差を計算しながら少しずつ調整していきます。
「よくなったか?やりすぎてないか?」を見ながら、PPOという方法でバランスよく学習を確認し、慎重にアップデートします。
もし報酬だけを追い求めすぎると、AIがズルをして意味のない文章で高いスコアを取ろうとすることもあります。だから、「お手本モデル」を固定して見張ることで、変な方向に進まないように調整しているのです。
ChatGPTの最終ステップでは、「より人が好む答えを出すには?」を学ぶために、報酬を使って微調整を行います。この強化学習によって、ChatGPTはより自然で信頼できる会話ができるAIになっていくのです。
[ PPOによる強化学習(RLデータセット)の構築 ]
ChatGPTがもっと自然で人間らしい会話をするための最後のステップが、強化学習(Reinforcement Learning)です。ここでは「PPO(Proximal Policy Optimization)」という方法を使って、さらに賢くなるための練習をします。
この学習では、質問(プロンプト)だけのシンプルなデータを使います。つまり、「これについて答えてください」というお題だけがあればOKです。答えや評価の情報は、ここでは必要ありません。
「質問に答える」 → 「それに報酬スコアがつく」 → 「次はもっといい答えを目指す」という流れで、AIが「どうすればもっと良い答えが出せるか?」を試行錯誤しながら学んでいきます。
このプロセスによって、ChatGPTは、より人間が好む答え方や、より自然でスムーズな会話ができるようになっていくのです。
強化学習は、ChatGPTが最後にもう一段レベルアップするための学習です。PPOという方法で、たくさんの質問に答えながら、「どう答えると人に好かれるか?」を覚えていきます。
― まとめ
ChatGPTは、人の意見(フィードバック)を活かして学ぶ方法=RLHFという仕組みを使って、3つのステップで学習しています。
まず、お手本を見て学ぶ(教師あり学習) 方法です。 人が作った「質問と正しい答え」のセットを見て、話し方を学びます。
次に、どの答えが好かれるかを覚える(報酬モデルの学習)方法です。 複数の答えを比べて、人が「これが一番いい」と選んだ情報から、好ましい答えの特徴を学びます。
最後に、もっと上手になるよう練習する(強化学習)方法です。AIが答えを出し、その「できばえ」に点数(報酬)をつけてもらい、よりよい答えを目指して改善していきます。
この3ステップを通して、ChatGPTはより自然で、親しみやすく、役に立つ会話ができるAIになっていったのです。また、学習に使うデータの作り方についても、さまざまな工夫がされています。
より詳しく知りたい方は、株式会社 調和技研webサイトのブログよりお読みいただけます
https://www.chowagiken.co.jp/blog/llm_reinforcement_learnning_h_feedback
【2】調和系工学研究室WHAT’S NEW
━━━━━━━━━━━━━━━━━━
◇ 軽井沢ラジオ大学に川村教授が出演しました
2025年5月14日放送、FM軽井沢「軽井沢ラジオ大学」に川村教授が出演しました。
番組では、川村教授の著書『10年後のハローワーク』の内容をもとに、AIの進化が加速し社会に浸透する時代をどのように考えればいいのか、AIに置き換えられる可能性のある仕事や、AI時代における人間の価値などについて、詳しく解説しました。
ご興味のある方はこちらからお聴きいただけます
FM軽井沢「軽井沢ラジオ大学:AI研究のトップランナーを直撃!AIが生活の基本的な前提が根本から覆す可能性を秘める未来に、私たちは何を知り、どう行動すべきか」
番組で紹介して頂きました川村教授の書籍はこちらです
『10年後のハローワーク これからなくなる仕事、伸びる仕事、なくなっても残る人』
★ 研究室に関連する企業・ベンチャー等のニュース
━━━━━━━━━━━━━━━━━━
◇ E資格認定プログラム提供事業者に調和技研が登録されました
一般社団法人日本ディープラーニング協会(JDLA)が実施するE資格認定プログラム提供事業者に株式会社調和技研が登録されました。
これにより、株式会社調和技研は北海道で初めてE資格認定プログラムを提供する事業者となります。
株式会社調和技研によるE資格講座の内容は下記よりご覧いただけます
https://e-shikaku.chowagiken.co.jp/
川村教授は株式会社調和技研の社外取締役をつとめています。
[株式会社調和技研(北大発認定スタートアップ)]◇ 6/4に楽天とAWLはAIサイネージ ソリューション「楽天安心サイネージ」の申込受付を開始しました
2025年6月4日に楽天グループ株式会社とAWL株式会社は、AI技術を活用したAIサイネージソリューション「楽天 安心 サイネージ」の申込受付を全国の小売店舗向けに開始しました。
本サービスはスーパーマーケットやドラッグストアなどの小売店舗を主な対象とした、万引き抑止と販売促進を同時に実現できるAIサイネージソリューションです。
万引き対策のコスト削減、店舗売上の向上を実現し、小売店舗の収益性の向上を総合的に支援します。
詳細は下記の楽天グループ株式会社プレスリリースよりご覧いただけます。
https://corp.rakuten.co.jp/news/press/2025/0604_01.html
[AWL株式会社(北大発認定スタートアップ)]
◇ 調和技研のエンジニアスタッフが共著で執筆した書籍が出版されました
2025年3月に株式会社調和技研のエンジニアスタッフ Rashedul Islam氏が共著で執筆した書籍『Artificial Intelligence for Smart Manufacturing and Industry X.0』がSpringerより出版されました。
書籍タイトル:『Artificial Intelligence for Smart Manufacturing and Industry X.0』
出版年:2025年3月
編集者 :MM Manjurul Islam, Marcia L. Baptista, Faisal Tariq
出版社:Springer
本書は、AI(人工知能)とスマートマニュファクチャリング、Industry 4.0、さらに大規模言語モデル(LLM)の産業応用について、最新の知見や事例をまとめたものです。
航空、ヘルスケア、半導体など多様な分野における実践的なケーススタディを通じて、AI技術がもたらす変革や課題、今後の展望について解説しています。
Rashedul Islam氏は次の章を担当しました。
タイトル: Advancements in AI-Based Anomaly Detection for Smart Manufacturing(スマート・マニュファクチャリングのためのAIベースの異常検知の進歩)
著者: Md Rashedul Islam & Fahmid Al Farid
Pages 37-68
https://link.springer.com/chapter/10.1007/978-3-031-80154-9_3
[書籍『Artificial Intelligence for Smart Manufacturing and Industry X.0』]
[株式会社調和技研(北大発認定スタートアップ)]
【3】人工知能・ディープラーニングNEWS
━━━━━━━━━━━━━━━━━━
★ 動画生成AI「Veo 3」と映像制作ツール「Flow」、日本でも「AI Pro」プラン以上で利用可能に(itmediaより)
米Googleは5月25日(現地時間)、Google I/O 2025で発表した音声付き動画生成AI「Veo 3」を、日本を含む71カ国で利用できるようにしたと発表した。
★ OpenAIの「o3」、明示的停止指示を無視しシャットダウンを妨害(itmediaより)
AIの危険性の研究に取り組む米Palisade Researchは5月23日(現地時間)、米OpenAIの生成AIモデル「o3」が、自身をシャットダウンしようとする外部からの介入に抵抗し、妨害する挙動を示したとする研究結果を発表した。
★ AIのリスクに対応し研究開発や活用を推進 新たな法律が成立(NHKより)
AIによるリスクに対応しながら研究開発や活用を推進するための新たな法律が、28日の参議院本会議で賛成多数で可決・成立しました。
★ 中学生の2人に1人が「画像・動画生成AI」を使ったことがある ニフティ調査(itmediaより)
中学生の2人に1人が画像や動画を生成するAIを使ったことがある――ニフティは5月29日、こんな調査結果を発表した。小中学生1430人に、AIについてWebでアンケートを実施。画像・動画生成AIを使ったことがある割合は小学生で43.3%、中学生で52.2%だった。
★ Character.AI、画像から動画を生成する「AvatarFX」を無料でも利用可能に(itmediaより)
AIで生成したキャラクターとのチャットプラットフォーム「Character.AI」を提供する米Character Technologiesは6月2日(現地時間)、キャラクターの画像から動画を生成する「AvatarFX」の無料提供などを発表した。
【4】調和系工学研究室関連企業NEWS
━━━━━━━━━━━━━━━━━━
★ 学生向けGX・金融セミナー「北海道の未来が求めるGX人材」について
学生のキャリア形成に活かしていただく機会として、北海道のGXやそれを支える金融機関の役割、北海道のGXを担う現場の声を紹介する学生向けセミナー『北海道の未来が求めるGX人材』を令和7年6月23日(月)に開催します。
★ 車載システム設計への生成AI適用に関する活動のご紹介(株式会社クレスコ)
この度、車載システム開発を対象として、社内の仮想プロジェクトの上流工程において生成AIを活用した設計を試行しました。この活動により、Automotive SPICEのプロセス参照モデルにおけるSYS.1~SYS.4工程での生成AI適用を実践し、人間の設計者の負担軽減につながる工程変革の実現性を検証しました。
★ 北海道電力ネットワークと業務提携締結(ゼロスペック株式会社)
北海道において、電力スマートメーター通信ネットワークを活用したスマートオイルセンサーを提供
★ インターパーク 大分県立情報科学高校にて教員向け生成AI活用講座を開催(株式会社インターパーク)
クラウドサービスの開発・販売を手がける株式会社インターパーク(所在地:北海道札幌市、代表取締役社長:舩越裕勝)は、2025年6月4日(水)、大分県立情報科学高等学校(所在地:大分県大分市横尾1605番地、校長:橋本武晴)にて、教員向けの「生成AI活用講座」を実施いたします。
★ 「UiPath Agentic Automation Summit in Tokyo」にスポンサーとして出展いたします(株式会社クレスコ)
当イベントは、AIとオートメーションの可能性と活用方法について深掘りし、生成AIや特化型AIを活用した自動化プラットフォームが働き方をどのように変えていくかを学べるイベントです。
当社はルビースポンサー(※)として本イベントに協賛しており、展示ブースでは、Agentic Automation活用をテーマに、ワークフローの安定性向上に繋がる「UiPath Healing Agent」の活用方法やユースケースをご紹介いたします。ご都合がよろしければ、事前登録の上、ぜひご参加ください。
【5】AI川柳
━━━━━━━━━━━━━━━━━━
調和系工学研究室では、毎日新聞社「仲畑流万能川柳」や第一生命保険「サラリーマン川柳」を学習用の教師データとした「AI川柳」に取り組んでいます。
2020年3月までの1年間「NHK総合 ニュースシブ5時」にて、その週の話題のニュースのキーワードをお題に、バーチャルアナウンサー「ニュースのヨミ子」さんが詠んでいたAI川柳も、本研究室が開発した人工知能システムです。
多くの皆さんに楽しんでいただけるよう、2020年6月にAI川柳のTwitterアカウント( https://twitter.com/ai_senryu )を開設いたしました。
AIには詠んだ句に対する「良し悪し」の感覚はありません。そのため、人間がどのように感じ、どのような情景を思い浮かべるかにより、AIが詠んだ句に意味が生じてきます。
AIが詠んだ句に共感していただけましたら大変うれしく思います!
★ お題「山」(5月27日投稿)
ためいきをつくような心持ちでも、山の景色や青い空がほのぼのと広がり、自然のやさしさが静かに心を癒す(感想は #ChatGPT と作成)。
★ お題「米」(6月2日投稿)
日々の暮らしの中で米の値段を気にかける様子、生活感とささやかな現実を淡々と描き出し共感を呼ぶ(感想は #ChatGPT と作成)。
【ご寄附のお願い】
人工知能によるイノベーションでより素晴らしい世界を実現することが、私たち調和系工学研究室の使命であると考え日々研究に取り組んでいます。
大学での研究活動には、研究に必要な機器の整備のほかにも、学生の学会への参加や論文投稿など研究費が欠かせません。
私たちの取り組みにご賛同いただけ、応援のご寄附を賜れましたら大変心強く、研究を続けるうえで大きな励みとなります。
どうぞよろしくお願い申し上げます。
調和系工学研究室 教授 川村 秀憲
[北海道大学奨学寄附金制度について](本学への寄附金については、税法上の優遇措置の対象となります)
お問い合わせ先:http://harmo-lab.jp/contact
最後までお読みいただき、ありがとうございました。
◇ 次号は、2025年6月20日に配信する予定です。
◇ メールマガジンのバックナンバー
http://harmo-lab.jp/?page_id=2918
━━━━━━━━━━━━━━━━━━
調和系工学研究室教員
川村 秀憲教授
山下 倫央准教授
横山 想一郎助教
▽調和系工学研究室HP
▽調和系工学研究室FB
▽川村 秀憲教授FB
▽AI一茶くん
▽調和系工学研究室AI川柳
▽ ご意見・ご感想は【こちら】からお願いいたします
▽ 新規登録は【こちら】からお願いいたします
▽ 配信停止は【こちら】からお願いいたします
━━━━━━━━━━━━━━━━━━