記事検索

  • 学部・組織・所属

  • 記事のテーマ

「文章を扱う生成AIの仕組みを知る」ひょうご講座2025リカレントコース「データサイエンス」(第4回)が開催されました

10月7日(火)、兵庫県中央労働センター(神戸市中央区)において、公益財団法人ひょうご震災記念21世紀研究機構主催の大学教養レベルの連続講座「ひょうご講座2025リカレントコース「データサイエンス」(第4回)」が開催され、本学の社会情報科学部・情報科学研究科の湯本高行准教授が登壇しました。

 

現役社会人等の方へ専門的な学びの機会を提供

本講座は公益財団法人ひょうご震災記念21世紀研究機構が一般の方々を対象に実施しているもので、本学も開催に協力しており、教員を講師として派遣しています。講座は、テーマ性を明らかにした「一般コース」3分野と、社会人への学び直しの機会提供を主な目的とした「リカレントコース」2分野の計5分野の連続講座がそれぞれ9月初旬から、平日夜間(18:30~20:00)に行われています。

このうち、リカレントコース「データサイエンス ビッグデータ、AIとその周辺を読みとく」(全8回の連続講座(座学))は現役社会人の方をはじめ、「これから企業内でDXに取り組みたい」という方や、「これからデータサイエンスやAIについて学びたい」というあらゆる世代の方々を対象に、9月2日(火)から11月4日(火)にかけて、社会情報科学部の教員8名が回替わりで「データサイエンス・AIとはどのようなものなのか」について、講義を行うこととなっています。
本記事では、10月7日(火)に行われた第4回の様子をご紹介します。

 

「文章を扱うAI技術」

人間が使う言葉やその意味をコンピュータで扱う技術「自然言語処理」を主な専門分野とし、その他、大量のデータから新たな有用な知識を発見・提示する仕組み「データマイニング」や「情報検索」など、ウェブ上の文章を主な研究対象とする湯本准教授は、「文章を扱うAI技術」と題し、文章を扱うAIの概要、文章を扱うAIの基本的な仕組み、文章を扱うAIの課題の3点を軸に、ChatGPTに代表される文章を扱うAIがどのような仕組みになっているのかについて講義を展開しました。

 

自然言語処理の研究において、基礎技術としては「文章の文節分け」や「品詞推定」などが、応用技術としては商品レビューなどの文章から評判や感情などを分析する「極性分析」や、「機械翻訳」「質問応答」などの研究が従前から行われてきました。しかし、今から3年前の2022年11月に米国のOpenAI社が対話型生成AIサービス「ChatGPT」を発表したのを境に、自然言語処理分野における研究開発をはじめ、社会的にもあらゆる面でさまざまな変化・影響をもたらしています。このことについて湯本准教授は、「かつては翻訳であれば翻訳用のシステムを、要約であれば要約用のシステムといった具合に、用途別にAIシステムの開発が行われ、それぞれ少しずつ精度が上がってきているという状況だった。その中で登場したのがChatGPTである。これまで、システムごとに性能を上げるのは非常に大変なことだった。また、それらのシステムを同時に動かすことは不可能と思われていた。ところが、ChatGPTは文章での指示(プロンプト)を与えることで広い意味での質問応答を可能とし、1つのシステムで文章校正、要約、翻訳、プログラミングなどのさまざまなタスクに対応することが可能になった。さらに最新のものでは『システムの規模を大きくしたら、明らかに人間側が教えていないことまでできるようになっている』ということで、多くの研究者が非常に驚いている状況にある」と説明しました。

 

条件付き確率の計算によって文脈に合う次の単語をひたすら予測

また、湯本准教授は、ChatGPTが文章を生成する方法について、「人間にしかできないと思われていた知的作業の一部を代替するシステムということで、『本当に対話ができて、感情すらあるのではないか』と思われるものになってきているが、システムが動く仕組みを考えたときに『決してそうではない』ということをみなさんにお伝えしたい」とし、「現在、主力になっているAIによる文章生成はどのようになっているかというと、『AIが文章を書いている』というよりは、『文章を計算で求めている』と言える。『文脈に合う次の単語をひたすら予測』しており、具体的には、高校数学Aで習う「条件付き確率」の計算をすることによって一番確率の高い単語を選ぶという作業をひたすら繰り返すことで文章を生成している」と説明しました。

 

さらに、ChatGPTの精度向上に重要な役割を果たしている技術について言及し、「ChatGPTのGPTとは、Generative Pre-trained Transformerというもので、Generativeは次単語予測により文章を生成すること、Pre-trainedは事前学習のこと、Transformerは文脈を扱う仕組みのことである。中でもTransformerは、ChatGPTの実現に大きな意義を持っている。この技術の仕組みとして重要なことは、質問を受けて何かを回答する際に『元の文章のどの部分を見て次の単語を予測したら良いのか』という処理ができるようになったことである。例えば、翻訳タスクで英語から日本語に翻訳する場合、まず重要になるのは、『元の文章のどの部分に対応させるか』という点である。その一方で、日本語には名詞の後には助詞がくるといった文法的な制約があるため、直前に予測した単語を重視すべき場合もある。このように、状況ごとにどの部分を見て次単語を予測したら良いのかを計算できるようになったことが大きな特徴である。今のChatGPTで長い文章でもそれらしい受け答えができるのは、こうした技術が上手く機能しているからである」と解説しました。

 

生成AIと人間の距離感

ChatGPTなどの文章を扱う生成AIの課題については、「技術的な課題として一番有名なものは『ハルシネーション(幻覚)』と呼ばれるもので、『もっともらしい嘘の文章を生成する』ことがある。随分良くはなってきているが、例えば、何かの説明を求め、その後、出典を求めると、一見それらしいものを出してくるが、存在しない本や論文を出してくることがある。文章生成AIは、基本的には確率が一番高い単語を次々に予測しているものであり、論理的に何かを処理しているわけではない。確率的な方法で確率計算をしているだけなので、本質的にこのようなことは避けられないのではないかと思っている。今、積極的に生成AIを使っていこうという気運の高まりがあるが、使っても差し支えない場面というのは、結構限られているのではないか。生成AIの回答内容に関する前提知識を多少持ち合わせていないと、安心して使うことはできないのではないかと個人的には感じている」などと述べました。
加えて、生成AIの不適切な利用による犯罪の増加についても指摘し、「最近、詐欺メールや怪しい広告の翻訳を見かけることが多くなってきた。基本的にこの手のメールは圧倒的に英語が多かったが、近頃は日本語も増えているようである。日本語話者が英語に比べて圧倒的に少なく、それで守られてきたが、生成AIで自然な翻訳ができるようになったせいで、いろいろなところからターゲットにされ、そうしたものが出てくるようになった」と説明しました。

最後に、湯本准教授は人間も生成AIの影響を受けつつあると指摘し、「人間が使う表現が、AIが使う表現に寄ってきているのではないかと言われている。有名なものとしては、英語論文に使われる英語が少し変わってきているのではないかという説がある。生成AIの登場以降、医学分野の英語論文で生成AIが使われる頻度が上がり、今まで論文ではあまり使われていなかったような単語が使われるようになってきていると言われている。日本語の論文でも同様のことが言われており、論文ということは、われわれ大学教員等も携わっているものであり、それはどうなのかなと考えている」と述べました。

 

講義後に設けられた質疑応答では受講者の方から質問が寄せられるなど、受講者の方々は終始熱心に講義に臨まれていました。ご参加いただいたみなさま、ありがとうございました。

 

COPYRIGHT © UNIVERSITY OF HYOGO. ALL RIGHTS RESERVED.