Generative AI: The Game-Changer in Society

2024.05.31(Fri)

キーワードはLLMの多様化。民主化をキーワードに進むAI開発のこれから

#イノベーション #AI
2023年は「生成AI元年」とも呼ばれ、ChatGPTに代表される生成AIが急速に普及。2017年頃から提唱されていた、専門知識を持たない多くの人々がAIを使えるようになる「AIの民主化」という概念がここにきてあらためて注目されるようになりました。そうしたなかで日本電信電話(NTT)は独自開発した言語モデル(LLM)を用いた生成AIのサービス「tsuzumi」の提供を2024年3月に開始。ChatGPTのような対話型AIが大規模LLMを志向する一方で、軽量で専門性や高度化といったカスタマイズが比較的容易なtsuzumi のようなLLMの登場は、AIの恩恵をさらに多くの人に届けることを可能にします。こうした「LLMの多様化」も、AIの民主化の1つの姿といえるでしょう。

急速に進むAI開発の波のなかで、AIの民主化はどのような意味を持つものなのか? tsuzumiの開発をリードしたNTT人間情報研究所上席特別研究員の西田京介、同研究所にて視覚読解技術の研究開発に携わる田中涼太、企業に対する生成AIを活用したビジネスコンサルティングやソリューション提供に携わるNTTコミュニケーションズ ジェネレーティブAIタスクフォース長の荒川大輝とともに、「AIの民主化」の現在地と、発展の先にあるべき姿を探りました。

この記事の要約

ChatGPTに代表される生成AIの登場により、AIの活用が身近なものとなり「AIの民主化」が進みました。しかし、現状ではChatGPTが圧倒的シェアを占めており、真の「民主化」に向けては多様なLLMの選択肢が必要とされています。

NTTは、小型で専門性の高いLLM「tsuzumi」を開発しました。tsuzumiはChatGPT のようなLLMに比べてパラメータ数が1/25程度と小さいながら、高い日本語処理性能を持ちます。小さなLLMの利点は、短期間で構築できる点や少ない計算リソースで動作する点などが挙げられます。

今後はマルチモーダル技術の発展により、視覚や音声などのモーダルを組み合わせた知覚AIが実現すると期待されています。NTTは「AIコンステレーション」の考え方にもとづき、大小さまざまなLLMが連携しながら人とAIが共生する社会を目指します。そのためには多様なLLMが共存し、互いに意見を交わすことが重要です。

※この要約はChatGPTで作成しました。

目次


    ユーザーと提供者、双方にとっての「AIの民主化」が始まった

    ――ChatGPTに代表されるAIツールの普及に伴い、「AIの民主化」という言葉を目にすることが多くなりました。まず、この「AIの民主化」というキーワードについて、皆さんはどのようにお考えでしょうか?

    西田京介(以下、西田):ChatGPTのような生成AIが登場したことで、AIを活用して生産性や効率性を高めることのハードルが大きく下がりました。昨今「AIの民主化」といわれるようになった所以は、こうした変化によってAIの活用が多くの人にとって身近なものになったことが背景にあると思います。ただ、一般の人々がAIを使うことができるシーンはまだまだ限定的であり、現実には民主化の一歩手前の状況ともいえると感じています。

    一方で、AIの研究のあり方も大きな変化を迎えており、ある意味でAIが研究者の手を離れつつあると感じます。何が起こっているのかというと、長年AIについて研究してきた私たちのような専門家だけでなく、より多様で幅広い領域から人材を集め、知見を持ち寄り、AIの研究開発を加速させていく機運が高まっているのです。利用と研究開発の両面において、AIの分野に新しい人材や知見がものすごい勢いで入ってきている状況なのだと思います。

    「民主化」にはさまざまな意味合いが含まれると思いますが、「民主主義化」という観点では、現状ChatGPTが生成AI分野ではかなりのシェアを占めているという意味でまだまだ発展途上にあると感じています。特にLLM(大規模言語モデル)という視点で、真の「民主化」を目指すにあたっては、1つの巨大なLLMですべてを解決しようとするだけではなく、多様なLLMの選択肢が増えていくことが重要だと考えています。

    私たちNTT人間情報研究所では、AIが星座のようにつながりながら問題を解決していく「AIコンステレーション」というコンセプトを掲げているのですが、tsuzumiのような新たなLLMの開発を通じてこのコンセプトを実現しつつ、「AIの多様化」「AIの民主化」に貢献していきたいと考えています。

    西田京介|NTT人間情報研究所 上席特別研究員
    2009年日本電信電話株式会社入社。2024年よりNTT人間情報研究所上席特別研究員。NTT研究所における大規模言語モデルtsuzumiの研究開発を統括。LLM、機械読解(質問応答)、Vision-and-Languageを専門とし、2018~2024年言語処理学会年次大会(NLP)優秀賞(2018、2021年最優秀賞)など受賞

    田中涼太(以下、田中):ChatGPTの登場以降、「プロンプトエンジニアリング」と呼ばれる技術が脚光を浴びています。これはAIから望ましい出力を得るために、指示や命令を設計、最適化する技術なのですが、ChatGPTはその活用において非常に画期的だったと思っています。これまでのAI技術は、企業や大学の研究者が中心となって、データを集めたりモデルのアーキテクチャを変更したりと、1年から2年の単位で技術構築を行ってきました。しかし現在は、ChatGPTや私たちが開発したtsuzumiのような基盤モデルさえあれば、普段使っているような言葉で指示を与えるだけで、例えば文章の要約や翻訳をするプログラムを組むなど新たなAIシステムを個人で構築できるようになりました。これは非常に大きなブレイクスルーであり、「AIの民主化」を表す現象の1つであると考えています。

    田中涼太|NTT人間情報研究所 思考処理研究プロジェクト 研究員
    2020年 日本電信電話株式会社入社。東北大博士後期課程在籍中。文書を“見た目から”理解する視覚読解技術の研究開発を推進し、関連研究がAI分野における最難関国際会議 (AAAI) にて複数採択、国際コンペ (ICDAR2021 DocVQA competition) でのrunners-up受賞。NTT版LLMのtsuzumiにおける、画像入力を可能とするアダプタ技術を開発

    荒川大輝(以下、荒川):従来のAIと違い、生成AIでは「データがなくても何かしらの結果が得られるようになった」というのが大きなポイントといえます。従来はAIを活用したアプリケーションやシステムを動かす場合、まずは用意された大量の既存データが起点となり、そのデータをいかにして加工、利用するかが主要な論点でした。

    しかし、ChatGPTのような生成AIでは、あらかじめ学習データを用意しなくてもAIが何らかの成果物を生成してくれます。データ面での導入ハードルの低さから、さまざまなアプリケーションやシステムのUXパーツとしてAIが組み込まれるようになり、結果として多くの人々がAIに触れたり利用したりする機会が増えたこともAIの民主化が進んだと言われる所以だと思います。

    荒川大輝|NTTコミュニケーションズ ジェネレーティブAIタスクフォース長
    2016年より自然言語系AI「COTOHA」の開発を牽引。対話AIなど自然言語処理を活用した複数のAIプロダクトを創出。その後、メディカル・ヘルスケア分野におけるAI開発を経て、2023年から生成AIプロジェクトに参画。現在生成AIを活用したソリューション事業展開を担うジェネレーティブAIタスクフォースをリード

    生成AIがもたらしたインパクトとは?

    ――やはり、ChatGPTの登場が大きなターニングポイントになっているのですね。

    西田:そうです。これまでのAIは「特化型」と呼ばれ、あらかじめ決められたタスクを学習して実行していました。しかし、特化した学習を行わなくてもある程度のことが汎用的にできるようになったことが、生成AIの大きなインパクトだと考えています。「人間に近い思考回路や感情を持つAI」として「汎用人工知能(AGI)」というAI種類がありますが、そのAGIの初期段階に達したと言えるのではないかと思います。

    荒川:従来の特化型AIは、主に「予測する」や「分析する」といったタスクに特化し、最終的には決まった形式で出力するケースも多く、ビジネスシーンによっては必ずしも期待通りの効果を得られないといった問題が起きていました。たとえば、チャットボットにAIを組み込むようなケースでは、予め質問に対する回答を用意し、お客さまと会話しながら一番適している回答を出力するのですが、用意した回答がお客さまにとって満足できるものではなく、離脱率が高まるといったケースも少なくありません。これは予め準備できる回答には限界があるからです。しかし、生成AIの技術が向上し、個々の状況に沿った答えをその場でつくり出すことが可能になりました。よりパーソナライズされた対応が可能になってくることで、AI導入の可能性やユースケースが大きく広がり、ビジネス利用の観点においても、生成AIは非常に大きなインパクトをもたらしたと言えます。

    田中:生成AIの登場により、AI利用の多様化が進み、裾野も広がったと感じています。たとえば、私は毎日多くの論文を読むのですが、論文の内容をChatGPTに入力すると、主要なトピックについてまとめてくれるのです。このようなAIの使い方は今まで経験したことがないものであり、ユーザー体験が大きく向上したと言えるのではないかと思います。

    ――中長期的には、生成AIはどのように発展していくと思われますか?

    西田:今後は言語だけでなくさまざまなモーダル(視覚、聴覚など)にも対応が広がっていくと考えています。tsuzumiは言語化されていないグラフィカルな表示を理解する視覚読解にもすでに対応しています。今後は音声のニュアンス、顔の表情、ユーザのおかれている状況、さらにはロボットが自分の身体感覚やヒトの身体的特徴を理解して、現実世界での人との協調作業も可能なモーダル拡張に対応していく予定です。このようにAIやAIが組み込まれたロボットが将来的には生まれ、広がっていくと考えています。なかには、「個人」の存在を感じるようなAIやロボットも登場するかもしれません。LLMはその中心となり、AI同士が連携する世界観はますます広がっていくと思います。まさに「AIと共生」する社会へと、近づいていくのではないでしょうか。

    荒川:AIには、人間が行ってきたことを代わりにやってもらう「ヒトの代替」と、人間には不可能な領域を担う「ヒトの補完・拡張」という主に2つの活用領域がありますが、まずは「ヒトの補完・拡張」という領域から開発が進み、磨かれていくと思います。人間は、AIを自分の傍に置くことで、これまでできなかったことがどんどんできるようになっていくと思います。

    一方、「ヒトの代替」という領域では、まさにマルチモーダル技術の発展によって、人間を丸ごと代替することは不可能だとしても、人間の思考の一部を代替できるような活用が広がっていくと考えています。つまりAIは、自分の一部を代替しつつ、自分にはできないことを補完してくれる、とても身近な存在になっていくのではないかと。そして、その技術に付随するアプリケーションやUXの進化も、一緒に進んでいくと思います。

    田中:今後は、さまざまな専門性を持った多様なLLMが登場すると思います。そして将来的には、LLM自身がLLMをツールとして使う、というシステムのあり方もあり得るのではないかと考えています。たとえば、あるLLMが計算に特化した別のLLMに質問することで回答を得る、といった使い方もできるようになるのではないかと思います。

    膨大化するエネルギーやコストの課題をクリアし、柔軟なアップデートを実現する「小さなLLM」の強み

    ――さまざまな可能性が広がっているAIですが、発展の過程でクリアすべき課題としてはどういったものがありますか。

    荒川:さまざまな課題があると思いますが、ビジネス活用に関して言えば、ハルシネーション(誤情報の生成)の問題をクリアしつつ、どのようにユースケースをつくっていくかが最大の課題であると思っています。技術が進んだとしてもAIが100点の回答ばかりを出すことはありえません。そのため、AIが間違えるリスクを考慮しビジネスシーンでフィットするようなユースケースを見極める必要があります。

    いまはまだその適切なバランスを模索してユースケースを検討している状況ですが、見極めることができれば、AIはますます広範な分野に広がっていくでしょう。

    西田:エネルギーとコストの問題も重要視すべきトピックです。現在、生成AIについてはモデルを大きくすることで性能を上げようという大きな流れがあります。しかし大規模なLLMをつくり、それを維持するためには、原発何基分という単位の莫大なエネルギーが必要になるのです。利用する企業にとっても、大規模なGPUクラスタや自社・自業界に特化するためのチューニングといったイニシャルコストに加えて、そうした設備を保持するデータセンターのランニングコストといったさまざまなコストがのしかかってきます。そのため今後は、このエネルギーとコストの問題を解決したサステナブルなLLMがより求められてくると思います。

    ――エネルギーとコストの課題に対して、NTT人間情報研究所では、どのような研究開発のアプローチをとられているのでしょうか。

    西田:LLMのサイズは、パラメータと呼ばれる数字の塊の数で決まります。パラメータ数が上がれば上がるほど、蓄えられる知識の数は増える一方、エネルギーや学習コスト、推論コストも上がります。

    そのため、理想は「小さくても性能が高いLLM」であり、その実現を目指して私たちが開発したのが、tsuzumiです。tsuzumiのパラメータ数は60〜70億であり、OpenAIの「GPT-3」の25分の1ほど。非常に軽量なモデルでありながら、特に日本語処理性能においては、「GPT-3.5」やその他の大きなLLMに引けを取らない高い性能を持っている点が特徴です。

    ――なぜ、パラメータ数がはるかに少ないにも関わらず、ChatGPTのような大きなLLMと比べて遜色のない性能が出せるのでしょうか?

    西田:LLMの学習は、大量のテキストを用意し、ある単語の並びから次に出現する単語を予測するという方法で行われています。そのため、集めるテキストの質が重要であり、私たちは、このテキストの質を上げることで、性能を上げています。NTTでは、40年以上に渡って自然言語処理の研究を行ってきましたので、その知見を最大限に生かすことで、世界トップレベルの精度を実現できているのです。

    もう1つの理由は「アダプタ」という仕組みです。これは、基盤モデルに特定のドメインや業界に特化したデータを追加学習させることで、特定のユースケースにチューニングするものです。利用ユーザーやシーンに応じて複数のアダプタを柔軟に切り替えたり、組み合わせて相乗効果を生み出したりすることができる「マルチアダプタ」機能を導入し、きめ細やかなチューニングを低コストで提供することを目指して、現在技術開発に取り組んでいます。

    ――なるほど。質の高いテキストをより大きなLLMに学習させることができれば、精度の面ではベストな結果が得られるようにも思えますが、企業にとって小さなLLMを使うメリットはどこにあるのでしょうか?

    西田:おっしゃる通り、大きなLLMにより質の高いテキストを学習させることで、精度はさらに向上します。ただ、大規模なモデルを学習するには、年単位の時間がかかることも珍しくありません。一方、tsuzumiのような小さなモデルであれば、その期間を数週間から1カ月程度に短縮することが可能です。性能は高いけれど知識が古いLLMと、不得意分野はあるものの知識が新しいLLMでは、後者が選択されるケースも少なくないと思います。

    また、単純に、モデルが小さいと応答速度はその分速くなります。たとえば、ノートパソコンでLLMを動かしたいときにも、モデルが小さければ実用的な速度で動かすことができます。これも、小さなモデルならではの強力なメリットだと思います。

    荒川:実際に企業の方とお話するなかでも実感しますが、tsuzumiのような小さいLLMのメリットとして一番に挙がるのは「少ない計算リソースで動かせる」点です。大きなモデルになればなるほど、動かすときに大量の計算リソースを用意する必要が出てきますが、小さなモデルであれば少ない計算リソースで動かすことができます。先ほど西田さんが話したエネルギーやコスト的な側面は企業がAIの活用を検討する際には無視できない問題ですから非常に興味を持っていただけます。

    また、企業において生成AIを活用する際、対象となるデータには機密・機微情報が含まれるケースも少なくありません。ChatGPTといった大規模LLMではクラウド上で情報を扱うことが前提となります。一方、tsuzumiのような軽量なLLMはプライベート環境での利用も可能となるため、ネットワークを介して機密情報を扱うことに障壁があるユースケースへの活用にも適しています。

    田中:モデルのサイズを増やしても、インターネット上にほとんど落ちていないようなニッチな情報の獲得能力は、ほとんど変わらないという研究結果が出ています。ですので、専門的な知識を持ったAIをつくりたい場合には、基本的にモデルのサイズを増やしてもあまり意味がなく、運用コストの低い小さなLLMに追加データを学習させるほうが大きなメリットを得られると言えます。

    マルチモーダル技術が拓く新たな可能性

    ――軽量な基盤モデルに、アダプタのような仕組みを用いてカスタマイズ性を付与していくというtsuzumiの仕組みには、いろいろな応用可能性がありそうですね。

    田中:そうですね。tsuzumiのアダプタ機能では、特定ドメインのデータの追加学習に加えて、先ほど述べたように視覚や聴覚といったモーダルを拡張することもできます。例えば、テキスト情報に加えて、声質から相手の年齢や感情を判定し、それぞれの状況に応じた返答をしたり、領収書や手書きで書かれたカルテの文字を読み取って、電子化したりすることが可能になります。

    モーダル拡張に使われる機械読解や視覚読解の技術も、NTTが世界に先駆けて研究開発を進めている分野であり、複数のモーダルを高次に組み合わせることで、より人間に近い知覚を持ったAIを実現できると考えています。

    荒川:AIのマルチモーダル技術が実用化されれば、企業にとってのユースケースも一気に広がると考えています。例えば工場における部品や紙のチケットなど、業界ごとの現場で使われている物理的な「モノ」は多くあります。それらの情報は視覚や聴覚で集めてこそ活用ができるものだったりするのです。マルチモーダルでのデータ収集・学習を行い、業務をサポートできるようなAIが実現できれば、人間の代替として利用できるシーンが一気に広がるのではないかと思います。

    西田:直近では、PowerPointやWord、Excelのデータをもとに、画像やグラフなどの視覚的情報をテキスト情報と統合して理解する、といったユースケースに注目が集まっています。ビジネスの業務には、テキストだけから成るドキュメントというのは少なく、何らかの図や画像が含まれるものがほとんどですので、AIでそうしたドキュメントを扱えるようになれば、企業にとってもかなり利便性が上がるのではないでしょうか。

    目指す「AIの民主化」とは? 人とAIが共生する社会の実現に向けて

    ――将来的にChatGPTのような大きなLLMは、小さなLLMに置き換えられていくのでしょうか?

    荒川:使い分けになると思っています。特定の業界や業務に特化してAIを使いたい場合には、小さなLLMの方が高い利便性を持つのですが、企業の業務が専門知識だけで成り立っているのかというと決してそうではありません。より汎用的な知識が求められる場面や、ブレストのようにアイデアを発散させていくような場面もあります。ホリゾンタルな領域には大きなLLMを使いつつ、バーティカルな領域で小さいLLMを使う、といった組み合わせの形になっていくのではないでしょうか。

    西田:私たちもそもそも、一つのモデルですべてを解決しようとは考えていません。小さなモデルでできることは小さなモデルでやりつつ、大きなモデルでしかできないことは大きなモデルに任せればいい。うまくAI同士の連携を図りつつ、小さなモデルでできることの領域を増やしていくことこそが、私たちの目指す「AIの民主化」であり、これから実現していきたいと考えていることです。

    ――「多様なLLMの共生」こそ、「AIの民主化」のカギを握っているというわけですね。

    西田:そうですね。1つの大きなLLMが圧倒的な力を持ち、市場を支配してしまった場合、そのLLMが述べる情報が間違っていたり偏っていたりした場合のリスクが解消できません。民主的に多様なLLMが意見を出し合い、人間とともに議論をしていくような方向に発展していかなければ、まさにSF映画に描かれてきたようなディストピア的な世界観に進んでしまう可能性もないとは言えないでしょう。

    そうした事態を防ぐためにも、tsuzumiのような新たなLLMの開発と発展に、いっそう力を入れていかなければならないと考えています。

    ――最後に、「AIの民主化」実現に向けて、皆さまがこれから取り組みたいことについて教えてください。

    田中:将来的には、『ドラえもん』や『鉄腕アトム』に描かれているような、AIと人間が協調して暮らしていくような世界の実現を目指したいと考えています。そしてそのためには、AIが人間と同じようなモダリティ(視覚・聴覚・言語などのデータ)を扱えるようになる必要があると考えています。

    現在は視覚読解を中心に研究に取り組んでいますが、将来的には音声データなどの他のモダリティも組み合わせながら、「身体性」というキーワードのもと、人間に近い入出力ができるAI技術について研究していきたいと思っています。

    西田:私も、「人とAIの共生」というコンセプトを大切にしており、言語を中心にいろいろなモダリティを繋げていきたいと考えています。そして個人的には、匂いがわかるAIやロボットをつくって、ワインを飲みながら語りあってみたいですね。「味」や「匂い」はすぐにビジネスにはならない領域かもしれませんが、研究者としてはそういう夢を持ちながら、さまざまなモダリティを連携させていきたいと思っています。

    また、LLMに「アクション」を生成させることにも興味があります。現在、LLMは「言葉」を生成しているわけですが、「アクション」を生成できるようになれば、メールを書いて送ったり、Slackをチェックしたりといった作業をAIに任せることができるようになります。新入社員に仕事を教える、といった使い方もできますね。そこまでAIが進化すれば、「民主化」もかなり進んでいるでしょうし、私たちの生活も大きく変わってくるのではないかと思います。

    荒川:「AIの民主化」においては、いかにUXを上げ、使いやすいものにできるかがポイントだと思っています。小型モデルならではの強みを活かして特定領域に特化しつつ、それぞれの領域における「使いやすさ」を磨いていきたいと考えています。

    また、そうした「使いやすいAI」が多数登場することで、さまざまなモデルの組み合わせが進み、AI市場全体が活性化していくと思います。tsuzumiが担う役割も、それに呼応して増えていくと思います。そのプロセスの中で私自身はAIを活用し新しい顧客体験をつくり出すことで、少しでも「AIの民主化」に貢献していければと考えています。