ChatGPTはビジネスアイデアも出せる化物。MBA取得者よりも優秀な案を出すという論文が発表

やってみた系

2023-09-232024-07-17

みなさんは人間とAIのどちらがより「クリエイティブ」だと思いますか？

名門ペンシルベニア大学の研究によって、「ChatGPTがビジネス・工科系のエリート学生よりも優れたビジネスアイデアを40倍の速度で生成する」ことが判明しました。

いつまでも「人間ならではの強み」にこだわっているのであれば、AI時代を生き残っていくことは難しいでしょう。

当記事では、ChatGPTが一体どのようにしてアイデアを生み出したのか、そして具体的にどこがエリート学生よりも優れていたのか、衝撃の実験結果を詳しくお伝えしていきます。

最後まで読んでいただくと「AIにクリエイティブな仕事はできない」という人間のプライドの、無意味さを思い知るはず。AIと競う方法ではなく、AIをうまく使いこなす方法がわかります。

ぜひ最後までお読みください。

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

ChatGPTはアイビーリーグの学生よりも、アイデアの質&量で勝る

ここからは参考論文の背景と概要について解説。まずは「なぜ論文の著者らが、AIにクリエイティビティを見出したのか」その背景からみていきましょう。

LLM（大規模言語モデル）は「ビジネスの現場」に不向き

生成AIのなかでも、自然な文章が生成できるLLM（大規模言語モデル）は2022年以降、「人間の仕事を奪う」として注目を集めています。LLMは医療・法学・IT分野など「専門知識を要する質問」にも回答が可能。従来「高給取り」とされていた専門職で、人間の仕事を奪うかもしれないのです。

ただこのLLMを産業全般で活用するには、まだまだ解決すべき課題が残っています。

まずLLMの出した回答は、確率的に「もっともらしい内容」を組み合わせただけのもの。ゆえに質問に対して事実とは異なる回答、つまり「ハルシネーション」が混入してしまいます。

さらにランダムな挙動をみせるLLMでは、同じ命令に対して同じ処理を行う保証（再現性）すらありません。そのため、信ぴょう性と再現性が求められる「ビジネスの現場」には適用ができないのです。

今回の研究で著者らは、このLLMならではの欠点に「ある強み」を見出しています。著者らの「逆転の発想」について、次で詳しくみていきましょう！

参考論文：GPT-4 Technical Report

参考論文：Comparing Physician and Artificial Intelligence Chatbot Responses to Patient Questions Posted to a Public Social Media Forum

LLMはむしろ「クリエイティブな作業」が得意

一方、LLM特有の「事実誤認・不確実さ」に創造性を見出したのが今回の論文。著者らはその欠点を逆手にとって、LLMの一種・ChatGPTに「商品のアイデア」を生成させることに成功。「人間よりも速く・低コスト」なブレーンストーミングを実現しました。

そしてChatGPTが出したアイデアについて、米国の名門大学群「アイビーリーグ」の一角、ペンシルベニア大学ウォートン校のビジネス&工科系学生のアイデアと比較。アンケートの結果、エリート学生のものよりも、「ChatGPTの商品案のほうが魅力的である」ことが判明しました。

ChatGPTとエリート学生はそれぞれ、どのようにしてアイデアを出したのでしょうか？次の見出しから詳しくみていきましょう。

参考記事：GPT-4がMBA取得者よりも多くの優れたビジネスアイデアを出すことができたとの報告です。

なお、「ハルシネーション」など生成AIの専門用語について知りたい方はこちらをご覧ください。
→本当は知りたい！？AIの難しい用語をシンプルに解説！

まずはChatGPTと学生からアイデアを収集

ここからは実験の準備フェーズについて紹介。当実験では「50ドル以下で学生向けに販売する物理的な商品」について、ChatGPTと学生それぞれからアイデアを募りました。以下では、実際にアイデアを集めた方法について解説していきます。

まずはChatGPTが戦った相手、名門ペンシルベニア大学の学生がどのようにしてアイデアを出したのかをみていきましょう。

エリートが学ぶ「いいアイデアの出し方」

実験にあたって、「学生側の商品案」は一流の人材から200個を収集しています。

アイデア収集に協力したのは、米国の名門「アイビーリーグ」の一角でスタートアップの輩出数が世界第3位である「ペンシルバニア大学ウォートン校」の学生たち。うち半数は経営学の学部or院（MBA）に、もう半数は工学の学部or院に在籍中で、その多くがビジネスの現場で製品改良に携わっている「起業家の卵」です。

さらに彼らがアイデア出しの過程で用いた手法も洗練されています。ウォートン校のほか米・コーネル大学や仏・INSEADにて、20年以上も学ばれてきた手法でアイデア出しを実施。以下のとおり、「トーナメント形式」で優れたアイデアを量産しています。

学生一人一人が独力でアイデアを出す
チームを組んでアイデアを集める
集めた数百個のアイデアをチーム内で相互評価する
アイデアのうち200個だけを選抜し、実験に使用する

上記のように学生側は、企業顔負けの本格的なブレーンストーミングを経てアイデアを生み出しています。この手強いエリート学生に対して、ChatGPTはどのように立ち向かっていったのでしょうか？

ChatGPTに「ブレーンストーミング」させる方法

次いで著者らは、デフォルトのChatGPT（GPT-4版）にアイデアを100個生成させています。

まずアイデアの生成自体は、以下に示す「オリジナルのプロンプト」を入力するだけで可能。「システム・プロンプト」で学生と同様に指示を出して、「ユーザー・プロンプト」にて詳細な処理を指示しています。また回答のばらつき（temperature、0〜1までのパラメーター）を0.7に設定して、アイデアに多様性をもたせました。

「オリジナル」のプロンプト（和訳）

システム・プロンプト

あなたは新商品のアイデアを生み出そうとしているクリエイティブな起業家です。
新商品はアメリカの大学生をターゲットにします。サービスやソフトウェアではなく、物理的な商品にしましょう。
小売価格50米ドル以下で販売できる製品にしてください。アイデアはあくまでアイデアに過ぎません。
製品がまだ存在する必要はなく、必ずしも明確に実現できる必要もありません。すべてのアイデアに番号と名前をつけてください。
名前とアイデアはコロンで区切りましょう。

ユーザー・プロンプト

10個のアイデアを10個の段落に分けてください。アイデアは1段落につき40〜80語で表現しましょう。

引用元：Ideas are Dimes a Dozen: Large Language Models for Idea Generation in Innovation

ただオリジナルのプロンプトだけで、100個のアイデアを生成させるのは不可能。ChatGPTは自身が既に生成した内容を覚えていないため、アイデアに重複が生じてしまうのです。

したがって命令時には、既出のアイデアも提示しなければいけません。そこで著者らは以下のプロンプトを追加。トークン（言葉数に応じた料金）を節約しつつ、重複の解消を実現しました。

「追加分」のプロンプト（和訳）

要約プロンプト

以下に続くアイデアを積極的に圧縮して、本来の意味を残しつつ、より短く要約してください。タグやキーワードを使っても構いません。

システム・プロンプト

<オリジナルのシステム・プロンプト>+”あなたは前回、次のようなアイデアを出しました”:<要約>

ユーザー・プロンプト

<オリジナルのユーザー・プロンプト>+”以前のアイデアとは違うことを確認してください。”

引用元：Ideas are Dimes a Dozen: Large Language Models for Idea Generation in Innovation

ここまででも、十分に鮮やかな実験手法ですね。ですが著者らは、ChatGPTにアイデアを出させるだけで満足していません。次の見出しで「人を超えうるChatGPTの作り方」をみていきましょう！

創造性を高める「ファインチューニング」も実施

さらに著者らは、ファインチューニングをChatGPTに実施。学生のアイデアの中からとくに優れた7個を厳選して、AIに追加学習させました。

なおファインチューニング用のプロンプトは以下のとおり、問題と解答の例を両方与える”in-context few-shot learning”の手法を踏襲しています。

「ファインチューニング用」のプロンプト（和訳）

良いアイデアのプロンプト

<オリジナルのシステム・プロンプト>+”インスピレーションを授けるために、評判の良いアイデアを紹介します:<良いアイデア>”

引用元：Ideas are Dimes a Dozen: Large Language Models for Idea Generation in Innovation

著者らはこのファインチューニングを施したChatGPTからもアイデアを収集。デフォルト同様の手法で100個アイデアを生成させました。

ここまでの手順でChatGPTから得たアイデアはどれも、学生のものと遜色なく、筋の通ったものでした。したがって集めたアイデアの確認・加工はせず、そのまま次の比較に使用しています。

さて次からはみなさんお待ちかね、「ChatGPT vs. エリート学生」の戦いが始まります。衝撃の実験結果を最後まで、ご覧ください。

ChatGPT vs. 学生の「アイデア三番勝負」

ここからは実験の比較フェーズ、つまりChatGPTと学生のアイデアをどのように戦わせたのかを紹介。その結果も含めてお伝えします。

比較フェーズで著者らは、ChatGPT（デフォルト&ファインチューニング）と学生それぞれから集めたアイデアを、以下の3項目で比較しました。

1時間で出せるアイデアの量と必要なコスト
アイデアの質
アイデアの新規性（目新しさ）

まずは時間・料金面での比較から結果を紹介。以下を読めば「AIにクリエイティブな仕事はできない」という定説が、間違っていることに気づくでしょう。

1戦目：「出せるアイデアの量と必要なコスト」を比較

まずはChatGPTと学生について、「1時間に出せるアイデアの数」と「アイデアにかかるコスト」を比較。結果は下表のとおりになりました。

	学生	ChatGPT（デフォルト&ファインチューニング）
1時間に出せるアイデアの数	20個（先行研究／Girotra et al., 2010 ）	800個
時給換算でのコスト	人件費：500ドル	人件費：500ドル（API料金：20ドル）
アイデア1個にかかるコスト	25ドル	0.63ドル（API込みで0.65ドル）

以上のとおり「ChatGPTは学生の40倍生産的である」ことが実証されています。1戦目はChatGPTの圧勝といえるでしょう。

アイデアの量を比べたのなら、次はその「質」も比較したいところ。著者らは一体どのようにして「アイデアの質」を比べたのでしょうか？

2戦目：「アイデアの質」を比較

次に著者らはChatGPTと学生それぞれから集めた商品のアイデアについて、その「質」を比較しました。

手始めにアメリカ国内の大学生を対象に、各アイデアを5段階評価する「購入意向のアンケート」を実施。「顧客目線での魅力」をアイデアの質と定義して、「商品化時に購入される確率」と「上位10%に入るアイデアの数」の2項目にて比較しています。

アイデアを商品化したときに「購入される確率」

著者らはアンケートの5段階評価を「購入する確率」へと換算しました。評価が低い順に「0%／25%／50%／75%／100%」として、「学生／デフォルトのChatGPT／ファインチューニング済みのChatGPT」の3群について平均値を算出。この平均値をもとに、「アイデアの優劣」を統計学的に判定しました。

平均値を箇条書き、アイデアの優劣を表形式でそれぞれ結果は以下に示します。

学生：40.4％
デフォルトのChatGPT：46.8％
ファインチューニング済みのChatGPT：49.3％

学生 vs. デフォルトのChatGPT	ChatGPT（p<0.001）
学生 vs. ファインチューニング済みのChatGPT	ChatGPT（p<0.001）
デフォルトのChatGPT vs.ファインチューニング済みのChatGPT	引き分け（p=0.11）

以上のとおり、ChatGPTのほうが一貫して優れたアイデアを生み出しています。

ですがまだ、「学生側の敗北」とは断言できません。両者の「とくに優れたアイデア」についても、比較していきましょう！

「上位10%」に入るアイデアの数

いくらChatGPTが「一貫して優れたアイデアを生み出す」とはいえ、「代わり映えしないアイデア」を100個生み出すものなら使い物になりません。商品開発で実際に採用されるのは「傑出したアイデア」10個だけ。残りのアイデア90個は日の目を見ないのです。

つまりChatGPTと学生とで、それぞれが出したアイデアの中で「上位10%に入る割合」を比較する必要があります。上位10%に入ったアイデアの数が多いグループほど、そのグループは優れたアイデアを出したということになります。結果は以下をご覧ください。

学生：5個
デフォルトのChatGPT：15個
ファインチューニング済みのChatGPT：20個

このように上位のアイデア40個のうち、その大半（87.5%）はChatGPTのもの。ChatGPTのアイデアは、実現可能性・実用性・設計面などにおいても優れていました。以下にその実例を5つ挙げます。

小型プリンター
太陽光充電器
小型掃除機
人間工学に基づくシートクッション
多機能な卓上小物入れ

以上より「アイデアの質」でも、ChatGPTの圧勝。次は「人間の存在意義」をかけた最後の戦いを紹介します。

3戦目：「アイデアの新規性」を比較

ここまでは、ChatGPTが人間よりも優れたアイデアを出すという結果になっています。しかし、本当にそうなのでしょうか？

そこで、研究者は最後にもう一つ検証を行いました。

ChatGPTは過去の統計データをもとに、それらしいアイデアを吐き出します。つまり「目新しいアイデア」を狙って生成しているわけではありません。対して人間は、既存の技術や知的財産権に気を配ることが可能。つまり人間はChatGPTよりも「目新しいアイデア」を出すことが得意であると考えられるのです。

この違いに目をつけた著者らは、ChatGPT分と学生分それぞれで「アイデアの新規性」についてもアンケートを実施。目新しさを5段階で評価してもらいました。各評価を統計学的に比較した結果は、下表のとおりになります。

	圧倒的に目新しいのは？
学生 vs. デフォルトのChatGPT	学生（p<0.001）
学生 vs. ファインチューニング済みのChatGPT	学生（p<0.001）
デフォルトのChatGPT vs.ファインチューニング済みのChatGPT	引き分け

以上のとおり「アイデアの新規性」については、学生に軍配が上がりました。

ただ今回使用したプロンプトには、新規性への言及がありません。プロンプトを変更すれば、結果が変わっていた可能性はあります。またブレーンストーミングの段階ではアイデアの新規性よりも、質と量の方が重要。よって著者らは当実験を「ChatGPTの勝利」と結論づけています。

なお、ChatGPTの処理速度やトークンについて知りたい方はこちらをご覧ください。
→【gpt-3.5-turbo-16k】ChatGPT3.5のAPIの性能を徹底解説

注意点

当記事の執筆にあたっては一次資料だけでなく、株式会社ParksのAI論文データベース「AIDB」の投稿も参考としております。参考元の投稿については修正箇所がありましたので、以下に示します。

修正前

今回、研究者らはGPT-4を用いて、The Wharton SchoolのMBA取得者とビジネスアイデアの優秀さを競う実験を行いました。

GPT-4がMBA取得者よりも多くの優れたビジネスアイデアを出すことができたとの報告です。
ペンシルバニア大学などの研究グループによる発表がありました。

○ Karan Girotraet al. "Ideas are Dimes a Dozen: Large Language Models for Idea Generation in Innovation"

ペンシルバニア大学のThe… pic.twitter.com/743R6AUTm0
— AIDB (@ai_database) September 14, 2023

引用／公式HP：https://aiboom.net/

修正後

こちらの研究について、さらなる確認を行った結果、被験者がWharton SchoolのMBA取得者であるという情報は論文中に明示されていませんでした。

誤解を招く可能性のある情報を共有してしまったことを、心よりお詫び申し上げます。

こちらの研究について、さらなる確認を行った結果、被験者がWharton SchoolのMBA取得者であるという情報は論文中に明示されていませんでした。
誤解を招く可能性のある情報を共有してしまったことを、心よりお詫び申し上げます。… https://t.co/i3SY4OEpT2
— AIDB (@ai_database) September 14, 2023

引用／公式HP：https://aiboom.net/

■本ポストについての大事な訂正事項

被験者は「MBA取得者」ではなく、正確には「半数がThe Wharton School（ビジネスとMBA）の学生、半分が工学部および大学院工学科の学生」でした。

※いずれもペンシルバニア大学プロダクトデザイン課程の所属

著者と直接コンタクトをとり、参加者の内訳を頂きました。

■参加者の内訳詳細

・半分はWharton（ビジネス）の学生

・もう半分は工学部の学生

・ほとんどが3〜4年生

・10%がMBAスクールの学生

・20%が大学院工学科の学生

■本ポストについての大事な訂正事項

被験者は「MBA取得者」ではなく、正確には「半数がThe Wharton School（ビジネスとMBA）の学生、半分が工学部および大学院工学科の学生」でした。
※いずれもペンシルバニア大学プロダクトデザイン課程の所属… https://t.co/i3SY4OEpT2
— AIDB (@ai_database) September 14, 2023

引用／公式HP：https://aiboom.net/

ChatGPTはアイデアの生産性が人の40倍高く、優れたアイデアを人の7倍生み出せる

ChatGPTと学生それぞれのアイデアについてもう一度、下表で比較します。

	学生	ChatGPT（デフォルトとファインチューニングを合算）
1時間で出せるアイデアの量	20個	800個
アイデアの質（上位40個に占める数）	5個	35個
アイデアの目新しさ	優れる	劣る

LLMの一種「ChatGPT」は出せるアイデアの質・量ともに、人間それも「エリート人材」を上回っています。

まず1時間で捻り出せるアイデアの量で比べてみると、ChatGPTは人間の40倍の量で発案が可能です。イノベーターに500ドルを払うよりも、プロンプトエンジニアに同額を払ったほうがよいと、著者らは結論づけていました。

さらにアイデア全400個のうちとくに質が高い40個（上位10%）を抜粋した場合、その8割強をChatGPTが寡占。同条件のアイデアコンペにChatGPTが入賞する確率は、人間の7倍にも及びます。

以上より「ブレーンストーミング」にはエリート人材よりも、LLMのほうが適任。一般人でもプロンプトのコツさえ掴めば、平均以上のアイデアが生み出せます。

また専門知識や倫理観、知財コンプライアンスが求められる場面でも、人間によるファインチューニングや検閲を実施すればLLMの適用が可能。したがってこれからの製品開発には、「プロンプトエンジニアリング」や「生成AIと共創する姿勢」が求められてくるでしょう。

リサーチャーの所感

当論文はわれわれ人間が得意としてきた「イノベーション&クリエイティブ」分野における、生成AIの可能性を示しています。生成AIが人間を完膚なきまでに叩きのめしていたのは、衝撃的でしたね。実験が丁寧に組まれており、「これからはブレインストーミングで生成AIが主流になる」という結論には反論の余地がありません。

ですがリサーチャー個人としては、「イノベーション、ひいては経済活動の主役はこれからも変わらず人間である」と考えております。

まず現段階の生成AIにできるのは、アイデアを広げていく「拡散的思考」に限られます。実現可能性・新規性・倫理観などの価値基準をもとにアイデアをまとめる「収束的思考」では、まだまだ人間の力が必要。Google創業者のラリー・ペイジ氏が「アイデアに価値はない。それを実行できてはじめて価値になる」と述べているとおりです。

そして仮に生成AIを製品開発に導入したとしても、競合他社に勝てるのは初期の間だけ。生成AIが多数派になってしまうと、今度は「人間によるひと工夫」が勝利の条件となってきます。株式投資の格言で「人の行く裏に道あり花の山」とあるように、複雑な市場を制するのは常に「少数派」なのです。

したがって人間対AIの勝敗に囚われず、「柔軟にAIを活用していく姿勢」こそが肝要だといえます。

生成系AIの業務活用なら！

・生成系AIを活用したPoC開発

・生成系AIのコンサルティング

・システム間API連携

無料ダウンロード

最後に

いかがだったでしょうか？

GPT-3.5 Turboの最新アップデートで、より高速かつ低コストでのAI活用が可能になりました。自社での導入・活用を検討する際に、最適なモデル選定や活用方法について、一緒に考えてみませんか？

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ