AIを使う学生と使わない学生、エッセイの創造性を比較
米ジョージタウン大学の研究チームは、国際学術誌「Computers in Human Behavior: Artificial Humans」に発表した論文で、人間が生み出すアイデアと生成AIが出力するアイデアのどちらが多様で創造的かを検証した。この研究は、大規模言語モデル(LLM)が個人の文章作成やアイデア出しを支援する一方で、社会全体のアイデアの多様性が失われ、似たり寄ったりの内容ばかりになる均質化の危険性を指摘するものだ。
研究チームは、人間が書いた大学入学エッセイと「GPT-4」が作成したエッセイ約2200件を比較する実証実験を行った。評価には「多様性成長率」という独自の指標を用いた。これは、エッセイが1件追加されるごとに、集団全体にどれだけ新しいアイデアが追加されるかを示すものである。
まず、エッセイ1件ごとの多様性を見た場合、基本設定のままではAIが書いたエッセイの多様性は人間より低かった。しかし、出力の創造性を高めるようパラメーターを調整すると、AIが書いたエッセイの多様性は人間を上回るようになった。
ところが、複数のエッセイを集めて全体としてのアイデアの豊富さを比較すると、人間の集団は基本設定のAIに対して約2倍から最大で約8倍高い多様性成長率を示した。つまり、個人レベルで比較するとAIの出力に頼ったほうが創造的になる場合があるが、集団レベルになると結果は逆転し、自ら書く学生たちが多様なアイデアを生み出すという。
次の調査では、AIに順序立てて深く考えさせる高次な指示(Chain-of-Thought)を与えて検証した。これによりAIの生み出す集団レベルの多様性は基本設定の4倍以上に向上したものの、それでも人間のエッセイはAIに対して約2倍もの多様性成長率を維持していた。どんなにAIへの指示や設定に工夫を凝らしても、人間の集団が持つアイデアの豊富さには及ばなかった。
なぜAIは似たようなアイデアになりがちなのか
AIは過去の膨大なデータから次に続く確率が最も高い自然な言葉を予測して文章を作成しているからだと研究チームは指摘する。また、問題のある不適切な発言を避けるための安全対策(人間のフィードバックによる強化学習)が施されているため、どうしても予測可能で平均的ないわゆる「無難で優等生だが尖ったところのない」文章になりやすいという見方を示している。ただし、LLMの進化によってアイデアが均質化しにくくなる可能性もあり、モデルによる影響を継続的に定量評価する必要があるとしている。
研究の詳細は、Moon, K., Green, A. E., & Kushlev, K. (2025). Homogenizing effect of large language models (LLMs) on creative diversity: An empirical comparison of human and ChatGPT writing. Computers in Human Behavior: Artificial Humans, 6, 100207. を参照。



