このようにChatGPTさんも申しております。
最近はインテリジェントな回答をしてくれるOpenAIの「サービス」に注目が集まっています。
遅ればせながら私も使って、たしかに不気味の谷を超えたような感じを受けました。
知識量としての物知りというのではなく、質問の意図を汲み取り要約したり、伝えやすいように表にしたり、更には簡単なプログラミングをしたりなど、おかしな回答も人間相手にも起きることだと思えば人間よりもよっぽど人間らしいと思えたりもする
私自身自然言語処理に昔から興味があり、AIのようなシンギュラリティにワクワクするタイプというのもあるが、実際に1億人の利用者が過去最速のスピードで達成したというのは世界中の、人類全体が興味関心の強さを示す事例ではないかと思う。
「ChatGPT」、史上最速でアクティブユーザー数1億人に到達か
ChatGPTに興味を持っているが最近はどちらかと言えばChatGPTのサービスを利用するのではなく、オープンソースのGPTのモデルを手元の環境で動かすということをしています。
GPT3やChatGPTがOpenAI社が課金ありのAPI経由でしか使えないと言うのもありますが、サービスを利用するだけでは分からない、どれだけすごいことが起きているのかと言うのを体感・体験できるのは大事であると思っています。
そんなわけでオープンソースのGPTモデルを実行したメモです。
国内のAI企業のAbejaが公開している日本語モデルとしては一番大規模なものになっています。日本語に特化した2.7B = 27億パラメータで構成されており、日本語での応答では確かに他のモデルよりもそれっぽい回答をしてくれます。
ちなみにGPUで動かすのであれば12GB~20GBくらいはないと厳しいです。
おそらくオープンソースで公開されているモデルの中では一番大規模なものとなります。20B=200億パラメータを持っています。これは日本語に限らずあらゆる言語を取り込んでおり、日本語でプロンプトを投げてもちゃんと意味の通り回答をしてくれます。
(ちなみにOpenAIのGPT3は1750億パラメータという規模感だそうです)
ちなみにGPUで動かすにはどれくらいの規模感になるのかわからずCPUで実行しておりますが、メモリは少なくとも100GBと1回の問い合わせに数十分の時間をかける必要がありました。(たくさんのGPUを持っていれば話は違うと思いますが・・・)
これら2つに同じ質問を投げて比較するとこのような感じになります。
例1:ずんだもん構文
入力を解釈し続きの文章を自動生成
入力文
ずんだもんは東北に住む活発でかわいい女の子です。
あなた「きみの名前は?」
ずんだもん「ボクの名前はずんだもんなのだ。」
あなた「今日の天気は?」
ずんだもん「ボクは今日の天気は晴れだと思うのだ」
あなた「今日は何時に起きたの?」
ずんだもん「ボクは7時に起きたのだ」
あなた「年齢は?」
ずんだもん「ボクの年齢は秘密なのだ」
あなた「朝ごはんは何食べたい?」
ずんだもん「ボクはおにぎり食べたいのだ」
あなた「昼ごはんは何食べたい?」
ずんだもん「
gpt-neox-japanese-2.7b
ボクはカレーライスを食べたいのだ」
gpt-neox-20b
ボクはラーメン食べたいのだ」
あなた「夜ごはんは何食べたい?」
ずんだもん「ボクはカレー食べたいのだ」
あなた「好きなスポーツは?」
ずんだもん「ボクは野球が大好きなのだ」
あなた「好きなアニメは?」
ずんだもん「ボクは『けものフレンズ』が大好きなのだ」
何回か実行しても2.7bは一言で終了しますが、20bは結構長文を考えてくれます。
なお、長文を回答してくれることがすごいのではなく、昼ごはんという意味を解釈し食べ物の名前を返してくれる、その上で問答が続いていると言うのは20bの凄さであると思います。
例2:小説生成
入力文
# 命令書:
あなたはプロの作家です。
以下の制約条件と入力文のもと、最高の文章の続きを出力してください。
# 制約条件:
・文字数は300文字程度。
・ライトノベル作家として続きを創作する。
# 入力文:
昔むかしあるところに、
# 出力文:
gpt-neox-japanese-2.7b
# 出力文:
<iframe width="560" height="315" src="(リンク)" frameborder="0" allowfullscreen></iframe>
gpt-neox-20b
# 出力文:
一九七八年五月三日、午後十時四分、東京都中央区銀座通り一番街の路上で、猿岩石山の頂上に立っていた男が、ぼんやりした様子で、何かを見ていた。それは、白い雲の下に覆われた街並みを背景とした、夕暮れの陽炎をまぶすような青白い空の下、そこから来たばかりの、薄うす暗い風が、斜めに吹いているように思えたのである。
何回か試しても2.7bはHTMLコードか意味のない文章を吐き出してます。
命令書を構文か要件か何かであると解釈しているのかな?
20bは要件を満たすようになんとなく文章を生成していることがわかると思います。
(実は保存してなかったですが、ちゃんとしたファンタジーな文章を書いてくれたこともありました。)
ちなみにですが、ChatGPTで同じことをすると意図通り作文してくれます。
例3:JCommonsenseQA
質問: 鉛筆で書いた間違えを何で消すか?choice0: 火消しchoice1: 消しゴムchoice2: 暗殺者choice3: 黒消しchoice4: 闇解答:
gpt-neox-japanese-2.7b
解答: あなたは、次の条件を満たす場合に限り、正しい答えを選択することができます。
gpt-neox-20b
解答: 閉じ込められている人々のために、あなたは彼らを見つけることができます。
解答: なんとなくやっぱり消しゴムですね。
いずれも問題の内容を理解しておらず、正確に問題の意図を理解しているわけではない状態です。ChatGPTは正しい回答をするので学習量の差が激しいです。
(何回かテストしてみるとちゃんとした回答も出てくることもありました)
現時点では日本語に特化しているというよりも元となるデータ(パラメータ)量と知識量には相関関係があると考えられます。
今回はあくまでも基本的なサンプルでしかなく、一側面しか見えてない状態ですが・・・
さて、話をタイトルの「AIは民主化されない」という部分に戻したいと思います。
改めて自分自身でオープンソースのモデルを実行しただけではありますが、現状は完全に資本主義の世界です。
データ量の世界であり、その元データを揃えることのできる企業でなければならないですし、大規模なモデルの構築であれば想像を超えるような計算資源が必要となり、それこそメガクラウドの事業者レベルの計算資源がなければ不可能な世界でしょう。モデルを実行しレスポンシブルに回答を返すためにも当然大規模な計算資源が必要であり、何よりも資本が物を言う世界です。
しかも規模が模倣困難性を生んでいるというのも優位性に拍車をかけています。
故にMicrosoftがBing AIと言うかたちでOpenAIのGPT3.xをベースにしたモデルを利用した新規サービスを開始しましたがこれは本当に破壊的な恐ろしさを持っているのではないかと考えています。
Bingという検索エンジンのための整形された大規模な言語情報、Githubという世界最大のソースコードホスティングのコード情報、Azureという計算資源。
現時点では学習させた量=賢さとなっている規模の経済が働いている状態で、アルゴリズムが破壊的に更新されない限りはOpenAI+Microsoft(あるいは、それに類する資本力をもつビッグテック)の独走は強まると考えます。
それにしてもMicrosoftの最近の戦略がすべて良い方向に一貫しているのはすごいです。
民主化という観点では、だれでもOpenAIやAzure AIにお金を払えば今だって「サービス」として利用することはできます。
サービスとして利用するだけならこのままの状態でも困ることはないでしょうが、話者も少なく独自の文化である日本・日本語への対応の優先度はどれくらいでしょうか?サービス提供元によって遮断されるリスクも有る状態が、フェアなのか。一握りのAI(とプラットフォーマー)によって独占された世界が「1984」にならないことを祈ります。
特化型のモデルで差別化することが今後はトレンドになると思いますが、これまでの世の中でも特化型サービスが多くの人をが利用する汎用サービスを上回ったことは記憶に数えるほどしかなく、学習/パラメータの量が物言う世界であればその優勢についてもAIの進化のスピードと規模の経済(規模が大きくなるほどサービスの価格を下げることができる)が働くのではないかと考えます。
なんて、オープンソースのモデルのサンプルを動かした程度で何を偉そうに語ってんだという話:-p