小規模言語モデル(SLMs)の台頭とMistral AIの競争力

スポンサーリンク

小規模言語モデル(SLMs)の台頭とMistral AIの競争力

先日、Algomaticさんが後援されている生成AI新年会に参加してみました。

生成AI新年会2024まとめ|SHOGO
生成AI新年会に参加してきたので、個人の範囲で感じたことを共有します。 全体感 LT(Lightning Talk)での内容や、ネットワーキング(懇親会)でお話しした方々の内容をまとめると以下のような全体感でした。 AI開発者目線: 汎用的...

MicrosoftさんのLTでLLMよりもパラメーターが少ないけれど、LLMの性能に匹敵すると言われるSmall Language Modelがあるということを聞きました。

生成AIサービスを提供する事業者としては、Quality、Cost、DeliveryのQCDに大きく影響する問題なので、調べてみました。

SLMsが大規模言語モデル(LLMs)に比べてどのような利点を持ち、どのような需要があるかを見ていきます。

↓忙しい人向け

  • SLMsは、ランタイム費用を低減し、安全で管理可能な環境を提供しながら、LLMsと同等の性能を持っている。
  • Mistral AIやMITの研究者たちの取り組みにより、SLMsの開発や効率性が向上している。
  • また、SLMsの環境への優しいエネルギー消費に関する研究も行われている。
スポンサーリンク

小規模言語モデル(SLMs:Small Language Models)の特長と利点

小規模言語モデルとしては、下記のモデルがよく話題に上がっています。

小規模言語モデルは、1〜10億のパラメータを持つモデルがあると言われています。

ちなみに、ChatGPT 4は約1.76兆のパラメータを持ち、専門家アーキテクチャを混合して実行されると言われています。ChatGPT 3.5は約1750億のパラメータを持ち、Nvidiaが提供する高性能プロセッサの広範なクラスターで実行されています。)

(他にも、 DeepMind の Chinchilla、Meta の LLaMaモデル、Stanford の Alpaca、Stability AI の StableLM シリーズなど…)

また、Version 1のSenior Technical ResearcherであるRosemary J Thomas, PhD氏によると、小規模言語モデルは、大規模言語モデル(LLMs)に比べて、様々な自然言語やプログラミング言語に匹敵する性能を持つことが述べられています。

比較すると、

表にして比較するとこんな感じです。

特性 SLM LLM
効率性 計算能力とメモリの要求が少なく、トレーニングや展開が速い 一般的に時間がかかる
コスト トレーニングや維持の費用が一般的に低い 一般的に高い
タスク処理 特定のドメインやタスクに合わせて微調整が可能で、特定の領域でより良いパフォーマンスを発揮 多様なデータに基づいており、さまざまな言語パターンや文脈を捉えることができる

特定のデータセットを微調整せずとも、異なるドメインやタスクに適用可能

より多くのパラメータを持ち、複雑で文脈に即したテキストを理解・生成できる

さらに、LLMsの性能を匹敵させながらランタイム費用を低減し、安全で完全に管理可能な環境を確保するために、カスタムのSmall Language Modelsへの需要がすでにあるそうです。

つまり、SLMの利点としては、企業での独自利用、産業ユースケースへの適用がしやすいことが挙げられているようです。

  • ハードウェアの観点から見ると、実行コストが安く、オンプレミスやデバイスへの展開に適している。
  • 使用の観点から見ると、特定のドメインやタスク向けにトレーニングまたはファインチューニングされたモデルであり、知的財産を保護できる。
  • 医療診断から法的な専門用語まで、さまざまな分野で応用されている。

ちなみにSLMsを作成するためには、Hugging Face Hub、Anthropic Claude、Cohere for AI、Assembler などのフレームワークで作成することができるようです。

小規模言語モデルの具体例

MicrosoftのPhi-2

冒頭のMicrosoftさんがスライドでも紹介していたPhi-2について、昨年の12月に以下のように発表されています。

Satya Nadella on stage at Microsoft Ignite 2023 announcing Phi-2.

A bar plot comparing the performance of Phi-2 (with 2.7B parameters) and Phi-1.5 (with 1.3B parameters) on common sense reasoning, language understanding, math, coding, and the Bigbench-hard benchmark. Phi-2 outperforms Phi1.5 in all categories. The commonsense reasoning tasks are PIQA, WinoGrande, ARC easy and challenge, and SIQA. The language understanding tasks are HellaSwag, OpenBookQA, MMLU, SQuADv2, and BoolQ. The math task is GSM8k, and coding includes the HumanEval and MBPP benchmarks.

A barplot comparing the safety score of Phi-1.5, Phi-2, and Llama-7B models on 13 categories of the ToxiGen benchmark. Phi-1.5 achieves the highest score on all categories, Phi-2 achieves the second-highest scores and Llama-7B achieves the lowest scores across all categories.

(記事内容の一部翻訳と抜粋)

Phi-2は、13 billionパラメータ未満のベース言語モデルの中で最先端のパフォーマンスを示し、25倍大きなモデルに匹敵するかそれを上回るパフォーマンスを発揮します。トレーニングデータの品質がモデルのパフォーマンスに重要な役割を果たし、Phi-2は、教育的価値とコンテンツの品質に基づいてフィルタリングされたウェブデータを慎重に選択して、トレーニングコーパスを拡張します。

Phi-2は、25倍大きなLlama-2-70Bモデルに比べて、複数段階の推論タスクでより良いパフォーマンスを達成します。また、Phi-2は、サイズが小さいにもかかわらず、最近発表されたGoogle Gemini Nano 2を上回るパフォーマンスを発揮します。トレーニングデータの品質がモデルのパフォーマンスに重要な役割を果たし、Phi-2は、教育的価値とコンテンツの品質に基づいてフィルタリングされたウェブデータを慎重に選択して、トレーニングコーパスを拡張します。

Phi-2は、NLPとコーディングのための合成およびWebデータセットからの1.4TトークンでトレーニングされたTransformerベースのモデルであり、トレーニングには96 A100 GPUsで14日間かかりました。Phi-2は、人間のフィードバックによる強化学習を通じたアライメントを経ていないベースモデルであり、また指示による微調整も行っていません。それにもかかわらず、我々は、既存のオープンソースモデルと比較して、Phi-2が毒性や偏見に関してより良い振る舞いを示すことを観察しました。

Phi-2: The surprising power of small language models
Phi-2 is now accessible on the Azure model catalog. Its compact size and new innovations in model scaling and training d...

TinyLlama

オープンソースの小規模言語モデル TinyLlamaは、約1兆トークンを約3エポックで事前学習したコンパクトな1.1B言語モデルです。

[無題画像]

オープンソースコミュニティによって提供されたさまざまな進歩を活用し、より優れた計算効率を実現しています。比較的小さなサイズにもかかわらず、TinyLlamaはさまざまな下流タスクで優れたパフォーマンスを発揮し、同等のサイズの既存のオープンソース言語モデルを大幅に上回っています。当社のモデルのチェックポイントとコードは、GitHubのhttps://github.com/jzhang38/TinyLlamaで公開されています。

TinyLlama: An Open-Source Small Language Model

Mistral AIが切り込むSLMs

ちなみに、フランスのMistral AIというスタートアップは、GPT-4よりも小さいオープンソースモデルであるMistral 7Bをリリースしています。

mistralai/Mistral-7B-v0.1 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

Mistral AIは、アンドリーセンにリードされたラウンドで4億8700万ドルを調達し、OpenAIに強力な競合相手となることを目指しています。

資金調達には、NvidiaやSalesforceなどの著名な企業からの投資が含まれており、Mistral AIの評価額は約20億ドルになると予想されています。ちなみに、Mistral AIの3人の共同創業者は、それぞれ100万ユーロ以上の株式を売却することに同意しています。

現在22人の従業員を擁し、2023年4月にMetaやGoogleで働いていた研究者によって設立されているそうです。文句なしの小規模ユニコーン企業です。

Mistral AIは、オープンソースのアプローチを取り、大規模言語モデルを提供しており、私の知人もOpen AIではできないユースケースで活用しています。Open AIができない戦略を取る、期待できるスタートアップです。

ちなみに2024年2月現在のAPI料金は下記の通りです。gpt-3.5-turbo-0125が、「$0.0005 / 1K tokens」なので、ちょっと高いかな?って感じはします。

Chat Completions API

Model Input Output
mistral-tiny 0.14€ / 1M tokens 0.42€ / 1M tokens
mistral-small 0.6€ / 1M tokens 1.8€ / 1M tokens
mistral-medium 2.5€ / 1M tokens 7.5€ / 1M tokens

Embeddings API

Model Input
mistral-embed 0.1€ / 1M tokens

まぁGPT3.5よりも性能がいいらしいのでこんなものかもしれないです。Deskrex.aiでも試してみようと思っています。

ここによると、歴史的に、最近はGoogle Cloudとも連携を行っており、Open AIのようにBig Techとのディストリビューションを取りに行く戦略をしっかり真似ています。

(翻訳して一部抜粋)

2023年5月

  • ミストラルはアルトゥール・メンシュ、ギョーム・ランプル、ティモシー・ラクロワによって設立されました。
  • 1 億 1,300 万ドルのシード資金が生成 AI の野心を実証

2023年9月

  • 70億パラメータのオープンソースモデルMistral 7Bをリリース

2023年11月

  • 460 億パラメータの最先端技術を搭載した Mixtral 8x7B が発売
  • 4 億 1,500 万ドルのシリーズ A で競合他社に対するリーダーシップを強化
  • 商用開発者プラットフォームが早期アクセス向けにオープン

2023年12月

  • 規模とリーチを実現するために Google Cloud とパートナーシップを締結
  • 採用は継続し、今後の成長も期待

いまのLLMは、ウェブ上のデータから学んだ汎用的な知能をもったAIですが、AGIを各社が目指す中で、企業や人に特化したモデルが確実に流行るでしょう。

モデルが軽量で高速であるので、ラップトップやスマホで動く未来です。

その意味で、Small Language Models(小規模言語モデル)は、ある意味人間的な個性(あるいは企業及び組織的な個性)を生み出す意味で、役に立ちそうだと直感的に思いました。

そのときはおそらくファウンデーションモデルという概念は弱まり、アプリケーションの時代がスマホのように来るんでしょうね。

参考文献

この記事はDeskrexでリサーチした結果を参考に書いています。無料トライアルで使いたい方はこちら → https://lp.deskrex.ai/

ビジネス
スポンサーリンク
スポンサーリンク
ブログを購読する

ブログの更新をメールでお知らせします。

ItaruTomita9779をフォローする
スポンサーリンク

コメント

タイトルとURLをコピーしました