小規模言語モデル（SLMs）の台頭とMistral AIの競争力

先日、Algomaticさんが後援されている生成AI新年会に参加してみました。

生成AI新年会2024まとめ｜SHOGO

生成AI新年会に参加してきたので、個人の範囲で感じたことを共有します。全体感 LT(Lightning Talk)での内容や、ネットワーキング(懇親会)でお話しした方々の内容をまとめると以下のような全体感でした。 AI開発者目線：汎用的...

MicrosoftさんのLTでLLMよりもパラメーターが少ないけれど、LLMの性能に匹敵すると言われるSmall Language Modelがあるということを聞きました。

生成AIサービスを提供する事業者としては、Quality、Cost、DeliveryのQCDに大きく影響する問題なので、調べてみました。

SLMsが大規模言語モデル（LLMs）に比べてどのような利点を持ち、どのような需要があるかを見ていきます。

↓忙しい人向け

SLMsは、ランタイム費用を低減し、安全で管理可能な環境を提供しながら、LLMsと同等の性能を持っている。
Mistral AIやMITの研究者たちの取り組みにより、SLMsの開発や効率性が向上している。
また、SLMsの環境への優しいエネルギー消費に関する研究も行われている。

小規模言語モデル（SLMs：Small Language Models）の特長と利点
小規模言語モデルの具体例
1. MicrosoftのPhi-2
2. TinyLlama
Mistral AIが切り込むSLMs
参考文献

小規模言語モデル（SLMs：Small Language Models）の特長と利点

小規模言語モデルとしては、下記のモデルがよく話題に上がっています。

小規模言語モデルは、1〜10億のパラメータを持つモデルがあると言われています。

（ちなみに、ChatGPT 4は約1.76兆のパラメータを持ち、専門家アーキテクチャを混合して実行されると言われています。ChatGPT 3.5は約1750億のパラメータを持ち、Nvidiaが提供する高性能プロセッサの広範なクラスターで実行されています。）

（他にも、 DeepMind の Chinchilla、Meta の LLaMaモデル、Stanford の Alpaca、Stability AI の StableLM シリーズなど…）

また、Version 1のSenior Technical ResearcherであるRosemary J Thomas, PhD氏によると、小規模言語モデルは、大規模言語モデル（LLMs）に比べて、様々な自然言語やプログラミング言語に匹敵する性能を持つことが述べられています。

比較すると、

LLM
- LLMsはサイズが大きく、SLMsと比較して広範囲なトレーニングを受けている。
- LLMsは複雑な自然言語処理能力を持ち、複雑なパターンを捉えることができる。
SLMs
- SLMsは言語パターンへの限定的な露出しかないが、適切なユースケースでLLMsよりも有益。
- SLMsは、最近の研究では、100 万から 1,000 万という少ないパラメータを持つモデルでも基本的な言語能力を獲得できるらしい。

表にして比較するとこんな感じです。

特性	SLM	LLM
効率性	計算能力とメモリの要求が少なく、トレーニングや展開が速い	一般的に時間がかかる
コスト	トレーニングや維持の費用が一般的に低い	一般的に高い
タスク処理	特定のドメインやタスクに合わせて微調整が可能で、特定の領域でより良いパフォーマンスを発揮	多様なデータに基づいており、さまざまな言語パターンや文脈を捉えることができる特定のデータセットを微調整せずとも、異なるドメインやタスクに適用可能より多くのパラメータを持ち、複雑で文脈に即したテキストを理解・生成できる

特性

SLM

LLM

効率性

計算能力とメモリの要求が少なく、トレーニングや展開が速い

一般的に時間がかかる

コスト

トレーニングや維持の費用が一般的に低い

一般的に高い

タスク処理

特定のドメインやタスクに合わせて微調整が可能で、特定の領域でより良いパフォーマンスを発揮

多様なデータに基づいており、さまざまな言語パターンや文脈を捉えることができる

特定のデータセットを微調整せずとも、異なるドメインやタスクに適用可能

より多くのパラメータを持ち、複雑で文脈に即したテキストを理解・生成できる

さらに、LLMsの性能を匹敵させながらランタイム費用を低減し、安全で完全に管理可能な環境を確保するために、カスタムのSmall Language Modelsへの需要がすでにあるそうです。

つまり、SLMの利点としては、企業での独自利用、産業ユースケースへの適用がしやすいことが挙げられているようです。

ハードウェアの観点から見ると、実行コストが安く、オンプレミスやデバイスへの展開に適している。
使用の観点から見ると、特定のドメインやタスク向けにトレーニングまたはファインチューニングされたモデルであり、知的財産を保護できる。
医療診断から法的な専門用語まで、さまざまな分野で応用されている。

ちなみにSLMsを作成するためには、Hugging Face Hub、Anthropic Claude、Cohere for AI、Assembler などのフレームワークで作成することができるようです。

小規模言語モデルの具体例

MicrosoftのPhi-2

冒頭のMicrosoftさんがスライドでも紹介していたPhi-2について、昨年の12月に以下のように発表されています。

（記事内容の一部翻訳と抜粋）

Phi-2は、13 billionパラメータ未満のベース言語モデルの中で最先端のパフォーマンスを示し、25倍大きなモデルに匹敵するかそれを上回るパフォーマンスを発揮します。トレーニングデータの品質がモデルのパフォーマンスに重要な役割を果たし、Phi-2は、教育的価値とコンテンツの品質に基づいてフィルタリングされたウェブデータを慎重に選択して、トレーニングコーパスを拡張します。

Phi-2は、25倍大きなLlama-2-70Bモデルに比べて、複数段階の推論タスクでより良いパフォーマンスを達成します。また、Phi-2は、サイズが小さいにもかかわらず、最近発表されたGoogle Gemini Nano 2を上回るパフォーマンスを発揮します。トレーニングデータの品質がモデルのパフォーマンスに重要な役割を果たし、Phi-2は、教育的価値とコンテンツの品質に基づいてフィルタリングされたウェブデータを慎重に選択して、トレーニングコーパスを拡張します。

Phi-2は、NLPとコーディングのための合成およびWebデータセットからの1.4TトークンでトレーニングされたTransformerベースのモデルであり、トレーニングには96 A100 GPUsで14日間かかりました。Phi-2は、人間のフィードバックによる強化学習を通じたアライメントを経ていないベースモデルであり、また指示による微調整も行っていません。それにもかかわらず、我々は、既存のオープンソースモデルと比較して、Phi-2が毒性や偏見に関してより良い振る舞いを示すことを観察しました。

Phi-2: The surprising power of small language models

Phi-2 is now accessible on the Azure model catalog. Its compact size and new innovations in model scaling and training d...

TinyLlama

オープンソースの小規模言語モデル TinyLlamaは、約1兆トークンを約3エポックで事前学習したコンパクトな1.1B言語モデルです。

オープンソースコミュニティによって提供されたさまざまな進歩を活用し、より優れた計算効率を実現しています。比較的小さなサイズにもかかわらず、TinyLlamaはさまざまな下流タスクで優れたパフォーマンスを発揮し、同等のサイズの既存のオープンソース言語モデルを大幅に上回っています。当社のモデルのチェックポイントとコードは、GitHubのhttps://github.com/jzhang38/TinyLlamaで公開されています。

TinyLlama: An Open-Source Small Language Model

Mistral AIが切り込むSLMs

ちなみに、フランスのMistral AIというスタートアップは、GPT-4よりも小さいオープンソースモデルであるMistral 7Bをリリースしています。

mistralai/Mistral-7B-v0.1 · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

Mistral AIは、アンドリーセンにリードされたラウンドで4億8700万ドルを調達し、OpenAIに強力な競合相手となることを目指しています。

資金調達には、NvidiaやSalesforceなどの著名な企業からの投資が含まれており、Mistral AIの評価額は約20億ドルになると予想されています。ちなみに、Mistral AIの3人の共同創業者は、それぞれ100万ユーロ以上の株式を売却することに同意しています。

現在22人の従業員を擁し、2023年4月にMetaやGoogleで働いていた研究者によって設立されているそうです。文句なしの小規模ユニコーン企業です。

Mistral AIは、オープンソースのアプローチを取り、大規模言語モデルを提供しており、私の知人もOpen AIではできないユースケースで活用しています。Open AIができない戦略を取る、期待できるスタートアップです。

ちなみに2024年2月現在のAPI料金は下記の通りです。gpt-3.5-turbo-0125が、「$0.0005 / 1K tokens」なので、ちょっと高いかな？って感じはします。

Chat Completions API

Model	Input	Output
`mistral-tiny`	0.14€ / 1M tokens	0.42€ / 1M tokens
`mistral-small`	0.6€ / 1M tokens	1.8€ / 1M tokens
`mistral-medium`	2.5€ / 1M tokens	7.5€ / 1M tokens

Embeddings API

Model	Input
`mistral-embed`	0.1€ / 1M tokens

まぁGPT3.5よりも性能がいいらしいのでこんなものかもしれないです。Deskrex.aiでも試してみようと思っています。

ここによると、歴史的に、最近はGoogle Cloudとも連携を行っており、Open AIのようにBig Techとのディストリビューションを取りに行く戦略をしっかり真似ています。

（翻訳して一部抜粋）

2023年5月

ミストラルはアルトゥール・メンシュ、ギョーム・ランプル、ティモシー・ラクロワによって設立されました。

1 億 1,300 万ドルのシード資金が生成 AI の野心を実証

2023年9月

70億パラメータのオープンソースモデルMistral 7Bをリリース

2023年11月

460 億パラメータの最先端技術を搭載した Mixtral 8x7B が発売

4 億 1,500 万ドルのシリーズ A で競合他社に対するリーダーシップを強化

商用開発者プラットフォームが早期アクセス向けにオープン

2023年12月

規模とリーチを実現するために Google Cloud とパートナーシップを締結

採用は継続し、今後の成長も期待