arXiv (NLP)AI
VectraYX-Nano:カリキュラム学習とネイティブツール使用機能を備えた4200万パラメータのスペイン語サイバーセキュリティ言語モデル
VectraYX-Nano: A 42M-Parameter Spanish Cybersecurity Language Model with Curriculum Learning and Native Tool Use
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
スペイン語圏のサイバーセキュリティ分野向けに、新たな軽量言語モデルが開発されました。VectraYX-Nanoは、わずか4195万パラメータのトランスフォーマーベースのデコーダのみの言語モデルで、スペイン語を母語として学習されたものです。特にラテンアメリカ地域を想定した設計となっており、Model Context Protocol(MCP)を通じたネイティブなツール呼び出し機能を備えています。
開発チームは、8つの仮想マシンによるパイプラインを用いて、わずか約25米ドルのコストで1億7000万トークンのスペイン語コーパス「VectraYX-Sec-ES」を構築しました。このコーパスは、会話型データ(4200万トークン)、サイバーセキュリティ関連データ(1億1800万トークン)、攻撃的セキュリティツール関連データ(1000万トークン)の3つに段階的に分割されています。データソースにはNVD、Wikipedia-ES、CVEミラー、セキュリティブログなど実務的で信頼性の高い情報源が使用されています。
モデルの学習には、リプレイバッファを活用したカリキュラム学習手法が採用されました。この手法により、段階的に損失が低下し、最終的には9.80から2.16へと大幅に改善されました。その後、OASST-ES、Alpaca-ES、CVE質問応答、および6327件のツール使用トレースでの教師付きファインチューニングを経て、会話性評価で0.78±0.05という高いスコアを達成しています。
興味深い研究知見として、ナノスケールでの損失と制御レジスタの反転現象が観察され、LoRA研究からはツール選択性能が単なる容量不足ではなく、コーパスの密度に左右されることが判明しました。ツール密度の高いコーパス(2801例)を用いることで、パフォーマンスが大幅に向上することが示されています。完成したモデルはわずか81MB(F16形式)で、llama.cpp環境下での一般的なハードウェア上での応答時間は1秒未満と極めて軽量で、スペイン語ネイティブかつMCP統合機能を持つサイバーセキュリティ専門の言語モデルとしては初のものとされています。