ラゴスを拠点とするAIスタートアップIntronは、第2世代の主力音声AIモデルであるSahara-v2を正式にリリースし、世界的な音声認識の水準を大きく引き上げました。このモデルは24の新しいアフリカ言語をサポートし、500以上の異なるアフリカ英語のアクセントを習得することで、同社の言語カバレッジを前例のない57言語にまで拡大しました。
長年、SiriやAlexa、または標準的なテキスト読み上げエンジンなどのグローバルな音声アシスタントとのやり取りは、根本的にあなたの言語を話さない壁に向かって話しているように感じられてきました。私たちは皆、音声コマンドを使おうとして、「No worry, e go better」のような地域特有のフレーズが意味不明な「No war eagle butter」に書き起こされる経験をしたことがあります。最初は面白いかもしれませんが、「Wanjiru」が「One zero」にデジタル化され、「Chukwuebuka」が不可解にも「Check wheelchair baker」になってしまうと、笑いは急速に消えていきます。
こうした繰り返される書き起こしの失敗は、単なる技術的な失策以上のものです。それらは能動的なデジタル排除の一形態なのです。主に西洋のデータセットで構築された世界的な主要AIモデルは、ここで完全に的を外しています。それらは、発音によって1つの単語が6つの異なる意味を持つ私たちの言語の音色の豊かさに対応できていません。それらは私たちの自然なリズムでのコードスイッチングにつまずき、1つのオフィスが10種類の全く異なるアクセントを持つスタッフを雇用している可能性があることを理解できません。音声アシスタントが基本的な単語や名前を誤解すると、何百万人ものユーザーが現代生活を容易にするデジタルショートカットから締め出されてしまうのです。
Intron
Sahara-v2は、仮定に基づいて構築されたり、静かで無菌的なスタジオで訓練されたりしたわけではないため、この重要なギャップを埋めています。Intronはこのモデルを、街に出て耳を傾けることによって構築しました。データセットは大規模で超ローカライズされています:1400万以上の音声クリップ、合計50,000時間以上の音声が、40,000人以上の話者から収集されています。これらの音声は、30以上の国にまたがる64のアフリカおよびディアスポラの言語を代表しています。重要なのは、これらがAIが実際に機能する必要がある場所、つまり混雑したクリニック、騒がしい市場、活気あるコールセンター、法廷で録音されたことです。
この現場からの実世界アプローチにより、Sahara-v2はグローバルテクノロジーの大手企業を大きく上回ることができました。Gemini-3、GPT-4、Whisper、ElevenLabs、AWS、Azureなどの業界の重鎮と比較してベンチマークを行った結果、Intronのモデルは圧倒的なリードを示しています。
アフリカの名前、組織、場所に関して68.6%高い精度を記録し、数字、分数、通貨の書き起こしでは55.6%優れています。さらに、背景ノイズや話者の重なりによって引き起こされるAIハルシネーションに対して36.5%高い耐性を誇り、医療、法律、通信、金融などの専門分野全体で46.7%のパフォーマンス向上を実現しています。
印象的なベンチマークを超えて、Sahara-v2は実世界のエンタープライズ展開向けに設計された本格的な生産性エンジンです。わずか5分で展開できる堅牢なAPIに支えられ、このインフラストラクチャはすでに音声バンキング、自動本人確認(KYC)プロセス、健康データから口座開設フォームまであらゆるもののオートフィルシステムを積極的に支えています。初期のエンタープライズ採用企業は、このテクノロジーが管理処理時間を最大4.4倍短縮していると報告しています。
アフリカ大陸独自の言語的現実に対処するため、Intronは高度に専門化された地域機能を展開しています。ケニアのPenda Healthとの協力により、文中で自然に言語を切り替える様子を完璧に捉える、世界初のスワヒリ語-英語バイリンガル自動音声認識(ASR)モデルを導入しました。
この市場向けに、彼らはネイティブのハウサ語テキスト読み上げ(TTS)モデルを立ち上げ、低遅延の24時間365日対応の音声ボットを実現しています。そして、データプライバシーの懸念に対処する政府や企業向けに、Sahara-v2の展開には新しいオフラインサポートが含まれており、主権AIコンプライアンスのためにデータを安全かつローカルに保つことができます。
IntronのSahara-v2
6カ国にわたる企業および政府クライアントがすでにこのシステムを利用しています。ARM Investmentsのデータおよびインサイト責任者であるAyo Oluleyeは、「Intron AIモデルを使用することで、以前探索したモデルと比較して、書き起こしと要約が大幅に改善されました。彼らのシステムはコンテキストとニュアンスをより適切に捉え、より正確な結果につながります」と述べています。AudereのCPOであるSarah Morrisもこれに同意し、99%以上のAPI成功率と南アフリカのアクセントに対する優れた精度を報告しています。
Sahara-v2のローンチと並行して、Intronは初の2026年アフリカ音声AIレポートもリリースしました。この出版物は、エコシステムに関する包括的で初めての見解を提供し、複雑な環境に音声AIを展開することから学んだ教訓を詳述し、スタートアップ、投資家、政策立案者をガイドします。
こちらもお読みください:Googleがヨルバ語、ハウサ語、イボ語を含む21のアフリカ言語でAIをトレーニング
最新の言語には、アフリカフランス語、アフリカーンス語、アカン語、アムハラ語、アラビア語、ベンバ語、フラニ語、ガ語、ハウサ語、イボ語、キニヤルワンダ語、ルガンダ語、オロモ語、ペディ語、ピジン語が含まれます。その他には、セソト語、ショナ語、スワヒリ語、ツワナ語、トゥイ語、ウォロフ語、コサ語、ヨルバ語、ズールー語があります。これらの追加により、デジタル世界への扉がついに大きく開かれようとしています。
Intron CEOのTobi Olatunjiが言うように、「Sahara-v2は、テクノロジーが深い文化的および言語的理解に基づいて構築されるとき、素晴らしいことが起こり得ることを証明しています。そして、私たちはまだ始まったばかりです。」
記事「Intronが24の新しいアフリカ言語をサポートする音声AIモデルSahara-v2をローンチ」はTechnextに最初に掲載されました。


