【週刊AIニュース】【2026年3月第1週】週刊AIニュースハイライト

GPT-5.4登場、デジタル庁が国産LLM選定、日本生命がOpenAIを提訴

今週もAI業界は大きな動きが続きました。OpenAIが立て続けにGPT-5.3 InstantとGPT-5.4をリリースし、Googleも低コスト高速モデルGemini 3.1 Flash-Liteを投入。国内ではデジタル庁がガバメントAI向け国産LLMを選定し、日本生命の米法人がChatGPTの法的助言問題でOpenAIを提訴するなど、日本のAI活用が新たなフェーズに入ったことを感じさせる一週間でした。

今週のハイライト

今週は、大手各社のモデル競争が一段と激化する中、国内ではデジタル庁の国産LLM選定やAIの法的責任を問う訴訟など、AIの社会実装が本格化するフェーズに入ったことを示すニュースが目立ちました。

主要ニュース

1. OpenAI、GPT-5.4を発表 ― 100万トークンのコンテキストウィンドウで過去最高性能

3月5日、OpenAIは最新のフラッグシップモデル「GPT-5.4」を発表しました。ChatGPT、API、Codexの全プラットフォームで利用可能です。

GPT-5.4は最大100万トークンのコンテキストウィンドウをサポートし、大規模なデータセットや長大なワークフローを一度に処理できるようになりました。前モデルGPT-5.2と比較して個々の主張における誤り率が33%低下し、全体的な回答のエラー率も18%改善されています。GPT-5.4 Thinking(高度な推論向け)とGPT-5.4 Pro(高性能ワークロード向け)の2つの構成で提供され、OSWorld-VerifiedやWebArena Verifiedなどのベンチマークで記録的なスコアを達成しました。GDPvalベンチマーク(知識労働タスク)では83%を記録しています。

【参考】Introducing GPT-5.4 – OpenAI

2. OpenAI、GPT-5.3 Instantをリリース ― 幻覚26.8%削減で「クリンジ」問題に対処

3月3日、OpenAIはChatGPTの日常利用モデル「GPT-5.3 Instant」をリリースしました。会話の自然さ向上と不要な回答拒否の削減が主な改善点です。

このアップデートでは幻覚(ハルシネーション)を最大26.8%削減し、「深呼吸してください」といった不自然な応答パターンや過度な注意喚起を大幅に減らしました。Web検索結果の文脈理解も改善され、より正確で豊かな回答が可能になっています。開発者向けにはAPIで「gpt-5.3-chat-latest」として提供されています。わずか3日後にはGPT-5.4がリリースされており、OpenAIのモデル更新ペースの加速が顕著です。

【参考】OpenAI releases GPT-5.3 Instant update to make ChatGPT less ‘cringe’ – 9to5Mac

3. Google、Gemini 3.1 Flash-Liteを公開 ― 2.5 Flashの2.5倍高速で低コスト

3月3日、Googleは「Gemini 3.1 Flash-Lite」をプレビュー公開しました。Gemini 3ファミリーの中で最速・最もコスト効率の良いモデルです。

入力100万トークンあたり0.25ドル、出力100万トークンあたり1.50ドルという低価格で、Gemini 2.5 Flashと比較して初回トークン応答時間が2.5倍高速、出力速度も45%向上しています。11のベンチマークテストのうち6項目でトップスコアを獲得し、GPT-5 miniやClaude 4.5 Haikuを上回る結果を示しました。推論の深さを「minimal」「low」「medium」「high」の4段階で制御できる柔軟な設計も特徴です。Google AI StudioおよびVertex AIで利用可能です。

【参考】Gemini 3.1 Flash-Lite: Our most cost-effective AI model yet – Google Blog

4. Alibaba、Qwen3.5 Smallモデルをリリース ― 直後に開発リーダーが退任

3月3日、AlibabaのQwenチームはパラメータ数0.8B〜9Bの小型オープンソースモデル「Qwen3.5 Small」シリーズをリリースしました。エッジデバイスでの動作を想定した軽量モデルです。

特にQwen3.5-9Bは、OpenAIのgpt-oss-120Bを上回るベンチマーク性能を示しながら、標準的なラップトップで動作可能という驚異的な効率性を実現しています。Apache 2.0ライセンスで商用利用も可能です。しかし、この成功の裏で組織的な混乱が表面化しました。Qwen3-MaxおよびQwen3.5の開発を主導したリードエンジニアの林俊洋氏がリリース当日に退任を表明。「me stepping down. bye my beloved qwen.」という投稿が話題となり、AlibabaのAI戦略の先行きに不透明感が漂っています。

【参考】Alibaba’s small, open source Qwen3.5-9B beats OpenAI’s gpt-oss-120B – VentureBeat

5. AI2、Olmo Hybridを発表 ― Transformer×線形RNNのハイブリッドで2倍のデータ効率

3月5日、AI2(Allen Institute for AI)は70億パラメータの完全オープンモデル「Olmo Hybrid」を発表しました。Transformerの注意機構と線形回帰型ニューラルネットワークを組み合わせた新アーキテクチャです。

Olmo Hybridは、Olmo 3のスライディングウィンドウ注意層をGated DeltaNet(線形RNN設計)に置き換え、Transformer層と交互に配置するハイブリッド構成を採用しています。その結果、広く使用されるベンチマークMMLUにおいてOlmo 3と同等の精度を49%少ないトークンで達成し、約2倍のデータ効率を実現しました。6兆トークンでの事前学習はNVIDIA H100とHGX B200を使用し、重み・中間チェックポイント・学習コードがすべて公開されています。

【参考】Introducing Olmo Hybrid: Combining transformers and linear RNNs for superior scaling – AI2

6. Apple、iOS 26.4でGemini搭載の新Siriを正式確認

3月1日、AppleはiOS 26.4でGoogleのGeminiモデルを搭載した新しいSiriを出荷することを正式に確認しました。長らく遅延していたSiriの大幅刷新がついに実現します。

新Siriは画面上のコンテキスト認識に対応し、Safariで表示中のレストランを見ながら予約を行うといった操作が可能になります。さらに単一の自然言語リクエストから最大10のアクションを連鎖実行できるようになり、「次のニューヨーク行きフライトを予約してカレンダーに追加し、到着時間をSarahにテキスト送信」といった複合的な指示を一度に処理できます。Appleは年間約10億ドルをGoogleの1.2兆パラメータモデルへのアクセスに投資する計画で、処理はAppleデバイスとPrivate Cloud Compute上で行われ、プライバシー基準は維持されます。

【参考】Apple picks Google’s Gemini to run AI-powered Siri coming this year – CNBC

7. 日本生命の米法人、OpenAIを提訴 ― ChatGPTの法的助言で約16億円の賠償請求

日本生命保険の米国子会社が、ChatGPTが弁護士資格なく法的助言を行い不当な訴訟対応を強いられたとして、OpenAIを提訴しました。約1,030万ドル(約16億円)の賠償を求めています。

訴状によると、保険金受給者がChatGPTから受けた法的助言に基づいて訴訟を起こし、日本生命側は以前成立していた和解が破棄されて追加の訴訟費用が発生しました。さらにChatGPTが架空の判例を引用する事例も確認されています。AIによる無免許弁護士業務(Unauthorized Practice of Law)を理由とした提訴は初のケースとみられ、生成AIの法的責任の所在を問う重要な先例となる可能性があります。OpenAIは設計変更を実施しているものの、AIが専門的な助言を行うことのリスクが改めて浮き彫りになりました。

【参考】日本生命の米国法人、米OpenAIを提訴…ChatGPTの法的助言問題 – 読売新聞

8. Block、AI活用を理由に約4,000人をレイオフ ― 全従業員の40%に相当

Block(旧Square)のジャック・ドーシーCEOは、AIによる業務効率化を理由に約4,000人の従業員を解雇すると発表しました。全従業員の約40%に相当する大規模な人員削減です。

ドーシーは「数ヶ月から数年かけて段階的に削減するか、今すぐ行動するかの選択に直面した」とし、「繰り返しの削減は士気、集中力、信頼を破壊する」と即断の理由を述べました。CFOは「より小さく才能のあるチームがAIを活用してより多くの業務を自動化する」と説明。発表後、株価は最大24%上昇しましたが、AI活用を理由としたレイオフの正当性には懐疑的な見方もあります。BloombergはAIを口実にした「AIウォッシング」の可能性を指摘しており、今後のAI時代の雇用のあり方について議論を呼んでいます。

【参考】Block laying off about 4,000 employees, nearly half of its workforce – CNBC

9. デジタル庁、国産LLM7件を選定 ― ガバメントAI「源内」で全府省庁18万人に展開へ

デジタル庁は、政府向けAI基盤「ガバメントAI」で試用する国産大規模言語モデル(LLM)の公募結果を発表し、15件の応募から7件を選定しました。

選定されたのはNTTデータの「tsuzumi 2」、Preferred Networksの「PLaMo 2.0 Prime」、カスタマークラウドの「CC Gov-LLM」、「cotomi v3」、ELYZAの「Llama-3.1-ELYZA-JP-70B」などです。これらのモデルは政府職員向け生成AI環境「源内」で試用評価が行われ、2026年度中に全府省庁約18万人での大規模実証を開始する予定です。選定基準には日本語・日本文化への適合性、法令遵守、安全性が重視されました。2027年4月からは有償での政府調達に移行する計画で、国産AIの育成・強化を国策として推進する姿勢が鮮明になっています。

【参考】ガバメントAI試用向け国産LLM公募結果 – デジタル庁

10. みずほFG、金融特化LLMを開発 ― 銀行実務テストで89%正答率を達成

みずほフィナンシャルグループが開発した金融特化LLMが、銀行実務テストで推論なしで89%の正答率を達成したことが報じられました。汎用LLMでは対応が難しかった専門的な金融業務への適用を目指します。

この金融特化LLMは、汎用モデルと比較して回答時間を大幅に短縮し、機密性の高い金融データも安全に扱える点が大きな特徴です。銀行業務における融資審査、コンプライアンスチェック、顧客対応など、専門知識を要する実務タスクに特化したチューニングが施されています。今後はより専門的な業務への適用拡大を目指し、AI基盤の強化を進める方針です。国内メガバンクによる独自LLM開発は、金融業界におけるAI内製化の潮流を象徴する動きと言えるでしょう。

【参考】みずほFG、金融特化LLM開発–銀行実務テストで89%正答、応答速度も大幅向上 – ZDNet Japan

業界動向・トレンド

AIモデル競争の新局面 ― 速度・コスト・効率の三つ巴

今週はOpenAI、Google、Alibabaが相次いで新モデルをリリースし、モデル競争が新たな局面に入ったことを示しています。注目すべきは、単純なベンチマークスコアの競争から、速度・コスト効率・実用性を重視する方向にシフトしている点です。

GoogleのGemini 3.1 Flash-Liteは入力100万トークンあたりわずか0.25ドルという低価格で高速推論を実現し、大規模ワークロード市場を狙っています。AlibabaのQwen3.5-9Bはラップトップで動作する小型モデルながら大型モデルを超える性能を達成。AI2のOlmo Hybridはアーキテクチャレベルの革新で2倍のデータ効率を実現しました。モデルの「大きさ」よりも「効率性」が競争軸になる時代が到来しつつあります。

【参考】Gemini 3.1 Flash-Lite: Our most cost-effective AI model yet – Google Blog / Olmo Hybrid – AI2

日本のAI社会実装が加速 ― 政府・金融・医療で本格展開

今週の国内ニュースで際立ったのは、デジタル庁の国産LLM選定とみずほFGの金融特化LLM開発に代表される、日本独自のAI活用基盤の構築が進んでいる点です。

デジタル庁がtsuzumi 2やPLaMo 2.0 Primeなど7つの国産LLMを選定し、全府省庁18万人への展開を計画していることは、行政のAI活用が実証段階から本格導入段階に移行しつつあることを示しています。みずほFGの金融特化LLMは、汎用モデルでは対応困難な専門領域でのAI活用の可能性を実証しました。さらに東大松尾研究室が開発した医療特化型日本語LLMがさくらインターネットを通じて研究者に無償提供を開始するなど、金融・医療・行政の各分野で「業界特化型AI」の開発が同時多発的に進行しています。海外の汎用モデルに依存するのではなく、日本の文脈に最適化されたAIを自前で構築する動きが加速しています。

【参考】ガバメントAI試用向け国産LLM公募結果 – デジタル庁 / みずほFG、金融特化LLM開発 – ZDNet Japan / 医療特化型日本語LLMの開発 – ITmedia AI+

AIの法的責任が問われる時代へ

日本生命の米法人によるOpenAI提訴は、生成AIの法的責任を正面から問う象徴的な事案です。ChatGPTが弁護士資格なく法的助言を行い、架空の判例まで引用したことが訴因となっており、AIによる「無免許専門業務」という新たな法的論点を提起しています。

この問題はAI業界全体に波及する可能性があります。現在、ロンドンでは500人規模の反AI抗議活動「March Against the Machines」が行われ、米国では複数の州でチャットボット規制法案やAI価格監視法案が進展するなど、AI技術の急速な普及に対する社会的な反発と法整備が世界的に加速しています。Block社の4,000人レイオフでは「AIウォッシング」の疑念も指摘されており、AIの能力と責任の境界線をどこに引くかが、技術面だけでなく法制度・社会規範の面からも問われる局面に入っています。

【参考】日本生命の米国法人、米OpenAIを提訴 – 読売新聞 / I checked out one of the biggest anti-AI protests yet – MIT Technology Review

注目の新サービス・ツール

  • GPT-5.4 Thinking(OpenAI):高度な推論タスクに特化したGPT-5.4のバリエーション。複雑な問題解決や分析に最適化
  • GPT-5.3-Codex(OpenAI):開発者向けコーディング特化モデル。APIから利用可能
  • Gemini 3.1 Flash-Lite(Google):100万トークンあたり0.25ドルの低コストモデル。Google AI StudioとVertex AIで利用可能
  • Qwen3.5 Small シリーズ(Alibaba):0.8B〜9Bパラメータの軽量モデル群。Apache 2.0ライセンスでオープンソース公開
  • Olmo Hybrid(AI2):Transformer×線形RNNのハイブリッドアーキテクチャ。重み・学習コード・技術レポートを完全公開
  • ガバメントAI「源内」(デジタル庁):政府職員向け生成AI環境。国産LLM7件を選定し、全府省庁での実証へ

まとめと来週の注目ポイント

今週は、AIモデル開発の「量から質への転換」と「日本のAI社会実装の加速」が鮮明になった一週間でした。OpenAIのGPT-5.3 InstantからGPT-5.4への3日間でのアップデートは、モデルリリースのペースがかつてないほど加速していることを示しています。GoogleやAlibabaも含め、各社が速度・コスト効率・実用性を軸にした差別化を進めており、開発者にとっては選択肢が大幅に広がっています。

国内では、デジタル庁の国産LLM選定、みずほFGの金融特化LLM、東大松尾研の医療LLMと、行政・金融・医療の各分野でAI活用が具体化しています。一方、日本生命のOpenAI提訴はAIの法的責任という新たな論点を突きつけました。技術の進化だけでなく、それを社会にどう実装し、どう法的に位置づけるかが問われるフェーズに入っています。

来週の注目ポイント:

  • 米連邦政府の州AI法レビュー公表(3月11日予定):州法との整合性に関する方針が明らかに
  • Apple iOS 26.4リリース動向:Gemini搭載新Siriの具体的なリリース日程に注目
  • OpenAI GPT-5.4の開発者フィードバック:100万トークンコンテキストの実用性評価
  • Qwen3.5チームの動向:開発リーダー退任後のAlibabaのAI戦略の方向性
  • 日本生命 vs OpenAI訴訟の展開:生成AIの法的責任に関する判例形成への影響

AI技術の進化は加速の一途ですが、それをどう社会に実装していくかという問いが、ますます重要になっています。来週も引き続き最新のAI動向をお届けしますので、どうぞお楽しみに。

コメント

タイトルとURLをコピーしました