「技術ブログ」AI異常検知の常識を覆す!高精度マルチクラス検出Dinomalyとは?

製造現場の品質管理や医療の診断において、AIによる異常検知は欠かせません。しかし、多種多様な製品や症例に対応するためには、多くのAIモデルが必要となりがちでした。今回ご紹介する「Dinomaly」は、そんな常識を覆すシンプルながらも高性能な新技術。一つのAIモデルで複数の異常を検出し、その精度は目覚ましいものがあります。

論文の概要:複雑な異常もシンプルに捉える新手法「Dinomaly」

この研究論文「Dinomaly: The Less Is More Philosophy in Multi-Class Unsupervised Anomaly Detection」は、マルチクラス教師なし異常検出(MUAD)という分野で、従来の課題を克服するための画期的なアプローチを提案しています。

リンク:

https://openaccess.thecvf.com/content/CVPR2025/html/Guo_Dinomaly_The_Less_Is_More_Philosophy_in_Multi-Class_Unsupervised_Anomaly_CVPR_2025_paper.html

研究の目的と課題

これまでのAI異常検知は、対象となる物体の種類(クラス)ごとに個別のモデルを用意する「クラス分離型」が主流でした。しかし、これでは対象が増えるほど必要なモデルの数が膨大になり、管理や運用にかかるコストが大きな負担となります。

そこで登場したのが、複数のクラスを一つのモデルで検知する「マルチクラス教師なし異常検出(MUAD)」です。しかし、MUADには「同一性マッピング」という大きな課題がありました。これは、AIモデルが多様な正常パターンを学習しすぎるあまり、未だ見たことのない異常なパターンさえも「正常なもの」として再構築してしまう現象です。これでは異常を見つけることができません。

Dinomalyのアプローチ:4つのシンプルな要素

Dinomalyは、「Less Is More(少ないほど豊かである)」という哲学に基づき、複雑な設計や特殊なモジュールに頼らず、純粋なTransformer(トランスフォーマー)というAIの基本構造と、以下の4つのシンプルな要素でこの課題を解決します。

  1. スケーラブルなファウンデーションTransformerの活用
    • Transformer(トランスフォーマー): 自然言語処理などで注目され、近年画像処理にも応用されている高性能なAIモデルの基本構造です。
    • Dinomalyは、大規模な画像データで事前に学習された高性能なVision Transformer(ViT)をエンコーダー(特徴抽出器)として活用します。これにより、画像から普遍的で識別力の高い特徴を効率的に抽出します。モデルの規模(ViT-SmallからViT-Large)や入力画像の解像度を大きくするほど、性能が向上する「スケーリング法則」に従うことが示されています。
  2. ノイジーボトルネック(Noisy Bottleneck)
    • MLP(多層パーセプトロン): ニューラルネットワークの基本的な層の一つです。
    • AIの「過剰一般化」(異常も正常と見なしてしまう)を防ぐため、新しいモジュールを追加する代わりに、MLPボトルネック内に元からあるDropout(ドロップアウト)というメカニズムを効果的に利用します。Dropoutは、学習中にニューロン(AIの神経細胞)の活動をランダムに停止させることで、ネットワークが異常に関わらず正常な特徴を再構築するように促し、「同一性マッピング」を抑制します。
  3. 非焦点型線形アテンション(Unfocused Linear Attention)
    • Attention(アテンション): Transformerの主要なメカニズムで、画像内のどこに注目すべきかを学習します。
    • 従来のAttention(Softmax Attention)は、特定の領域に過度に集中する傾向があり、「同一性マッピング」のリスクがありました。Dinomalyは、デコーダー(再構築器)にLinear Attention(線形アテンション)を採用しています。Linear Attentionは、Softmax Attentionのように局所領域に強く「焦点を合わせない」特性を持っており、画像全体に注意を広げます。これにより、未見の異常パターンに関する同一情報が次の層に伝わるのを防ぎ、同時に計算コストも削減します。
  4. 緩い再構築(Loose Reconstruction)
    • 緩い制約(Loose Constraint): 従来の再構築方法では、エンコーダーの各層をデコーダーの対応する層で厳密に模倣させていましたが、これも「同一性マッピング」の原因となり得ました。Dinomalyでは、複数の層から得られた特徴マップをまとめて「一つのグループ」として扱います。これによりデコーダーはより柔軟に画像を再構築でき、未見の異常に対してはエンコーダーと異なる振る舞いをすることが可能になります。
    • 緩い損失(Loose Loss): さらに、再構築がうまくいった部分(コサイン距離が低い特徴点)については、学習中の勾配(重み調整の方向性)を意図的に抑制する特別な損失関数「ハードマイニンググローバルコサイン損失」を使用します。これにより、AIが正常な領域を過剰に学習し、異常を見逃すことを防ぎます。

驚異的な実験結果

Dinomalyは、MVTec-AD、VisA、Real-IADといった主要な異常検出ベンチマークで広範な実験を実施しました。その結果、Dinomalyは既存のMUAD手法を大幅に上回る性能を達成し、画像レベルAUROC(異常検知の精度を示す指標)でMVTec-ADで99.6%、VisAで98.7%、Real-IADで89.3%という驚異的な数値を記録しました。これは、各クラスに個別モデルを用意する最先端のクラス分離型異常検出モデルに匹敵、あるいはそれ以上の精度であり、複雑なシナリオでも単一モデルで高精度な異常検知が可能であることを証明しました。

研究の意義と応用可能性:現場にもたらす画期的なメリット

Dinomalyの研究成果は、製造業や研究開発の現場に、これまでにない大きなメリットをもたらします。

  • コストと手間を大幅削減:
    • 複数の製品ラインや検査対象に対し、一つのAIモデルで対応できるため、モデルの開発、学習、管理にかかるコストと手間が劇的に削減されます。
    • 従来のようにクラスごとにモデルを保存する必要がなくなるため、ストレージコストも低減できます。
  • 導入・運用効率の向上:
    • 新製品の導入や製造プロセスの変更時でも、既存のモデルをそのまま活用できるため、モデルの再学習や追加にかかるリードタイムが大幅に短縮されます。
    • これにより、変化の速い現代のビジネス環境において、迅速な対応が可能になります。
  • 高精度な品質管理の実現:
    • 従来のMUADの課題であった性能低下を克服し、クラス分離型と同等以上の高い異常検知精度を実現しました。
    • これにより、製品の欠陥や製造ラインの異常といった「見逃し」のリスクを最小限に抑え、品質と信頼性を向上させることができます。
  • 多様な現場への適応力:
    • 製造業における多品種少量生産の現場、自動車部品や精密機械の検査、さらには医療分野での多種多様な疾患スクリーニングなど、複雑な実世界シナリオにおいて、Dinomalyは統一モデルとして高い実用性を持つことを示しています。
    • 特に、モデルサイズや入力画像の解像度を調整することで、エッジデバイスでの高速処理から高精細な検査まで、多様な計算リソースや要件に柔軟に対応できる可能性を秘めています。

今回ご紹介したDinomalyは、マルチクラス教師なし異常検出において、「シンプルなアプローチで最高峰の精度を達成できる」という新たな可能性を示しました。これは、AI異常検知の導入・運用における多くの課題を解決し、製造業をはじめとする様々な分野に大きな変革をもたらすでしょう。

TOMOMI RESEARCHでは、このような革新的な技術をいち早くお客様の現場にお届けできるよう、日々研究開発を進めております。当社のAIソリューションにご興味をお持ちいただけましたら、ぜひお気軽にお問い合わせください。

お問い合わせはこちら https://www.tomomi-research.com/contact

TOMOMI RESEARCHの製品・ソリューションページを見る!https://www.tomomi-research.com/download

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA