前回は、「OCRの限界とAIによる進化」関して解説してきました。AIを使って、「非定型帳票」や「手書き文字」まで対応可能な範囲を広げてきたことを理解できたのではないでしょうか。今回は、こうして登場してきた製品やサービスに関して、代表的ななものをピックアップして、比較していきたいと思います。ただ、それぞれに突出した点はあるものの、現在リリースされているものは、運用面まで考慮すると、決して充足しているとは言い切れない側面も見受けられます。そこで、本特集の結びとして、現時点での現実的な解に関しても考察したいと思います。
この節では、次の製品比較で重要となる3つの視点での製品種別を解説していきます。なお、今回も大前提として、ここでは文字起こし用のAI-OCRは除外して考察していきます。
1.機能
まず、機能を中心として捉えると、製品種別は、次のように分類されます。
左下の「定型かつ活字」は既存のOCRで対応していた範囲です。こうして整理してみると、AI-OCRが、図の左上部分の「非定型かつ活字」および右下部分の「定型かつ手書き」という現実的に多く存在する部分に対し、アプローチしようとしているかが解りますね。因みに右上の「非定型かつ手書き」は、あまりないケースだと思いますので、今後も力を入れるベンダーはないでしょう。
2.契約形態
次は契約形態で見てみましょう。契約形態は、従来型の「買取」と最近流行りの「サブスクリプション」の2つのタイプに分かれます。
「買取」とは、文字通りソフトウェアを買い取る形態です。従って、初期費用が高くなる傾向にあります。また、初期費用とは別に、保守費用が必要となることが殆どです。さらに大幅なバージョンアップの際は、別途費用が必要になる場合があります。特に対象となるOSのバージョンアップの際は、必要となることが多いようです。
「サブスクリプション」は、1ヶ月や1年などの一定期間の利用権を付与されるタイプです。最近では、このタイプが増えています。このタイプは、保守料やバージョンアップ費用が含まれる契約になっているものが多いです。
3.提供形態
最後は提供形態別でみていきましょう。ソフトウェアとしての提供である「オンプレミス」とサービスとしての提供の「クラウド」に分かれます。
「オンプレミス」は、ITシステムを企業側が管理する形式です。従って、企業側で準備したサーバやネットワークへAI-OCRのDBやソフトウェアをインストール、設定する必要があります。
一方、「クラウド」の場合は、一切をサービス提供側で準備します。但し、この場合は、データが他社と混在して管理されることとなりますので、マルチテナント前提のアプリケーションの作りである事は元より、しっかりしたセキュリティ対策が施され、運用されていなければなりません。
現実の活用を検討するのであれば、上記の3点を考慮して比較する必要があります。まず、実現したいことを検討すためには、当然、「機能」面の比較を行います。また、トータルコストを算定するために「契約形態」と「提供形態」を元に想定される利用期間分(例えば3年)のコストシミュレーションする必要があります。
AI-OCRは、ちょっと調べただけだと、数十以上の製品やサービスがあります。全てを比較するのは、いくら時間があっても足りないので、私なりに調査し、独断と偏見で以下の5つを代表的な物とし、比較していきます。
1.TEGAKI(コージェントラボ社):TG
2.FlexiCapture(ABBYY社):FC
3.DX Suite(AI Inside社):DS
4.AI Read(アライズイノベーション社):AR
5.DynaEye10(PFU社):DE
AI-OCRに限らず、この手のソリューションは、一般的な傾向として、契約形態はサブスクリプションが多くなってきています。また、提供形態もクラウドが多くなってきているのが最近の特徴ですね。それでは、早速、比較していきましょう。比較しやすくするため、下記の通り、一覧表形式にします。
サービス名 | 略称 | TG | FC | DS | AR | DE |
---|---|---|---|---|---|---|
提供形態 | オンプレ | × | ○ | ○ | ○ | ○ |
クラウド | ○ | × | ○ | × | × | |
契約形態 | 買切 | × | ○ | × | ○ | ○ |
サブスクリプション | ○ | × | ○ | ○ | × | |
ミニマム費用(*1) | 初期 | 50 | 90 | 150 | - | - |
月額 | 8 | - | 10 | 24 | - | |
年額 | - | 18 | - | - | 42 | |
トライアル | 3 | 0 | 20 | 24 | 0 | |
入力形式 | JPEG | ○ | ○ | ○ | ○ | ○ |
PNG | ○ | ○ | ○ | ○ | × | |
TiFF | × | ○ | ○ | ○ | ○ | |
× | ○ | ○ | ○ | × | ||
その他(*2) | × | ○ | × | × | × | |
入力種別 | 活字 | ○ | ○ | ○ | ○ | ○ |
手書き文字 | ○ | × | ○ | ○ | ○ | |
チェックマーク | ○ | ○ | ○ | ○ | ○ | |
バーコード | × | ○ | ○ | × | ○ | |
非定型帳票 | 可否 | × | ○ | × | ○ | ○ |
出力形式 | CSV | ○ | ○ | ○ | ○ | ○ |
TXT | × | ○ | × | × | × | |
Excel | × | ○ | × | ○ | × | |
XML | × | ○ | × | ○ | × | |
JSON | ○ | × | × | × | × | |
DBF | × | ○ | × | × | × | |
学習機能 | 文字 | ○ | × | ○ | ○ | × |
レイアウト(*3) | × | ○ | × | × | ○ | |
その他 | 自動仕分 | × | ○ | ○ | × | ○ |
用語辞書機能 | ○ | ○ | ○ | ○ | ○ | |
修正画面有無 | ○ | ○ | ○ | ○ | ○ | |
API有無 | ○ | ○ | ○ | ○ | ○ | |
アクセス管理 | ○ | ○ | ○ | △ | △ | |
*1:ミニマムな組み合わせの場合、単位:万円
*2:DjVu,JBIG2,WIC,Bitmap,XPS等
*3:キーワードによる構造化
次に、独断と偏見で総合評価していきます。AI-OCRは、日進月歩ですので、古い情報での判断や私の見方自体が間違っている点もあるやも知れませんので、ご了承ください。
1.TEGAKI
日本語の手書きには最も強いソリューションだと、今のところ思われます。但し、トータルな運用を前提としたインタフェースは弱いと感じます。従って、定型帳票で運用が単純な場合か、APIを利用しバックグラウンドのサービスとして利用する場合の選択肢と考えた方が良いと思います。
2.FlexiCapture
なんとロシア製です。GDPR準拠と謳っていますので、セキュリティは、突出してると考えられます。また、多言語対応でも他のソリューションと比較してもグローバル展開してきた物ですので、圧倒的なサポート範囲を持っています。インプットやアウトプットの種別も多いですし、活字であえば、言う事なしとも思えます。但し、手書きに関しては、現状サポートしていません。他のソリューションと組みわせが必要になります。この辺りが、ちょっと面倒ですが、それなりの工数をかければ、運用面では非常にこなれていますので、使いやすいもにになると思われます。2.DX Suite
オンプレ、クラウド、ハイブリッドの3つの提供形態があり、非常に面白いソリューションです。手書きの自動学習や自動仕分機能もあり、クラウドサービスとしては最も充実している全方位型のソリューションです。また、セキュリティとしても特定出来ないレベルまで分割されてデータを保持しています。多少高価だとは思いますが、大量の帳票があり、このセキュリティの考え方でOKであれば、有力な選択肢だと思います。
3.DX Suite
オンプレ、クラウド、ハイブリッドの3つの提供形態があり、非常に面白いソリューションです。手書きの自動学習や自動仕分機能もあり、クラウドサービスとしては最も充実している全方位型のソリューションです。また、セキュリティとしても特定出来ないレベルまで分割されてデータを保持しています。多少高価だとは思いますが、大量の帳票があり、このセキュリティの考え方でOKであれば、有力な選択肢だと思います。
4.AI Read
今のところ、オンプレのみの提供ですので、この辺りのハードルをどう感じるかです。文字の自動学習は、かなりの高機能のようですが、仕分などの機能はこれからのようですので、今の所、定型帳票が前提となります。但し、オンプレの場合、逆にセキュリティや拡張性は、自社で制御できるということとなります。この辺りが、最近流行りのクラウドのみの提供形態と違ったメリットとなります。
5.DynaEye
日本でのOCRの老舗だけあって、運用面では、ピカイチだと思います。ただ、AIによる仕分は出来るものの、手書きに関しては、自動学習型のAIではどうやらないようです。しかしながら、従来型のOCRでも、最も進んだエンジンを持っていますので、実力値としては侮れません。帳票によっては、最も優れた結果を出す可能性も大きいですので、有力候補の一つとして検討すべきソリューションです。
AI-OCRは、まだまだ発展途上の技術です。また、それを開発・運営している会社もベンチャー企業が多く存在し、経験不足も手伝い、運用を前提としたサービスの作りに関しても、まだまだ発展途上だと感じます。
従って、現状の業務を変えようとする場合は、AIに拘らず、従来型のOCRも検討に含めるべきです。さらに、その際には、より読み込み精度が高くなるよう帳票そのものを見直す必要もあります。また、OCRでは解決できない場合も、諦める必要はありません。アウトソーシングする方が、コスト的にも精度的にもより良いソリューションとなる場合もあります。
以上、現時点では、AIでの解決方法に執着せず、全体を俯瞰し、BPR(ビジネスプロセスリエンジニアリング)視点で検討していくことが、最も重要だと思います。
3回に渡り、AI-OCRに関して特集してきました。如何だったでしょうか? 思ったより、出来ることが少なくてがっかりしたでしょうか? それとも、これは使えそうだなと感じたでしょうか? 繰り返しとなりますが、AI-OCRは、まだまだ発展途上の技術です。今後、AIそのものの性能だけでなく、実際の運用を想定した機能も充実していくと思います。また、開発に次々と資本も投下されているようです。従って、暫くは目が離せません。また、レポートするタイミングが来たら、再度取り上げるつもりですので、お待ちください。
特集:AI-OCR
第1回:AI-OCR…OCRの基本
第2回:AI-OCR…OCRの限界とAIによる進化
第3回:AI-OCR…製品比較と現実解