2.1 インデックス情報とは

コンピュータが情報を検索する際に利用する索引のこと。データに含まれる要素によって情報を再構成し、特定の要素からそれが含まれる元のデータを高速検索できるようにするための情報のことを指す。ファイルやデータベースなど、大量のデータを検索する場合には、そのデータの所在を高速に調べることができるように、このインデックス情報を利用する。例えば、文書中のキーワードとして登録された単語がこのインデクス情報に相当する。

2.2 インデックス情報の生成、帳票の識別、文字認識(OCR)、その他の入力手段

 文書情報にはPCなどで作成される電子文書(オフィス文書ともいう)と紙文書をイメージ化した電子化文書に分類されるが、文書情報の検索キーとなるのがインデックス情報である。
PC等で作成されたワード、エクセル、パワーポイントなどの電子文書には、メタデータとしてPC保有者のデータ、作成日時等が文書プロパティとして作成時に文書に付加されている。また、組織の文書管理規定に基づいた電子文書のファイル名が設定され、これらの情報と文書本体の情報(テキスト情報)を用いて全文検索が可能である。

 一方、電子化文書(イメージ情報)はそのままでは文書イメージの検索を行なうことができないため、何の帳票をイメージ化したのかを電子化文書に付加するインデックス作業が必要となる。オフィスで散発的にスキャンニングする一般文書は個別にファイル名を設定することも可能だか、大量に発生する各種申込書のイメージ入力などでは、高速大量イメージ処理に適したインデック作成手法を考慮する必要がある。

2.2.1 OCRの活用

 OCR(光学式文字読取り装置)には定型の帳票や伝票の決められた場所を読取る「伝票OCR」と、契約書や一般紙文書など非定型の文書イメージの情報を全てテキスト化する「文書OCR」に大別される。
大量な申込書など単一帳票のイメージ入力では、「伝票OCR」を利用したインデックス情報の入力が効果的である。例えば申込番号など帳票上の定められた位置に記入されたり、印刷された帳票を特定できる情報をOCRで認識し、インデックス情報として出力すれば、高速に大量の紙文書のイメージ化が可能である。申込書の住所、氏名やその他の属性情報もOCR処理すれば、紙文書に記載された必要情報を全てデータ化でき、メインフレームへのデータ入力などに威力を発揮する。

 現在のOCR技術は3千文字以上の手書き漢字の認識や字体に影響を受けない印刷文字の認識(オムニフォント読取りという)を高い認識率で実現しており、金融業界や保険業界などで利用されている。
OCRを利用したインデックス・データ入力の場合は、一般的に連続番号のファイル名を持つイメージ・ファイルと読取られたデータで構成されたインデックス(データ)・ファイルが生成され、文書情報マネジメント・システム上で、イメージとインデックス情報が紐付けられる。

2.2.2 文書OCRによる全文テキスト化

 契約書、手順書などのマニュアル類、重要な過去の書類などのイメージ化では、「文書OCR」による全文テキスト化が有効である。読取られたテキスト情報をデータベース化すれば、一般の検索エンジンを利用した文書の全文検索が可能となり、ナレッジ・マネジメント等の情報共有が可能となる。
イメージ化した文書をPDFに変換して活用する場合には、文書OCRによる文字認識結果を文書イメージ上の該当文字の位置に表示するテキスト・レイヤーを利用でき、文書イメージとテキスト情報を一体化して管理でき、オフィス文書と同様の全文検索が可能となる。

2.2.3 帳票の識別

 生損保業界などで使用されている帳票は1000種類を超えるといわれている。
従来のOCR技術では帳票種類ごとに設計された読取り用定義ファイルにより、それぞれの読取りフィールドから文字を認識していた。このため、帳票種別ごとに処理を行なう必要があり、複数種類の帳票を混在で処理することが難しかったが、フォーム・プロセッシング技術によりOCR処理を行なう前に、スキャンされたイメージがどの帳票であるかをシステムで判断することができるようになり、数百種に及び帳票の混在処理が可能となった。
  これにより、イメージ化の前作業の軽減が可能となっただけでなく、後方処理の自動化をより推進することができるようになった。帳票を識別する技術は、罫線の形状や印刷の特徴など帳票の持つ固有の情報を学習してデータベース化することで可能としている。

2.2.4 バーコード情報などの活用

 帳票の管理番号や申込書番号などをバーコードで印刷しておけば、バーコード認識によりスキャニングと同時に瞬時にインデックス情報を得ることができる。バーコードはスキャニング中に帳票の傾きや上下逆転が発生しても正確に認識可能であり、また、読取装置自体も安価なことから単一的なインデックス情報の入力に最適な入力手法の一つといえる。二次元バーコードなどを利用すれば、より多い情報量のインデックス情報を入力することも可能となる。
 ミッドレンジのスキャナでは、OCRは対応していないがバーコード読取り機能を持つものが一般的なため、紙しか残っていない文書などのイメージ化もバーコード印刷された管理番号シールを添付して、スキャンすることで、帳票固有のインデックス情報を付けることができる。

2.3 インデックス情報による文書情報の検索方法

 大量のデータから検索する場合、インデックス情報を使うことにより、早く確実に検索が可能となる。ここでは文書情報の検索に向いている検索方法について説明する。
  検索とは、広義の意味で文書の作成・入手段階から処理(決裁・回覧・配布)・保管・保存・廃棄までのライフサイクルの中で、文書情報や管理記録の抽出を統合的に行える仕組みであり、特に大量の文書情報・メタデータを正確で、かつ高速に検索するためにはデータベース・ソフトによる検索システムが必要となる。

2.3.1 キーワード検索

 文書情報に固有な項目(文書名、管理番号、作成者、作成日など)をキーワードとして登録し、このメタデータをキーワード領域として指定して検索を実行する方法をいう。必要な情報をインデックス化するため、データ容量が比較的小さく、検索速度を高速化できる。また、「○○以上」、「○○以下」、「○○含む」、「○○含まない」などの検索条件の設定やAND・OR検索などの論理検索を組合せることも可能である。

2.3.2 ディレクトリ検索

 あらかじめ分類・階層化されている情報を項目化(定数化)してデータベースに保存し、検索時にその分類項目を選択するだけで結果を抽出する方法。分類項目を選択するだけで検索できるため、分類項目を比較的簡単に検索することが可能である。

2.3.3 全文検索

 入力されているコード情報すべてを検索する方法。キーワード検索・ディレクトリ検索は、あらかじめキーワード・コード等の検索項目を作成しておく必要があるが、全文検索ではすべてのデータが直接的に検索の対象となる。電子化文書(文書イメージ)の場合は、イメージ化と同時に全文を対象としたOCR処理を行い、全文検索用テキストファイルを事前に作成しておく必要がある。

2.3.4 自然語検索

 キーワードではなくて、自然語を入力して検索する方法で、あいまい検索とも呼ばれる。入力した情報の類似情報、関連情報を検索してくることが可能。

2.3.5 シソーラス検索

 同義語と思われる単語等を類推し、その該当情報を検索してくる方法。

2.4 リテンション(保存期間)

 日常よく使用していた文書情報も時間の経過とともに活用頻度が低下し、一般的な文書では、作成して1年後にはその利用頻度は数%程度に落ちると言われている。文書情報は日々増加しており、活用度の低下した文書情報をそのまま保管しておけば、物理的な保管スペース(書庫)の圧迫や電子的記録エリアの追加投資などの問題が発生する。このため、廃棄時期(保存期間満了時)に到達していない文書情報は、ファイルを集中的に保存し、文書情報に定められた保存期間を管理する必要がある。

 リテンションとは保有・保存・抑留を意味する用語であるが、文書情報管理では文書データなどのデータの保存期間の事を指す。一般的に、企業や行政の文書または文書データの保存期間は法律や各企業の文書管理規定で決めらており、例えば、1年、5年、10年、30年、永久保存など、この規定に沿ったスケジュール管理がなされる。このスケジュール管理は、改定履歴等を含む版管理や保存期間、不要情報をためない仕組みとしての廃棄の管理で、これらはリテンション管理とも呼ばれ、IT統制やコンプライアンスの観点で重要視されている。これを「リテンション・スケジュール」といい、文書の保存期間を定めて、活用期間(保管)と保存期間、廃棄を計画的に行なう。 活用頻度の低い文書情報の保存や廃棄が円滑に実施されるよう文書情報のライフサイクルを定めたリテンション・スケジュールにより、文書情報マネジメント・システムにより文書情報のライフサイクルをコントロールすることが必要となる。

文書情報マネジメントの関連システム