電子化プロジェクトにおけるマスター・ファイルとして、いつまでもTIFF を使っている場合ではないので、替わりになるものを検討する

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 49

6/20/2008

電子化プロジェクトにおけるマスター・ファイルとして、いつまでも
TIFF を使っている場合ではないので、替わりになるものを検討する

有志による共同翻訳
conducted by simple A

www.simpleA.cc
2008 年 6 月 20 日

やっほー

これは、『Alternative File Formats for Storing Master Images of Digitisation Projects』をかなーり


ラフに翻訳したものです。問い合わせには、お応えするかもしれないし、しないかもしれないので、あ
らかじめご了承ください。また、この翻訳を鵜呑みにして困ったことになっても、一切責任は負いませ
ん。かなり自己責任で使用してください。

原文:
『Alternative File Formats for Storing Master Images of Digitisation Projects』
http://www.scribd.com/doc/2388286/Alternative20File20Formats20for20Storing20Masters202
201

対象読者:
英語は苦手だが、このようなトピックに興味がある人で、厳密な翻訳でなくて良いので、おおよそのこ
とが分かる程度の日本語が読みたい、という人が対象です。したがって、英語が得意で、誤訳などを
発見できる人は、自分で勝手に、別バージョンとして、scribd.comやMyOpenArchive.orgにアップし
てください。英語版の論文も、この翻訳も、クリエイティブ・コモンズの「表示-非営利」に設定してあり
ますので。http://creativecommons.org/licenses/by-nc/3.0/deed.ja

この論文が扱っているトピック:
デジタル保存 デジタル・プリザベーション
ファイル・フォーマット ファイル形式
TIFF (+LZW)
JPEG 2000
JPEG (JFIF 1.02)
PNG
圧縮
可逆 ロスレス
不可逆 ロッシー ロスあり
見た目にはロスレス visually lossless
フォーマット比較の定量化

翻訳担当者:
http://d.hatena.ne.jp/Belgian-beer
http://d.hatena.ne.jp/fuzzy2
http://d.hatena.ne.jp/pho
http://d.hatena.ne.jp/Ronron
http://d.hatena.ne.jp/Ryu-Higa
http://d.hatena.ne.jp/sergejO
http://d.hatena.ne.jp/simpleA
http://d.hatena.ne.jp/yukioino

目次:(ハイパーリンク済み)
翻訳担当者
要約 id:simpleA
1 序章 id:Belgian-beer
1.1 フォーマット選択の影響 id:Belgian-beer
1.2 マスター・ファイルを長期保存する 3 つの理由 id:Belgian-beer
1.3 結論 id:Belgian-beer
1.4 専門家たちによるチェック id:Belgian-beer
1.5 今後の課題 id:Belgian-beer
2 JPEG 2000
2.1 JPEG 2000 とは何か? id:pho
2.1.1 概要 id:pho
2.1.2 JPEG 2000 の各パート id:pho

www.simpleA.cc
2008 年 6 月 20 日

2.2 詳細 id:pho
2.2.1 ストラクチャー id:pho
2.2.2 エンコードとデコード id:pho
2.3 必要となるストレージ容量に対するフォーマット選択の影響 id:yukioino
2.4 画質に対するフォーマット選択の影響 id:yukioino
2.5 長期的な使用可能性に対するフォーマット選択の影響 id:yukioino
2.6 機能性に対するフォーマット選択の影響 id:yukioino
2.7 結論 id:simpleA
3 PNG
3.1 PNGとは何か? id:fuzzy2
3.2 詳細 id:fuzzy2
3.2.1 ストラクチャー id:fuzzy2
3.2.2 エンコードとデコード/フィルターリングと圧縮 id:fuzzy2
3.3 必要となるストレージ容量に対するフォーマット選択の影響 id:yukioino
3.4 画質に対するフォーマット選択の影響 id:yukioino
3.5 長期的な使用可能性に対するフォーマット選択の影響 id:yukioino
3.6 機能性に対するフォーマット選択の影響 id:yukioino
3.7 結論 id:simpleA
4 JPEG
4.1 JPEGとは何か? id:fuzzy2
4.2 詳細 id:fuzzy2
4.2.1 ストラクチャー id:fuzzy2
4.2.2 エンコードとデコード/フィルターリングと圧縮 id:fuzzy2
4.3 必要となるストレージ容量に対するフォーマット選択の影響 id:yukioino
4.4 画質に対するフォーマット選択の影響 id:yukioino
4.5 長期的な使用可能性に対するフォーマット選択の影響 id:yukioino
4.6 機能性に対するフォーマット選択の影響 id:yukioino
4.7 結論 id:simpleA
5 TIFFのLZW圧縮
5.1 TIFFのLZW圧縮とは何か? id:fuzzy2
5.2 詳細 id:fuzzy2
5.2.1 ストラクチャー id:fuzzy2
5.2.2 エンコードとデコード/フィルターリングと圧縮 id:fuzzy2
5.3 必要となるストレージ容量に対するフォーマット選択の影響 id:yukioino
5.4 画質に対するフォーマット選択の影響 id:yukioino
5.5 長期的な使用可能性に対するフォーマット選択の影響 id:yukioino
5.6 機能性に対するフォーマット選択の影響 id:yukioino
5.7 結論 id:simpleA
6 結論 id:simpleA
おまけ 1 代替的ファイル・フォーマットの使用状況 id:Ryu-Higa
おまけ 2 ファイル・フォーマットの評価方法(表) id:Ronron
おまけ 3 ファイル・フォーマットの評価方法(解説) id:sergejO
Appendix I(表)、Appendix II(表) id:Ronron
おまけ 4 ストレージ・テスト id:Ryu-Higa
参考文献

経緯:
http://d.hatena.ne.jp/simpleA/20080530
http://d.hatena.ne.jp/simpleA/searchdiary?word=%2a%5bAlternative%20File%20Format
s%5d

2008 年 6 月 20 日
翻訳プロジェクト指揮者 金城功明@simple A
narukin@simpleA.cc

www.simpleA.cc
2008 年 6 月 20 日

要約

この論文は、オランダのハーグにある王立図書館が行った「電子化プロジェクトにおけるマスター・イ
メージの代替的ファイル・フォーマット」研究の最終報告である。この研究は、王立図書館のストレー
ジ戦略を見直す一環として行われた。王立図書館の進めている電子化プロジェクトは、向こう 4 年間
で 4000 万枚の画像を作成していくだろうと予測され、ストレージ戦略の見直しが必要である。現在、
マスター・ファイルは非圧縮 TIFF ファイルとして保存されている。この非圧縮 TIFF ファイルで、4000
万枚の画像を保存しようとすると、650TB のストレージ容量が必要となるだろう。この研究の目的は、
必要となるストレージ・スペースを削減するため、代替的ファイル・フォーマットについてまとめること
であった。望まれる画質、長期的な使用可能性、機能性などの項目が、考慮の対象となった。

以下の 4 つのファイル・フォーマットが検討された:

JPEG2000 パート 1 (可逆及び不可逆)


PNG 1.2
JPEG(JFIF 1.02)
TIFF の LZW 圧縮

それぞれのファイル形式に対して、以下の諸点を検討した:

1. 必要となるストレージ容量
2. 画質
3. 長期的な使用可能性
4. 機能性

王立図書館が、電子化されたマスター・ファイルを長期ないし永久的に保存しておきたい理由として、
3 つある。

1. 原本の代替として残したいため(原本の劣化は避けられないが、高品質の保存媒体(例えばマ
イクロフィルム)などがないから)
2. 電子化は膨大なコストがかかるので、やり直しが効かないため
3. マスター・ファイルはアクセス・ファイルの元になるため

以上の 3 つの理由に基づいて、どのファイル形式を選択するべきなのかという推奨を作成した。

この研究は、王立図書館の R&D 部門の知識と経験を活用した。王立図書館が作成した「ファイル


形式評価の数値化による方法」を使い、各フォーマットの長期的な使用可能性が検証された。研究
の結果は、国内及び海外から選ばれた、デジタル保存、ファイル・フォーマット、ファイル・マネージメ
ントの専門家たちに見てもらった。彼らからもらったコメントを踏まえて、この最終報告を作成した。

この研究の主な結論は、次の通り。

1. 原本の代替として残したい、という観点
長期的な使用可能性という観点から、可逆の JPEG 2000 と PNG が、非圧縮 TIFF の代替ファ
イル・フォーマットとして、最も適している。ストレージの節約度合いが、PNG が 40%に対して、
可逆の JPEG 2000 だと 53%であり、機能性などもあわせて考慮すると、可逆の JPEG 2000 に
軍配が上がる。
2. 電子化は膨大なコストがかかるので、やり直しが効かない、という観点
JPEG 2000 と JPEG が、非圧縮 TIFF の代替ファイル・フォーマットとして、最も適している。画像
情報を一切失ってはいけない、とすると、JPEG 2000 及び PNG がお勧めのオプションとなる。
3. マスター・ファイルはアクセス・ファイルの元になる、という観点
不可逆の JPEG 2000 および JPEG が、圧縮率も高く、フォーマットとして最も適している。

www.simpleA.cc
2008 年 6 月 20 日

1 序章

この研究は王立図書館のデジタル化プロジェクトのストレージ戦略を再考するために行われた。デジ
タル化プロジェクトは量的に増大し続けており、2011 年までにはマスターデータのみでさえ4千万の
画像と 650 テラバイトの非圧縮データ保存にのぼると見積もられており、このデータ保存戦略の再考
は不可欠である。最も重要な検討課題は、デジタル化プロジェクトのすべてのマスターファイルが長
期保存システムに保存されるべきか否か、長期保存のコストはどれくらいか、そして、TIFF ファイル
フォーマットによる高額、非圧縮、高解像度の長期保存法以外の代替手段は何か、という点である。

本研究はその最後の疑問に着目している。本研究の目的は画像のマスターファイル保存における
非圧縮 TIFF ファイル以外の代替手段を検討することである。

本研究の主要検討項目は、(例えば、古い印刷物、版画、写真や絵画など、)コントラストの低いオリ
ジナルから、デジタル化された画像である。比較的新しく、写真・挿絵などのない印刷物等、コントラ
ストの高い素材から作られた画像は本研究の対象外である。様々な種類の素材を情報価値に照ら
して分類したり、その価値に見合ったデジタル化品質を選択したり、圧縮は可逆か不可逆か、それと
も、全く圧縮しないのか、などの問題も本研究では検討していない。これらの二つの問題は将来の検
討課題の一部である。

マスター画像の定義は以下の通りである:オリジナルから複製され、色彩、色調、解像度等において
高品質なラスター画像であり、ほとんどの派生ファイルを作成する元になるファイルのことである。

以下の画像は本研究から除外する。
ベクター画像
3D 画像
動画
複数レイヤー画像(マルチレゾリューション画像* 1 とは異なる)
多数ページのファイル(PDF や tiff などによるもの)
マルチスペクトル画像、ハイパースペクトル画像* 2

以下の4種類の圧縮フォーマットないしファイルフォーマットを検討する。
1. JPEG 2000 part 1 (可逆、非可逆の両方)* 3
2. PNG1.2
3. Basic JFIF 1.02 (JPEG)
4. LZW 圧縮の TIFF

マスターファイルの代替手段として以下の条件により、上記の4種類のフォーマットを選択した。
ソフトウェアサポート(Windows Media Photo/JPEG XR や JPEG-LS などのように、新しすぎたり、
ほとんど使用されなかったりするフォーマットは検討から除外した)
十分なビット深度:最低でも8ビットグレイスケールまたは24ビットカラー(二値画像、1ビット画
像、TIFF G4/JBIGは検討より除外* 4 。 GIF も8ビットであること、 限られた色調パレットなどによ
り同様に除外)
可逆または最高質非可逆圧縮フォーマットである可能性(BMP は除外)

可逆 ZIP 圧縮した TIFF ファイルは時間的制限により除外したが、次回の研究の検討課題に加える


必要がある。

1
例えば、Photoshop の.psd または TIFF の複数レイヤーファイル
2
王立図書館では、これまでマルチスペクトル画像を真剣に検討してこなかった。しかし、将来、どう
するのかまだ分からない。少なくとも現時点において、マルチスペクトル画像は関係ない。
3
JPEG2000 の代替ファイルとしての検討はかなり詳しく行われている。Judith Rog: 『Note regarding
JPEG 2000 for the RL』, version 2.0 (2007 年 8 月
4
二値画像が実際にマスターファイル候補から外れるかどうかはまだ分からない。比較的新しく、写
真・挿絵などのない素材を扱うようなプロジェクトでは、「明るさ」情報がなくても良いかもしれない。

www.simpleA.cc
2008 年 6 月 20 日

1.1 フォーマット選択の影響

上述の4種類のフォーマットの影響をそれぞれのセクションで述べていく。各フォーマットの要約とそ
のフォーマットがどのように機能するのかに触れた後に、各フォーマットについて、以下の4つに分け
て、その影響を検討する。
1. 必要となるストレージ容量に対するフォーマット選択の影響
2. 画質に対するフォーマット選択の影響
3. 長期的な使用可能性に対するフォーマット選択の影響
4. 機能性に対するフォーマット選択の影響

検討 1:この項ではフォーマット選択が画像のストレージに与える影響について概説する。圧縮と非
圧縮 TIFF ファイル間のファイル容量の違いを割合で比較した。必要な場合、可逆・不可逆圧縮間の
違いも検討した。以下に記す条件下で、おおよそ 100 枚の画像を 2 種類用意して、違いを計算した。
24ビット、RGB ファイルのみを使用
低コントラスト文章書類と写真の2種類のオリジナルを使用

王立図書館のファイルの大部分は、これまで、低コントラスト素材のものが、24ビット RGB ファイル


として用いられてきたためであり、おそらく将来も変わらないであろうことから、これらの条件とした。
当然のことながら、より高い(もしくはより低い)ビット深度のものや、圧縮率に違いが出るのであろう
高コントラストな素料(最新の印刷物)などは、将来再検討する際に考慮されねばならい課題である。

結果は補足4に記す。

検討 2:この項では、非圧縮マスターファイルとの質の違いを、様々な方法(PSNR法 * 5 やMTF法* 6
など)により定量化する。

以下の試験標板やツールを用いて画像の質的低下の可能性を決定した。
ディーテールのロスは、QA62 テストチャートにより測定した。
グレイスケールのロスは、コダック社のグレイスケール・チャートにより測定した。
カラーのロスは、 マクベス社の ColorChecker により測定した。
デジタル化によるアーチファクトは肉眼検査により決定した。

検討3:この項では最近王立図書館のために Judith Rog, Caroline van Wijk, Jefferey van der Hoeven
らにより開発された定量的ファイルフォーマットリスク評価法を用いる。この方法を使用することによ
り、以下の広く受け入れられた 7 種類の判断基準をもとに測定することが出来る。
1. 開放性
2. 採択性
3. 複雑性
4. 技術的保護機構
5. 自己文書化
6. エラー強さ
7. 依存性

この方法では、それぞれのファイルフォーマットの長期使用性にスコアを付ける。これらの7つの主
基準は測定可能なさらに下位の基準に分割することができる。例えば、主基準である「開放性」は
「標準化」、「ファイルフォーマット解釈の制限」そして、「無料で手に入るソースを持つリーダー」という
下位基準に分割される。それぞれのフォーマットは0から2までのスコアをそれぞれの下位基準に付
けられる。この方法はいかにスコアが決定されるかを細かく定義する。例えば、あるフォーマットは
「標準化」という下位基準において、もし「公式な標準」となっていれば最大値2を、「事実上の標準」

5
画像の信号と混入したノイズとの比率で、通常は dB で表す。http://d.hatena.ne.jp/keyword/PSNR
6
MTF は光学システムの再現性に関する測定方法である。1 ミリメートルに、何本の線(または何サ
イクル)を識別できるか、という表示方法である。

www.simpleA.cc
2008 年 6 月 20 日

であれば 1.5 を、というように 0 までスコア付けされるのだ。最終的に、スコアはそれぞれの主基準ま


たは特性の評価値とかけ合わせられる。それぞれの基準やそれに含まれる特性に与えられた評価
値は固定されておらず、それぞれの施設特有のポリシーに依存する。ある施設がその特性を無視し
たいと考えれば、評価値 0 を与えることができる。本研究では王立図書館におけるポリシー、デジタ
ル保存文献そして一般常識をもとに設定した評価値を使用している。例えば、「開放性」の下位基準
である「標準化」、「ファイルフォーマット解釈の制限」そして、「無料で手に入るソースを持つリーダ
ー」はそれぞれ9,9,7という評価値が与えられている一方、主基準である「自己文書化」のすべて
の下位特性、それはメタデータをファイルに付与するオプションも含む、の評価値は1である。王立図
書館ではファイルに埋め込まれたメタデータは使用しない予定である。これがこの基準の評価値が
相対的に低い理由であるが、他の施設では違う場合もありうる。この方法により、最終的に個々のフ
ァイルは0から100までの長期使用性に関するスコアを付けられる。スコアが高いほど、そのフォー
マットは長期保存と使用に適していると判断する。

補足2に本レポートで検討したフォーマット検討の解釈が述べられている。補足 3 ではその方法を説
明する。本研究において検討したすべてのフォーマットにおいて、「ファイル破壊検出のサポート」の
スコアは0とした。なぜなら、我々はそれを検討する時間と専門技術を有さないからである。PNG フォ
ーマットは、ある程度、ファイルヘッダー内で破壊検出をしうることに気がついていたが、時間的制限
により他のフォーマットがこの機能を持つか、また、仮に持つとしてそれはどの程度なのかを検討す
ることはなかった。すべてのフォーマットに同じ評価値を付けたため、相対的な最終スコアに影響を
与えない。

本検討法はつい最近樹立された方法であり、他の関係協力機関のフィードバックは得られていない。
したがって、最終的な代替フォーマット選定は定量的ファイルフォーマットリスク評価法のみによって
なされたものではなく、関連する他の情報や経験などによっても検証された.

検討4:この項では機能性に対するフォーマット選択の影響を概説する。本章では以下の疑問を扱う。
そのファイルフォーマットは高解像度のアクセスファイルとして適しているか?
目録的、技術的 (EXIF) メタデータを含めることは可能か?
米国議会図書館によるファイルフォーマットの質と機能に関する基準は以下の項目に従うか?
正常表示、明瞭さ(カラースペースサポート、ビット深度の可能性)、色調の維持(ガンマ補正と
ICCカラープロファイル)、グラフィック効果とタイポグラフィーのサポート(トランスパレンシー情
報が保存されるアルファチャンネル)、およびこれまでの再現性を越えた機能性(アニメーション、
複数ページ、マルチリソリューションサポート)* 7 。

1.2 マスターファイル長期保存法の3つの選択基準

上述のように、マスターファイルはオリジナル由来の高品質コピーであり、それから作成したコピーが
ほとんどの場合閲覧に使用される。二次コピー作成後にマスターファイルが削除される場合があり、
さらに別の要求度の高い使用方法が必要とされる時にはオリジナルからのデジタル化が再度施行さ
れなければならない。

王立図書館では長期、さらには無期限の、マスターファイル保存の必要性に3つの理由をあげてい
る。
1. オリジナルの代用が必要であるから(オリジナルは劣化しやすく、また、マイクロフィルムのよう
な高品質の代替手段が使用できない)
2. デジタル化は非常にコストと時間がかかり、再デジタル化は非現実的であるから
3. マスターファイルは、アクセスファイルの元になるからであり、また時には、マスターファイルをそ
のままアクセスファイルとして使う場合もあるから

これらの3つの理由が代替ファイルフォーマットを推薦する大きな理由である。

7
『Sustainability of Digital Formats』
http://www.digitalpreservation.gov/formats/content/still_quality.shtml

www.simpleA.cc
2008 年 6 月 20 日

1.3 結論

3種類のファイルフォーマット検討結果に対する結論を述べ、すべての解析に関して議論した後にそ
れぞれのフォーマットを比較することで全体の総括を提示する。上述の長期保存のための理由もこ
こに含まれる。

1.4 専門家たちによるチェック

国内、国外のデジタルファイル保存、ファイルフォーマットやファイル管理に関する専門家たちに、本
研究の厳格なチェックをお願いし、必要である部分にはコメントをもらった。彼らのアドバイスは本レ
ポートに取り入れてある。チェックをお願いした専門家は以下の方々である:
Stephen Abrams (Harvard University Library/University of California-California Digital Library )
Caroline Arms (Library of Congress, US)
Martijn van den Broek (Nederlands Fotomuseum [Netherlands Photo Museum], the Netherlands)
Adrian Brown (National Archives, UK)
Robert R. Buckley (Xerox Corporation)
Aly Conteh (British Library)
Carl Fleischhauer (Library of Congress)
Rose Holley (National Library of Australia)
Marc Holtman (City Archive of Amsterdam)
Rene van Horik (DANS, the Netherlands)
Dr. Klaus Jung (Luratech Imaging GmbH)
Ulla Bøgvad Kejser (Kongelige Bibliotek Denmark)
Rory McLeod (British Library)
Andrew Stawowczyk Long (National Library of Australia)
Boudewijn de Ridder (Nederlands Fotomuseum [Netherlands Photo Museum], the Netherlands)
Brian Thurgood (Libraries and Archives of Canada)
Thomas Zellmann (LuraTech Europe GmbH)

我々は彼らの非常に有益なフィードバックに感謝する。それらにより本レポートは格段に改良された。
我々が受け取ったフィードバックは想像を超えるものであった。また、それによりこの調査を行うに至
った問題の直接の原因は他の多くの機関においても関連していることが示された。

1.5 今後の課題

我々は多くのフィードバックを受け、このままでは本レポートは完成とは到底いえないものであること
が確認できた。本レポートで取り上げた課題をさらに広く深く研究し、問題を解決するためには数ヶ
月以上の歳月を必要であることは間違いない。しかし、残念なことに我々にはそれを行うための時間
がない。

以下に将来の検討課題をあげる。
情報価値に立脚した様々なオリジナルの分類、より適したデジタル化法の選択、そして、最終
的には、可逆圧縮、不可逆圧縮もしくは、圧縮なしかの選択。
さらなる圧縮法のテストには以下のものがある
高コントラストのテキストページ
16ビットファイル
グレイスケールファイル
JPEG2000 と PNG が使える代替圧縮ソフト
PSNR (Peak Signal to Noise Ratio)
JPEG ファイルの構造
LZW 圧縮の機能
本研究で用いた"ファイルフォーマット評価法"のさらなる研究。上述の専門家達からのフィ
ードバックにもとづき、我々はすでにこの方法を調整、改善したが、今後も不断の努力が
必要である。

我々は本研究やそれから派生するすべての問題に関するコメントを広く受け付けている。

www.simpleA.cc
2008 年 6 月 20 日

2 JPEG 2000

2.1 JPEG 2000 とは何か?

2.1.1 概要

JPEG 2000 は、ISO,IEC,および ITU-T 標準化組織の共同の取り組みとして、JPEG(Joint


Photographic Experts Group)により開発された標準規格(ISO/IEC 15444-1/ITU-T REC. T.800)である。
これらのグループは、世界各地の様々な営利組織および学術団体の代表者からなる。

JPEG グループの目的は、以下の基本原則に則った新たな画像標準規格を開発することであった。
フォーマットの完全な開放性
現行の JPEG 圧縮と比較して改善された不可逆圧縮アルゴリズム
可逆圧縮のオプション
画像ファイルにメタデータをバンドルする包括的なオプション
1ファイルにいくつかの解像度を記憶すること

これらの基本原則は、JPEG 2000 標準規格で実現された。

2.1.2 JPEG 2000 の各パート

2007 年に、JPEG 2000 は 12 の標準規格に分けられた。これらは全て、おおよそ第 1 標準規格:パー


ト 1 から派生したものか、または補足するものである。これは、静止画(パート 1.jp2 およびパート
2 .jpx)、ドキュメント(パート 6 .jpm)、動画(パート 3.mj2)に関する。それらに共通しているのは、ウェ
ーブレット圧縮技術が採用されている、ということである。

パート1,2,4,6および8のみが、静止画のマスターを記憶することに関連しそうである。

以下に、12 のパートの概要を、要約した形で示す。

パート 1
その名前から示唆されるように、パート1は JPEG 2000 のコアを規定する。これは、JPEG 2000 のコ
ードストリームの構文と、JPEG 2000 画像のエンコードおよびデコードに関連する必要なステップを含
む。標準規格の後半のパートは、全て、様々な種類の拡張に関連し、これらのどれも、基本的な
JPEG 2000 の実装に必須ではない。現行の実装の多くは、パート 1 のみを使用する。

パート 1 は、JP2 と呼ばれる基本的なファイル・フォーマットの規定もする。JP2 により、(正確なレンダ


リングに必須である)色空間情報のようなメタデータを、JPEG 2000 のコードストリームとともに、相互
運用可能な形で含めることができる。JP2 は、拡張可能なアーキテクチャを使用し、そのアーキテク
チャは他のパートで規定する JPEG 2000 ファミリーのファイル・フォーマットで共有している。

パート 1 は、ガイドラインおよび例、技術的なリファレンスの文献目録、ISO に特許声明書を提出した


企業のリストも含む。JPEG 2000 は、ライセンスフィーまたはロイヤリティを支払う必要なくパート 1 が
実施できることを意図して開発され、多くの特許権者が、この目的に対する彼らの権利を放棄した。
しかしながら、JPEG 委員会は、正式な保証をすることができず、どの特許も侵害されないことを確か
めるは、依然として実装する者の責任である。

パート 1 は、2000 年 12 月に国際標準規格(ISO/IEC 15444-1)となった。

パート 1 の第 2 版は、2004 年に発行された。特に、標準規格色空間(YCC)が加えられた。

パート 2
パート2は、パート 1 に対する様々な拡張を規定し、以下を含む。
ウェーブレット変換および係数量子化のより柔軟な形態
特定の関心領域(ROI)をエンコードする代替の方法

www.simpleA.cc
2008 年 6 月 20 日

JP2 に基づくが、複数の合成層、アニメーション、拡張された色空間等をサポートする新たなファ
イル・フォーマット JPX
(DIG35 規格に基づく)写真のような画像のためのリッチメタデータセット
パート 2 における拡張のほとんどは、互いに独立して機能する。相互運用可能性を支援するため、
コードストリームおよび JPX ファイル・フォーマットレベルの両方において、拡張の使用を信号送信す
る機構が設けられる。

パート 2 は、2001 年 11 月に国際標準規格(ISO/IEC 15444-2)となった。

パート 3
パート 3 は、JPEG 2000 画像のモーションシーケンス用の MJ2(または MJP2)と呼ばれるファイル・フ
ォーマットを規定する。関連付けられる音声のサポートも含まれる。

パート 3 は、2001 年 11 月に国際標準規格(ISO/IEC 15444-3)となった。

パート 4
JPEG 2000 パート 4 は、JPEG 2000 パート 1 に対する適合性テストに関する。これは、デコーダコンプ
ライアンスクラスのセットの規定を含む、エンコードおよびデコードの両方のプロセスのテスト手順を
指定する。パート 4 テストファイルは、(ヘッダーなどのついていない)むき出しのコードストリームお
よび JP2 ファイルの両方を含む。

JPEG 2000 パート 4 は、承認、性能、またはロバスト性テストを、明示的にその範囲から除外すること


に留意されたい。

パート 4 は、2002 年 5 月に国際標準規格(ISO/IEC 15444-4)となった。

パート 5
JPEG 2000 パート 5(ISO/IEC 15444-5:2003)は、短いテキストドキュメントと、JPEG 2000 パート 1 を
実装する 2 つのソースコードパッケージからなる。2 つのコードは、パート 1 とともに開発され、パート
1 をチェックするとともに、相互運用可能性をテストするために使用された。一方は C で書かれ、他方
は JAVA で書かれている。それらは、両方ともオープンソースタイプのライセンスの下で利用可能で
ある。

パート 5 は、2001 年 11 月に国際標準規格(ISO/IEC 15444-5)となった。

パート 6
JPEG 2000 のパート 6 は、ドキュメント画像化のための JPM ファイル・フォーマットを規定し、このフォ
ーマットは、ISO/IEC16485 の Mixed Raster Content(MRC)モデルを使用する。JPM は、パート 1 で
規定される JP2 ファイルフォーマットの拡張であり、これは、(JP2 に対して)パート 1 および(JPX に対
して)パート 2 で規定されるのと同じアーキテクチャおよび多くの同じボックスを使用する。

JPM は、ページ毎に多くのオブジェクトを含むマルチページドキュメントを記憶するために使用され得
る。これは、JPEG 2000 ファミリーの一部であるが、多くの他のコーディングまたは圧縮技術の使用も
サポートする。例えば、JPEG 2000 の代わりとして、テキストの領域には JBIG2 が、写真の画像には
JPEG を使うことができる。

パート 6 は、2003 年 4 月に国際標準規格(ISO/IEC 15444-6)となった。

パート 7
このパートは、放棄された。

パート 8
パート 8 はセキュアード JPEG 2000(JPSEC)とも呼ばれ、ツールおよびソリューションのスペックを標
準化して、トランザクションのセキュリティ、コンテンツの保護(IPR)、およびテクノロジーの保護(IP)
を保証するとともに、この標準に従ったアプリケーションが JPEG 2000 のビットストリームをプロテクト

www.simpleA.cc
2008 年 6 月 20 日

された形で生成、消費、および交換できるようにする。暗号化、改ざん防止、データ保全、条件付き
アクセス、所有権保護の用途が扱われる。

パート 8 は、2006 年 7 月に国際標準規格(ISO/IEC 15444-8)となった。

パート 9
パート 9 の主な要素は、JPIP と呼ばれるクライアント/サーバプロトコルである。JPIP は、HTTP の
上に実装され、画像転送にこれまでとは別の可能性をもたらすように設計されている。

パート 9 は、2004 年 10 月に国際標準規格(ISO/IEC 15444-9)となった。

パート 10
パート 10 は、三次元データのコーディング、平面から体積画像へのJPEG 2000 の拡張に関するもの
であり、認証ステージ(50.60)* 8 の最終段階にある。

パート 11
このパートを作るために、JPEG 2000 ワイヤレス(JPWL)、すなわち標準規格のパート 11 は、エラー
しがちなワイヤレスネットワーク上で、JPEG 2000 画像の効率的な伝送を達成するためのツールおよ
び方法を標準化している。詳しく言うと、JPWL は、パート 1 に記載されたコアコーディングシステム
の要素を、エラー保護および訂正の機構によって拡張する。これらの拡張は、パート 1 を実装するデ
コーダが JPWL で規定された拡張をスキップすることができるという意味で、後方互換性を有する。

パート 11 は、2007 年 6 月に国際標準規格(ISO/IEC 15444-11)となった。

パート 12
JPEG 2000 のパート 12、ISO/IEC 15444-12 は、MPEG-4 標準規格のパート 12、ISO/IEC

14496-12 と共通のテキストを有する。JPEG と MPEG が共同でイニシアティブをとり、将来のアプリケ


ーションのベースとなるファイル・フォーマットを作成した。フォーマットは、メディアデータの時限シー
ケンス用の汎用的なフォーマットである。これは、Apple の QuichTime ファイル・フォーマットおよび
JPEG 2000 ファイル・フォーマットと同じ基礎となるアーキテクチャを使用する。

パート 12 は、2003 年 7 月に国際標準規格(ISO/IEC 15444-12)となった。

パート 13 エントリーレベル JPEG 2000 エンコーダ


パート 13 は、広範囲に広がる用途をもつロイヤリティおよびライセンスフィーなしのエントリーレベル
JPEG 2000 エンコーダを規定する。最終的な委員会のドラフトはまだできていない。

2.2 詳細

2.2.1 ストラクチャー

JPEG 2000 ファイルは、連続したボックスからなる。ボックスは他のボックスを含むことができ、これは


スーパーボックスと呼ばれる。* 9 ボックスは長さ可変であり、この長さは最初の4バイトにより決定さ
れる。各ボックスは、第 2 のシーケンスの 4 バイトにより決定されるタイプを有する。

JPEG 2000 ファミリーの各ファイルは、JPEG 2000 シグネチャボックスから始まり、特にタイプ(例えば


JP2)およびバージョンを決定するファイルタイプボックスが続く。それから、特に解像度、ビット深さ、
色仕様が規定される様々なボックスを含むヘッダボックスが続く。ファイルに関するメタデータは、

8
金城注:認証ステージは、http://www.y-adagio.com/public/committees/ddfd/act2003/cls2.htm の
「2.3.3 関連する規格等のステータス」などを参照
9
このボックス構造は、Quicktime や MPEG-4 と関係する。ボックスは、それらのフォーマットでは、ア
トムとなる。

www.simpleA.cc
2008 年 6 月 20 日

XML構造でも、非XMLでも良いが、任意のボックスとして追加できる。それから、画像データを含む
「連続的なコードストリーム」ボックスが続く。 * 10

2.2.2 エンコードとデコード

JPEG 2000 エンコードは、6 つのステップで行われる。* 11

ステップ 1:色成分変換(任意)

まず、RGB 色空間が他の色空間に変更される。これは任意のステップであるが、RGB のような色空


間には大抵使用され、推奨される。これに対して 2 つのオプションがあり得る。
1. YCbCr 色空間に不可逆色変換(ICT)
2. YUV 色空間に可逆色変換(RCT)
最初の方法は、不可逆圧縮に使用され、色情報を単純化するステップを含み、量子化エラーをもた
らし得る。

ステップ 2:タイル化

色変換の後、画像はいわゆるタイルに分割される。この利点は、デコーダが画像を作るために少な
いメモリしか必要としないことである。(エンコードソフトウェアがこの高度なオプションを提供する場
合)タイルのサイズさえも選択され得る。タイルが非常に小さくされるか、または圧縮係数が非常に
高い場合、JPEGと同じブロッキングの影響が生じ得る(これは不可逆圧縮のみに当てはまる)。タイ
ルのサイズは、ファイルサイズに最小限の影響しかない。小さなタイルが選択されると、ファイルは
少し大きくなる。* 12 全体の画像と同じ大きさを持つ1つのタイルを使うことができるので、このステッ
プも(結果として)任意ということになる。全体の画像と同じ大きさを持つ1つのタイルを使うことで、前
に述べられたブロッキングの影響/タイル化アーチファクトを回避するだろう。

ステップ 3:ウェーブレット変換

それからタイルは、離散ウェーブレット変換(DWT)で変換される。* 13
これに対して2つの可能性がある。
1. 9/7 浮動点ウェーブレットフィルタによる不可逆(または視覚的にはロスレス)圧縮
2. 5/3 整数ウェーブレットフィルタによる可逆圧縮* 14

ステップ 4:量子化(不可逆圧縮のみ)

係数を表すビットの量を減らすため、係数のスカラ量子化をする。この結果、エンコードされなければ
ならないのは整数の集合となる。いわゆる量子化ステップは、柔軟なパラメータであり、このステップ
が大きければ大きいほど、圧縮および品質のロスも大きくなる。

ステップ 5:エンコード

エンコードは、親、子、孫などのように、階層的に連続した小さな「ユニット」に分かれている。
1. サブバンド:周波数範囲および空間領域。これらの要素は分割されて、区画となる。

10
JP2 の構造をもう少し詳しく知りたい場合、フロリダ・デジタル・アーカイブの JP2 に関する記述を参
考にすると良い。http://www.fcla.edu/digitalArchive/pdfs/action_plan_bgrounds/jp2_bg.pdf
11
http://hp.vector.co.jp/authors/VA027608/jpeg2000/
12
Robert Buckley の『JPEG 2000 for Image Archiving, with Discussion of Other Popular Image
Formats』 p. 41, slide 81.参照
13
JPEG では DCT が使われる。DCT は 8x8 ピクセルのブロックごとに適用され、より高い圧縮率を
実現する。
14
Robert Buckley の『JPEG 2000 for Image Archiving, with Discussion of Other Popular Image
Formats』 p. 42, slide 83.参照

www.simpleA.cc
2008 年 6 月 20 日

2. 区画:ウェーブレット領域内の矩形領域。これらの要素もまた、さらに小さい要素に分割され、そ
れが JPEG 2000 における最小単位となる。
3. コードブロック:サブバンド内の正方形のブロック。コードブロックのビットは、EBCOT(Embedded
Block Coding with Optimal Trunction)方式によりエンコードされる。重要なビットがまずエンコー
ドされ、それからあまり重要でないビットがエンコードされる。エンコード自体は 3 ステップ(コー
ディングパス)で行われ、これにより、不可逆バージョンにおいては、関連性の低いビットをスキ
ップできる。

ステップ 6:パケット化

これは、解像度、品質、色またはタイル内の位置によりソートされ得る「パケット」および「レイヤー」に
コードストリームが分割されるプロセスである。

パケットはコードブロックの圧縮されたデータを含んでいて、そのコードブロックにおいて、各タイルに
おける各コンポーネントが、解像度ごとに特定のポジションを持つようにされている。同様に、パケッ
トはレイヤーの成分である。レイヤーは、パケットの集合であり、各解像度ごと、および各位置ごとに
作成される。* 15

これらのレイヤをある方法で配置することにより、デコード/アクセスの間、ある情報がまず利用可能
にされ、他の情報は後で利用可能にされると規定することが可能である。これは、特に Web を介し
たアクセスに役立つ。

例えば、解像度毎のデコードを構成することを選択すると、アクセスの間まず低い解像度の画像を
提供し、デコードが進むにつれて高い解像度の画像が利用可能になる。品質によりコードストリーム
を構成すると、低い品質/ビット深さの画像から、より良い品質/ビット深さを徐々に提供することがで
きる。色チャネルにより構成されると、常に様々な色を提供することができ、位置により構成されると、
まず画像のある部分を示すことができる。例えば、コードストリームは、アクセスがまず品質(L)によ
り行われ、それから解像度(R)、色チャネル(C)、位置(P)により行われるように構成され得る。順序
はLRCPである。他の可能な順序は、RLCP, RPCL, PCRLおよびCPRLである。LRCPの特別なオプ
ション(関心領域のエンコードをするLRCP)は、まず画像のある部分を構築している。* 16

以下の 2 つの図は、各ブロックのデコードが進むにつれ、より高い解像度(RPCL)で表示される様子
を示す。

15
Robert Buckley の『JPEG 2000 for Image Archiving, with Discussion of Other Popular Image
Formats』p. 32, slide 64.参照
16
Robert Buckley の『JPEG 2000 for Image Archiving, with Discussion of Other Popular Image
Formats』 p. 34, slide 68.参照

www.simpleA.cc
2008 年 6 月 20 日

2.3 必要となるストレージ容量に対するフォーマット選択の影響

さまざまなテストの結果から* 17 、可逆モードのJPEG 2000 を使用すると、非圧縮ファイルと比較して


約 50%のベネフィットを得られることが判明した。テストに使った素材画像に関して言えば、不可逆圧
縮版JPEG 2000 part 1 によって実現できる利得は、Lead Photoshopプラグイン圧縮率設定が 10~50
と仮定した場合、91~98%の間で変動すると思われる。* 18

2.4 画質に対するフォーマット選択の影響

可逆モードでは、画質に影響はない。

不可逆版:

圧縮量によって画像が劣化する。五つのバージョンについて、Lead JPEG 2000 Photoshop プラグイン


(圧縮率)を 25、75、100、500 としてテストした。

ロスの詳細:MTF
オリジナル TIFF (QA-62 テストチャート):MTF 5.91/5.91(水平/垂直). ファイルサイズ 4.7 MB

MTF(水平/垂直)
圧縮率 ファイルサイズ
(RGB の平均)
25 5.8/5.8 83KB
75 5.8/5.8 62KB
100 5.8/5.8 47KB
500 3.9/3.1 10KB

グレースケールおよびカラーにおけるロス

Kodak 社のグレースケール標板では測定可能なロスはなかった。Delta E 値においてもさまざまな圧


縮値で同様の結果となり、目立ったカラーシフトは生じなかった。

アーチファクト

JPEG 2000 ファイルにおいては、圧縮増大とともにはっきりと視認可能な三種類のアーチファクトが


生じた(さまざまな種類の素材に基づくテストの結果)。
1. ポスタライズまたはバンディング(金城注:両方とも諧調のつぶれ)。テキスト・ページでは、近似
圧縮率 75 の時点から視認できるようになった。連続階調画像では、圧縮率 100 でアーチファク
トがわずかに認められるようになり、200 ではっきりと確認できた。
2. タイリング効果。タイルが生じたのは、極端な圧縮時(圧縮率 200)のみだった。これは画像自
体と同一寸法のタイルを選択することで回避できる。
3. コントラストの高い部分がぼんやりする(ウーリー効果)。近似圧縮率 75 の時点から認められる
ようになった。

三番目の効果は特にテキスト・ページで文字の周囲に認められる。強度の JPEG 2000 圧縮の対象


としては、テキスト・ページ(または線描のようにハイコントラストの他の素材)よりも写真や絵画のよ
うな連続階調を有するオリジナルのほうが適している。

PSNR

17
おまけ4参照
18
Lead Photoshop プラグインは、最適な圧縮結果を保証するものではない。純正の JPEG2000 プラ
グインを使用した代替テストでは、大きな差は生じなかった。LEAD プラグイン使用時に比べると、
Photoshop プラグインの可逆圧縮の成功度はやや低下して、前者では 53%であるのに対して後者で
は 52%である。代替法(例として Lurawave clt コマンド圧縮ツール
http://www.luratech.com/products/lurawave/jp2/clt/)についてはさらにテストが必要である。

www.simpleA.cc
2008 年 6 月 20 日

要調査

2.5 長期的な使用可能性に対するフォーマット選択の影響

JP2 フォーマットと、可逆圧縮(「PNG 1.2」および「LZW 圧縮の TIFF 6.0」)および不可逆圧縮(「basic


JFIF (JPEG) 1.02」)の他フォーマットを正確に比較するために、JP2 フォーマットを「可逆版 JP2 (JPEG
2000 Part 1)」と「不可逆版 JP2 (JPEG 2000 Part 1)」に分けた。

「可逆版 JP2 (JPEG 2000 Part 1)」フォーマットに「ファイル・フォーマットの評価方法」を適用した結果、


0-100 のスケールにおいて 74.7 のスコアをマークした。不可逆圧縮版では、スコアは 66.1 となった。
このレポートで比較された四種類のフォーマットを、上記の方法によって長期保存に最適なものから
不適なものの順にソートすると、「可逆版 JP2 (JPEG 2000 Part 1)」のスコアは、「PNG 1.2」(スコア
78)に次いで二位を占める。このあたりで、使用している調査方法では評価しきれない部分が出てく
る。この方法では、評価項目の「マスター・イメージ・ファイルとしての文化的遺産部門における使用」
がトータルのスコアに深く寄与している。しかし現段階では、採用に関する将来の展望が評価方法の
中に含まれていない。JPEG 2000 および PNG は、現行ではマスター・ファイルとして広く使用されて
はいないものの、JPEG 2000 はマスター・ファイルたりえる将来性を持っていると期待できる。PNG は
1996 年から存続してきたが、JP2 は 2000 年からの新規格である。

「不可逆版JP2 (JPEG 2000 Part 1)」は、ほぼ同じスコアの「basic JFIF (JPEG) 1.02」をわずかにしのい


で三位となった。JPEG 2000 の不可逆バージョンだけでなく、JPEG 2000 の可逆バージョンとPNGの
両方とも、(TIFFと比較した場合)フォーマットの低採用率のためにスコアが根本的に低い。採用率
は、この調査方法においては非常に重要なファクターである。「basic JFIF (JPEG) 1.02」とJPEG 2000
の不可逆版ではスコアがほとんど変わらないが、ファイルのより確かな将来性のために「basic JFIF
(JPEG) 1.02」のほうが好まれる傾向がある。JPEG 2000 の使用に関するレポートは「実践的なデジタ
ル保存基準 a Practical Digital Preservation Standard」として、DPCのウェブサイト上で公表されてい
る。* 19

2.6 機能性に対するフォーマット選択の影響

書誌的および技術的(EXIF)メタデータを組み込むためのオプション
書誌的メタデータ:XMLデータ、限定的IPR(知的財産権)ボックス* 20 、およびISO 11578:1996
に基づくUUID(汎用一意識別子)* 21 、以上の三つのボックスに対してメタデータ追加が可能で
ある。
技術的メタデータ:JPEG 2000 ヘッダ内の EXIF メタデータを保存する標準的方法はまだない。
これを UUID で行おうという提案がある。

高解像度のアクセス・マスターとして提供する際のフォーマットの適合性
ブラウザ・サポート:非常に限定的(AppleのSafariブラウザのみ)* 22
高解像度の画像アクセス:JPEG 2000 をサポートするブラウザはまだないため、アクセス画像と
して通常、JPEG をオン・ザ・フライで生成して使用する。

最大サイズ
最大画像寸法の横幅および縦幅は、(2^32)-1 である。特別な設定(コードストリームボックスを
ファイルの最後に移して、長さ「不明」とシグナルする)にすれば、ファイルのサイズ制限はない。
ファイル・フォーマット・ボックスは、最大 2^64-1 バイト、つまり 1600 万TBの長さのシグナルが

19
Robert Buckley, JPEG 2000 – a Practical Digital Preservation Standard?, a DPC Technology Watch
Series Report 08-01, February 2008: http://www.dpconline.org/graphics/reports/index.html#jpeg2000
20
このオプションは、JPEG 2000 スタンダードの Part8 では大きく拡張されている
21
ウィキペディア、「JPEG 2000」http://en.wikipedia.org/wiki/JPEG_2000.より。Adobe XML 準拠
XMP スタンダード(UUID ボックスを使用する)は、ヘッダ内の EXIF 情報の保存方法の標準を提供
しようとしている
22
http://echoone.com/filejuicer/formats/jp2

www.simpleA.cc
2008 年 6 月 20 日

可能である。これらは当然、理論上のファイルサイズであって、現行のプログラムでこれらのサ
ポートが可能なものは存在しない。* 23

米国議会図書館による「品質および機能性ファクター」:* 24

通常の表示
スクリーン表示:可
印刷:可
拡大:可
明瞭度
高解像度オプション:可。多大な圧縮をかけると細部が損なわれることがある(3.4 項目を参照)。
ビット深度:JPEG 2000 Part 1 のコアファイルは、1~38 ビット間で変動する。* 25
カラー調整
さまざまなカラースペースのサポート:可(ICC プロファイル非経由)
ガンマ調整を含ませるオプション:可

ICCカラープロファイルを含ませるオプション:JPEG 2000 part 1 ではスタンダードオプションとし


て、sRGB、グレースケールおよびYCCの使用が可能。代替的には、限定されたICCカラープロ
ファイル* 26 が使用できる。* 27
グラフィック・エフェクトおよびタイポグラフィのサポート
ベクター・イメージ・オプション:不可
透過情報:不可
フォントおよびスタイルを特定するオプション:不可
通常の表示以外の機能
アニメーション:不可(このオプションは JPEG 2000 Part 3 および 12 で提供される)
マルチページサポート:不可(このオプションは JPEG 2000 Part 6 で提供される)
マルチ解像度:可。他に、カラー、画質または位置からイメージプロシーディングを構成するオプ
ションがある。

2.7 結論

フォーマットの詳細
規格化:JPEG 2000 のパート 1 は、2000 年から ISO/IEC の規格となっている。他のパートは、
その後規格となったものもあるし、まだ完全には ISO 規格となっていないものもある。
目的:JPEG/JFIF には限界があるので代替として、より効率的な圧縮技術を使いつつ、ロスレス
圧縮およびマルチ・レゾリューションをオプション選択できるようにする。
構造:基本的にはボックス構造であり、イメージ情報だけでなくヘッダーを持つ。
エンコード:6 つのステップ。最も特徴的なのは、ステップ 3 のウェーブレット変換とステップ 6 の
パケット分割である。パケット分割では、コードストリームをパケットに分割し、解像度、画質、色、
ポジションで並べかえる。

ストレージ容量に対する影響
ロスレス:容量節約は、約 50%
ロスあり:容量節約は、91~98%

画質に対する影響

23
Klaus Jung、Judith Rog への 2008 年 2 月 13 日付 e メールにて
24
http://www.digitalpreservation.gov/formats/content/still_quality.shtml
25
Buckley、「JPEG 2000 Image Archiving」45 ページ、スライド 90。パート4においては三つの異なる
コンプライアンスクラスが示されている。クラス2は、これらのオプションを 16 ビットに制限する。
26
定義は以下による。ICC Profile Format Specification ICC.1:1998-09
27
JP2 のデジタルアーカイブ詳細の項目 1.8:
http://www.fcla.edu/digitalArchive/pdfs/action_plan_bgrounds/jp2_bg.pdf

www.simpleA.cc
2008 年 6 月 20 日

ロスレス:影響なしだよーん
ロスあり:
高い圧縮率のとき、細部のロスあり
グレースケールやカラー情報におけるロスなし
ポスタライズ、ピクセレーション、高圧縮時のウーリー効果(コントラストの高い周辺がぼや
ける現象)などのアーチファクトあり
PSNR は調査中

長期的な使用可能性に対する影響
ロスレス:評価スコア 74.7
ロスあり:評価スコア 66.1
主な問題点:低い普及率

機能性に対する影響
重要な利点:
ロスレスを使えることと、圧縮率を変えたロスあり圧縮が可能なこと
圧縮効率の高いウェーブレット圧縮
豊富なマルチ・レゾリューション選択:画質、解像度、色、ポジションによる段階的画像再現
が可能
豊富なメタデータ埋め込み
ビット深度が幅広く選択できる(1~38 ビット)
重要な欠点:

消費者市場での低い浸透率
エディターやビューワーなどでの低い採用率
ブラウザ対応なし(通常、サーバー側で、JPEG をオン・ザ・フライで作成)
圧縮も解凍も、CPU リソースを比較的多く使う
EXIF メタデータを追加するオプションが標準で用意されていない

推奨

理由 1(代替)に対する考察

長期的に使うことができるという観点から、ロスレスの JPEG 2000 パート 1 は、代替フォーマ


ットとして良い。50%のディスク容量節約になり、画質のロスもなく、(特にマルチ・レゾリュー
ションによって)何かと柔軟なフォーマットであることは、ロスレス JPEG 2000 が好まれる点
である。長期的な不安があるとすれば、唯一、低い普及率が気になる。

ロスありの JPEG 2000 パート 1 は、不可逆である性質より、代替フォーマットとしてはあまり


良くない。見た目はロスレスであるような範囲で圧縮する、ということも考えられるんよ。この
場合、見ただけでは、圧縮した画像とオリジナルの違いが分からない。ストレージ容量は、
おおよそ 90%節約できる。ただし、「見た目はロスレス」というのは、相対的な話であり、現
在のモニター技術や、観察者の主観に基づくことを理解する必要がある。

理由 2(やり直しが効かない) に対する考察

この理由を考慮する限り、ロスありの JPEG 2000 パート 1 を、見た目はロスレスであるよう


な範囲で使う、というのが好ましい。理由 1 の代替として使うわけではないので、多少の情
報ロスは許容される。

理由 3(マスター・ファイルはアクセス・ファイルの元になる) に対する考察

ロスありの JPEG 2000 パート 1 を高めの圧縮率で使うのが良い、というのは自明である。


JPEG 2000 の圧縮技術は進んでいるので、画質を大きく損なうことなく、より高い圧縮率を

www.simpleA.cc
2008 年 6 月 20 日

実現できる。(JPEG より勝る。)圧縮率を決めるとき、素材となる画像のタイプを見極める必
要がある。例えば、圧縮によるノイズは、写真などの連続階調のページより、テキスト・ペー
ジで目立つ。JPEG 2000 は圧縮効率も高いし、豊富なオプション機能がある一方、JPEG は
ブラウザーを含む多くのソフトで対応していて、かつ広く受け入れられている。そのような状
況を踏まえて、JPEG 2000 の利点が JPEG の利点を上回るのかどうか、そこを考えなくては
ならない。

www.simpleA.cc
2008 年 6 月 20 日

3 PNG

3.1 PNG とは何か?

PNG(Portable Network Graphics)は、当初はインターネットの送信で使うために開発された、可逆圧


縮かつポータブル、単一ラスター・イメージのためのデータ・ストリームと関連するファイル形式です。
大きな開発者グループ(PNG 開発グループ)は、特許で保護された GIF フォーマットおよび関連した
LZW 圧縮の代替手段として、1995 年より World Wide Web Consortium (W3C)の監督下で開発を始
めました。 最初の公式のバージョン(1.0)は 1997 年に W3C Recommendation として生まれました。
PNG バージョン 1.2 が 1999 年に公開され、このバージョンが 2003 年に国際標準化されました
(ISO/IEC 15948:2003)。仕様は W3C を通して自由に利用可能です: http://www.w3.org/TR/PNG/

PNG 開発者の目的は以下の通りでした:

a) ポータビリティー(移植性): エンコード、デコードおよび送信は、ソフトウェアとハードウェアのプラ
ットホームから独立であるべきです。
b) 完全性: フルカラー、インデックスカラー、グレースケールで表現可能です。いずれの場合も透
明度、色空間情報、そして、テキストコメントなどの補助的情報のオプションが利用可能です。
c) シリアルエンコードおよびデコード: データストリームはシリアルに生成可能で、かつシリアルに
読み出し可能であるべきです。オン・ザ・フライ生成およびシリアル通信チャネル経由の画像表
示に使用できるデータ・ストリーム形式を可能にします。
d) プログレッシブ表示: 最初に画像全体がぼんやりと表示され、データ・ストリームを受信するにし
たがって画像が鮮明になっていくようなデータ・ストリームの送信が可能であるべきです。
e) 伝送エラーへのロバスト性: データ・ストリーム伝送エラーは確実に検出可能であるべきです。
f) 無劣化性(ロスレス): フィルタリングと圧縮はすべての情報を保存するべきです。
g) パフォーマンス: いかなるフィルタリング、圧縮、およびプログレッシブ画像表示も、効率的なデ
コードと表示を目的とするべきです。 高速なエンコードは、高速なデコードほど重要でない目標
です。 デコード速度は、エンコード速度を犠牲にして達成されるかもしれません。
h) 圧縮: 画像は、他の設計目標と両立する範囲で、効率的に圧縮されるべきです。
i) シンプル: 開発者は容易に規格を実装することができるべきです。
j) 相互運用性: いずれの PNG 標準準拠のデコーダーでも、すべての PNG 準拠のデータ・ストリ
ームを読み込む能力があるでしょう。
k) 柔軟性: 将来の拡張とプライベートな追加は、PNG 標準データ・ストリームの相互運用性が確
保される範囲で許されるべきです。
l) 法的制限がないこと: 自由に利用可能でないアルゴリズムは使用するべきではありません。

これらの目的は最後の PNG 規格で達成されました。

3.2 詳細

3.2.1 ストラクチャー

PNG データ・ストリームは、PNG データ・ストリームであることを示す PNG 署名と、その後に続くチャ


ンクのシーケンス(「コンポーネント」を意味する)で構成されます。それぞれのチャンクには、ゴールを
指定するチャンクタイプがあります。いくらかのチャンクは必須です(重要)。そして、多くの部分は補
助的なものです(付属物)。このチャンク構造は、フォーマットの拡張と後方互換性を両立する狙いで
開発されました。

3.2.2 エンコードとデコード/フィルタリングと圧縮

エンコードは以下の 6 ステップで行われます:
1. パス抽出: プログレッシブ表示を可能にするために、PNG イメージピクセルが再配列され、縮小
イメージまたはパスと呼ばれるいくつかの小さいイメージが形成される。
2. スキャンライン・シリアライゼーション: イメージは、スキャンライン毎にシリアル変換されます。
ピクセルはスキャンライン中を左から右に並びます。スキャンラインは、上から下に並びます。

www.simpleA.cc
2008 年 6 月 20 日

3. フィルタリング: それぞれのスキャンラインは、画像圧縮のためのスキャンラインを用意するため
に定義されたフィルタタイプのひとつを使用することで、フィルター済みスキャンラインに変換さ
れます。
4. 圧縮: イメージ中のすべてのフィルター済みスキャンラインで発生します。
5. チャンク生成: 圧縮画像は適当な大きさのチャンクに分割されます。 エラー検出コードはそれぞ
れのチャンクに追加されます。
6. データ・ストリーム生成: チャンクはデータ・ストリームに挿入されます。

以下では、フィルタリングと圧縮だけを説明します。

圧縮の前に、スキャンライン毎のバイト並べ替えのため、圧縮フィルタが使用されます。 スキャンライ
ン単位で異なったフィルタを使用できます。 このことにより、圧縮率が大きく高まります。PNG 圧縮ア
ルゴリズムは、可逆圧縮でかつ特許に抵触しない inflate/deflate メソッド(zlib/gzlib)が使われます。

圧縮率は、PNG エンコードオプションをどれだけ正確に、かつ完全に実装できるかに依存します。
PNG ファイルサイズを小さくできるソフトウェアツールをリサーチするのが良いでしょう。

3.3 必要となるストレージ容量に対するフォーマット選択の影響

テスト結果から、可逆モードの PNG を使用すると、非圧縮ファイルと比較して約 40%のベネフィットを


得られることが判明した。さらに最適な結果が得られるか否かを調べるためには、よりリファインした
圧縮オプションを用いてテストを繰り返す必要がある。

3.4 画質に対するフォーマット選択の影響

PNG のフィルタリングおよび圧縮は可逆的なので、画質の劣化は生じない。しかしそれは、ビット深
度がソース・ファイルと同程度であると仮定した場合であって、PNG フォーマットのオプションである
「ビット深度の低減」を使用したときはある種の不可逆圧縮とみなされる。

3.5 長期的な使用可能性に対するフォーマット選択の影響

「ファイル・フォーマットの評価方法」を「PNG 1.2」フォーマットに適用した結果、0-100 のスケールにお


いて 78 のスコアをマークした。このレポートで比較された四種類のフォーマットを、上記の方法によ
って長期保存に最適なものから不適なものの順にソートすると、このスコアをもって「PNG 1.2」が一
位となり、「可逆版 JP2(JPEG 2000 Part 1)」を抜いた。PNG においても、フォーマットの採用率の低さ
が最終スコアにネガティブな影響を及ぼしている。項目 1.5(「JPEG 2000 の長期的な使用可能性」)
で既にふれたように、PNG のスコアは、可逆版 JP2 (JPEG 2000 Part 1)よりも4ポイント高かったが、
採用の面からフォーマットの将来性を考慮すると、JPEG 2000 のほうが好ましい。

3.6 機能性に対するフォーマット選択の影響

書誌的および技術的(EXIF)メタデータを組み込むためのオプション
書誌的メタデータ:PNGにはASCIIおよびUTF-8 の内容メタデータを組み込むオプションがある。
また、種々の標準オプション(タイトル、著者、詳細、著作権、作成時刻、ソフトウェア、免責事項、
警告、ソース、コメント)があり、このセットを使用者の意図に基づいて拡張することもできる。* 28
技術的メタデータ:PNG では(現在は)EXIF 情報(カメラおよびその設定に関する情報を提供す
る技術的メタデータ)をサポートしていない。

高解像度アクセス・マスターとして提供する際のフォーマットの適合性
ブラウザ・サポート:可
高解像度の画像アクセス:理論上は可。可逆圧縮してあっても、PNG ファイルはこの目的で扱
うにはかなり大きい。

28
PNG 仕様の項目 11.3.4.2 を参照

www.simpleA.cc
2008 年 6 月 20 日

最大サイズ
要調査

米国議会図書館による「品質および機能性ファクター」:* 29
通常の表示
スクリーン表示
印刷:可
拡大:可
明瞭度
高解像度オプション:可
ビット深度:各チャンネル毎に 1~16 ビットの間で変動する。
カラー調整
さまざまなカラースペースのサポート:可(ICC プロファイル非経由)
ガンマ調整を含ませるオプション:可(彩度調整も含まれる)
ICCカラープロファイルを含ませるオプション:PNGではsRGBカラースペースの使用や、
ICCカラープロファイル* 30 を含ませることが可能。
グラフィックエフェクトおよびタイポグラフィのサポート
ベクター・イメージ・オプション:不可
透過情報:可
フォントおよびスタイルを特定するオプション:可
通常の表示以外の機能
アニメーション:不可* 31
マルチページサポート:不可
マルチ解像度:不可

3.7 結論

フォーマットの詳細
規格化:PNG 1.2 が 2003 年より ISO/IEC 規格となっている。
目的:GIF というのフォーマットがあり、それは特許や機能面での制約がある。この GIF の次世
代フォーマットとして、プログレッシブ表示、透過、ロスレス圧縮をオプションとして含みつつ、規
格として拡張することを狙った。
構造:基本的にはチャンク単位であり、イメージ情報だけでなくヘッダーを持つ。
エンコード:6 つのステップ。最も特徴的なのは、スキャンラインごとに異なるフィルタリングをか
けることができるため、圧縮効率があがることである。

ストレージ容量に対する影響
容量節約は、約 40%

画質に対する影響
ロスレス:影響なしだよーん

長期的な使用可能性に対する影響
評価スコア 78.0
主な問題点:低い普及率

機能性に対する影響
重要な利点:
ロスレス圧縮であること

29
http://www.digitalpreservation.gov/formats/content/still_quality.shtml
30
PNG 仕様の項目 4.2 を参照
31
関連する MNG フォーマットがこのオプションを提供している。http://www.libpng.org/pub/mng/

www.simpleA.cc
2008 年 6 月 20 日

エディター、ビューワー、ブラウザで完全にサポートされていること
豊富なメタデータ埋め込み
ビット深度が幅広く選択できる(1~16 ビット)
透過オプションがあること
重要な欠点:
ロスあり圧縮を選択できないので、ファイルサイズは比較的大きいままであること(ただし、
ビット深度を下げる、という方法は可能)
エディターやビューワーなどでの低い採用率
マルチ・レゾリューションが選択できないこと
EXIF メタデータを追加するオプションが標準で用意されていない

推奨

理由 1(代替)に対する考察
長期的に使うことができるという観点から、ロスレスの PNG 1.2 は、代替フォーマットとして
使うことが可能である。ロスレス圧縮は、イメージ情報が失われることがないため、代替目
的を考えると理想的である。圧縮効率は、ロスレスの JPEG 2000 Part1 と比べると、やや劣
る。(JPEG 2000 が 50%なのに対して、PNG は 40%)対応するソフトが豊富であることはプラ
スであるが、低い普及率が気になる。

理由 2(やり直しが効かない) に対する考察
PNG もこの目的に適している。ただし、ロスレスのため、やや圧縮効率の面でマイナスであ
る。

理由 3(マスター・ファイルはアクセス・ファイルの元になる) に対する考察
PNG はこの目的に適さない。なぜなら、圧縮率を高めることのできるロスあり圧縮ができな
いからである。

www.simpleA.cc
2008 年 6 月 20 日

4 JPEG

4.1 JPEG とは何か?

まず第一に、JPEG(Joint Photographic Experts Group)は連続階調グレースケールまたはカラー画像


の圧縮標準を作成するために設立された委員会を表します(その名前が示すように)。 委員会は
1986 年にこの作業を始めました。そして、1992 年にこの規格の最初のバージョンが準備でき、1994
年に ISO10918-1 と ITU-T Recommendation T.81 として標準化されました。 JBIG 形式(二値画像圧
縮形式)と JPEG 2000 フォーマットもまた、JPEG 委員会が基礎になっています。

JPEG 規格はファイル形式の記述以上の内容を含んでいます: それは、このデータ・ストリームを含


むファイル形式とデータ・ストリーム中の画像を圧縮/エンコードするコーデックの両方を指定します。

JPEG 規格は 4 つのパートで構成されます:


第 1 部--基本的な JPEG 規格。この規格は、写真品質の静止画像のコード化のための多くのオ
プションと代替手段を定義します。
第 2 部--ソフトウェアが第 1 部に適合していることを確実にする規則とチェックを設定します。
第 3 部--SPIFF ファイル形式を含む、規格を改良するための拡張の追加を定義します。
第 4 部--JPEG を拡張する際に使用されるパラメタのいくつかを登録するための方法を定義しま
す。

JPEG ファイル形式の記述(JPEG Interchange Format)は 10981-1 規格の附属書 B として含まれてい


ます。 紛らわしいことに、この(JPEG Interchange Format)記述からの抜粋であるバージョン、
JFIF(JPEG File Interchange Format)がデファクト・スタンダードになりました。この JFIF に基づくように、
各アプリケーションが設計されていて、JPEG と言えば、この JFIF を指すのが一般的であります。
JFIF は多くの規格(例えば、標準のカラースペース)を単純化して、その結果、JPEG Interchange
Format をさまざまなアプリケーションと用途で使用可能にしました。

以下では、JFIF 規格について検討します。この規格が、JPEG であります。

4.2 詳細

4.2.1 ストラクチャー
今後の課題。

4.2.2 エンコードとデコード/フィルターリングと圧縮
エンコード(24 ビットの RGB ファイルを仮定する)は以下の 4 ステップで行われます:
1. ソースファイルの RGB 色空間を YCbCr 色空間へ変換します(Y は輝度成分、Cb と Cr の 2 つ
のカラーまたは彩度成分(青と赤))
2. 色データの分解能を約半分に下げます(ダウンサンプリングまたは彩度サブサンプリング)。こ
れは人の目には色成分 Cb および Cr よりも輝度成分 Y の方がより多くの情報が見えるという
事実に基づいています。 これは、ソースファイルと比べて既に 33~50%の利得を得ることがで
きて、非可逆圧縮プロセスです。
3. 画像を 8x8 ピクセルに分割します(ブロック分割)。 各ブロックは、Y、Cb、および Cr 成分のそれ
ぞれに離散コサイン変換(DCT)と呼ばれている方法を適用します(成分毎のピクセル値を空間
周波数へ分解/変換します)。
4. 周波数成分の大きさを量子化します。 目は(大きく広いエリアの色や明るさが小さく変化するよ
りも)輝度の小刻みな変化にそれほど敏感でないので、高い周波数の成分は少ない情報量で
格納されます。 エンコーダの品質の設定は、高い周波数の情報がどれだけ失うかを決定しま
す。 極端な圧縮の場合では、この情報は完全に省かれます。
5. 最後に、8x8 ブロックがさらに可逆圧縮アルゴリズム(ハフマン符号化のバージョン)によって圧
縮されます。

デコードは、単純に逆方向へ処理します。

www.simpleA.cc
2008 年 6 月 20 日

最も目に付く JPEG の副作用(ブロックノイズ)は量子化ステップで発生します。

4.3 必要となるストレージ容量に対するフォーマット選択の影響

テストに使った素材画像に関して言えば、Adobe Photoshop 圧縮値を JPEG 10~JPEG PSD1 と仮定


した場合、JPEG 圧縮で得られる利得は、90~98%の間で変動することが判明した。

4.4 画質に対するフォーマット選択の影響

五種類の JPEG 圧縮のバリエーションを Photoshop(スケール 0~12、PSD 指定)でテストした。PSD


は 0、3、5、8 および 10 で、0 および 3 は極度の圧縮、5 は平均、8 および 10 は軽微の圧縮。

細部のロス:MTF

オリジナル TIFF (QA-62 テストチャート):MTF 5.91/5.91. ファイルサイズ 4.7 MB

MTF(水平/垂直)
圧縮率 ファイルサイズ
(RGB の平均)

JPEG PSD 10 5.9 / 5.8 204 KB

JPEG PSD 8 5.4 / 5.2 128 KB

JPEG PSD 5 4.9 / 4.8 84 KB

JPEG PSD 3 4.3 / 4.2 64 KB


JPEG PSD 0 3.8 / 3.5 57 KB

グレースケールおよびカラーにおけるロス:Kodak 社のグレースケール標板では測定可能なロスは
なかった。

Delta E値においてもさまざまな圧縮値で同様の結果となり、目立ったカラーシフトは生じなかった。
(反対に、RGB値は相互に一つの値に引き寄せられた。* 32

アーチファクト

JPEG ファイルにおいては、圧縮増大とともにはっきりと視認可能な三種類のアーチファクトが生じた
(さまざまな種類の素材に基づくテストの結果)。
1. ポスタライズまたはバンディング(カラーおよびグレー色相における粗い濃淡)。JPEG PSD 7/8
からぼんやりと出現し、概ね JPEG PSD5 から視認できるようになった。
2. ピクセレーション:おおむね JPEG PSD2 から出現。
3. コントラストの高い部分がぼんやりするウーリー効果。JPEG PSD4 から視認可能となった。

三番目の効果は特にテキスト(文字の周囲)に認められる。強度の JPEG 圧縮の対象としては、テキ


スト素材(または線描のようにハイコントラストな他の素材)よりも写真や絵画のような連続階調を有
するオリジナルのほうが適している。

PSNR
要調査

圧縮反復に対するフォーマット選択の影響

複数回圧縮すると画像は劣化する。テスト結果によると、JPEG PSD 10 圧縮を適用した際の劣化が


実際に認められるようになるのは、四回の圧縮実施の後である。

32
delta E が、圧縮ファイルと非圧縮ファイル間の色彩差異を計測する優れたツールとなりえないの
はこのためである。色彩の差異は、微妙な色彩変化の歪曲に生じる(「アーチファクト」参照)

www.simpleA.cc
2008 年 6 月 20 日

4.5 長期的な使用可能性に対するフォーマット選択の影響

「ファイル・フォーマットの評価方法」を「basic JFIF (JPEG) 1.02」フォーマットに適用した結果、0-100


のスケールにおいて 65.4 のスコアをマークした。このレポートで比較された四種類のフォーマットを、
上記の方法によって長期保存に最適なものから不適なものの順にソートすると、このスコアをもって
「basic JFIF (JPEG) 1.02」は三位となった。これはスコア 65.3 の「LZW 圧縮の TIFF 6.0」とほぼ同点
であり、スコア 66.1 の「不可逆版 JP2 (JPEG 2000 Part 1)」の次点となった。圧縮が不可逆性である
点、またこのフォーマットが文化遺産部門においてマスター・フォーマットとしてほとんど使用されてい
ない点が、最終スコアに重要な影響を及ぼしている。「不可逆版 JP2 (JPEG 2000 Part 1)」と「basic
JFIF (JPEG) 1.02」の二つから選択する場合、ファイルのより確かな将来性を考慮すると、後者が好
ましい。

4.6 機能性に対するフォーマット選択の影響

書誌的および技術的(EXIF)メタデータを組み込むためのオプション
内容関連のメタデータ:可
技術的メタデータ:EXIF 情報を埋め込むために個別の JPEG EXIF フォーマットが開発さ
れた(註 35 参照)。
高解像度のアクセス・マスターとして提供する際のフォーマットの適合性
ブラウザ・サポート:すべての標準的ブラウザが JPEG をサポートしている。
高解像度画像アクセス:高解像度JPEGは、しばしば拡大ファイルとして使用される。この
作業は個別の画像として、独立した解像度のレイヤーを複数作成して行う。これらの画像
は、タイルに再度分割されることもある。* 33
最大サイズ
要調査

米国議会図書館による「品質および機能性ファクター」* 34
通常の表示
スクリーン表示:可
印刷:可
拡大:可
明瞭度
高解像オプション:可。多大な圧縮をかけると細部が損なわれることがある(項目 3.4 を参
照)。
ビット深度:8 および 24 ビットに制限される。* 35
カラー調整
さまざまなカラースペースのサポート:可(ICC プロファイル非経由)
ガンマ調整を含ませるオプション:不可
ICCカラープロファイルを含ませるオプション:可* 36
グラフィックエフェクトおよびタイポグラフィのサポート
ベクター・イメージ・オプション:不可
透過情報:可

33
Geheugen van Nederland (memory of the Netherlands) (http://www.geheugenvannederland.nl/) が
「独立した解像度のレイヤーを複数作成」した例であり、Amsterdam City Archive
(http://beeldbank.amsterdam.nl/) の画像データベースによるソリューションが「タイルに再度分割」した
例である
34
http://www.digitalpreservation.gov/formats/content/still_quality.shtml
35
12 ビット JPEG は医療用アプリケーションなどで使用されている。12 ビット JPEG は JPEG スタンダ
ードの一部であるものの使用されることはほとんどなく、サポートもされていない。ウィキペディア
「JPEG」の項目を参照。 http://en.wikipedia.org/wiki/JPEG#Medical_imaging:_JPEG.27s_12-
bit_mode
36
ICC プロファイル 4.2.0.0. LOC の詳細
http://www.digitalpreservation.gov/formats/fdd/fdd000018.shtml#factors

www.simpleA.cc
2008 年 6 月 20 日

フォントおよびスタイルを特定するオプション:不可
通常の表示以外の機能
アニメーション:不可
マルチページサポート:不可
マルチ解像度:多少は可。より大きい画像のサムネイルを保存することもできる* 37 。しかし
この機能は、画像編集/閲覧ソフトウェアではほとんどサポートされていない。

4.7 結論

フォーマットの詳細
規格化:JPEG は 1994 年より ISO/IEC(10918-1)規格となっている。規格のアネックス B の拡張
部分、JFIF が、デファクト・スタンダードになっていて、単に JPEG と言った場合、この部分を指
す。
目的:連続諧調のグレースケールないしカラーの画像に対する圧縮の規格を作ること。
構造:今後の課題。
エンコード:5 つのステップ。最も特徴的なのは、DCT 圧縮方法を採用していることである。

ストレージ容量に対する影響
-容量節約は、約 89%~96%である。

画質に対する影響
圧縮率を増やしていくと、徐々に細部が荒くなる
グレースケールやカラー情報の計測可能なロスはなし
アーチファクト:高い圧縮率を用いると、ポスタライズ、ピクセレーション、(コントラストの高い部
分がぼやける)ウーリー効果が発生する
PSNR:今後の課題

長期的な使用可能性に対する影響
評価スコア 65.4
主な問題点:不可逆圧縮であることと、資料保存の分野ではあまりマスターファイルとして使わ
れていないこと

機能性に対する影響
重要な利点:
エディター、ビューワー、ブラウザで完全にサポートされていること
圧縮と解凍に、あまり計算処理を必要としないこと
効率的な可変 DCT 圧縮を用いていること
EXIF メタデータを追加する方法が標準化されていること (JPEG EXIF フォーマットとして)
重要な欠点:
ロスレス圧縮を選択できない
ビット深度の選択が狭い(グレースケールは 8 ビット、カラーは 24 ビット)
マルチ・レゾリューションが選択できないこと

推奨

理由 1(代替)に対する考察
代替目的としては、JPEG は好ましくない。長期的に使うことができるという観点から、情報
が不可逆的に失われることから、好ましくない。評価スコアが 66 と低いのは、この不可逆性
による。使う可能性があるとすれば、見た目にはロスレスである PSD 10 以上を使う場合で
あり、この場合、圧縮の結果 89%のスペースを節約することが可能である。ただし、この場

37
バージョン 1.02 からスタート。LOC の詳細 JFIF
http://www.digitalpreservation.gov/formats/fdd/fdd000018.shtml#factors

www.simpleA.cc
2008 年 6 月 20 日

合、見た目にはロスレスであるというのは、相対的な話で、現在のモニター技術の水準や、
観察者の主観によるところが大きいことを理解する必要がある。

理由 2(やり直しが効かない) に対する考察
この目的の場合、見た目にロスレスの範囲で JPEG を使うことが、適している。オリジナルの
代替ではないのだから、少しの情報欠落は正当化できる。JPEG が広く普及していて、様々
なソフトでサポートされていることもまた、JPEG が好ましい理由の一つである。

理由 3(マスター・ファイルはアクセス・ファイルの元になる) に対する考察
この目的の場合、JPEG で高い圧縮をかけることが好ましい。JPEG の圧縮方法は、画質の
低下をあまり伴わずに、比較的に高い圧縮率を実現できる。圧縮率を決めるときは、素材
の種類を考慮する必要がある。例えば、写真などの連続諧調のページよりも、テキスト・ペ
ージにおいて、圧縮によるアーチファクトが目立つ。

www.simpleA.cc
2008 年 6 月 20 日

5 TIFF の LZW 圧縮

5.1 TIFF LZW は何ですか?

厳密に言えば、TIFF LZW はひとつのファイル形式はありません。TIFF(Tagged Image File


Format)6.0 はファイル形式で、LZW(Lempel-Ziv-Welch、開発者の名前の組み合わせ)は TIFF の中
で使用される圧縮アルゴリズムです(LZW 圧縮に加えて、TIFF は ITU_G4、JPEG、および ZIP 圧縮
を使用するオプションを提供します)。以下は、TIFF6.0 形式の簡単な説明と LZW 圧縮方法に関す
る詳しい議論を提供します。

TIFFの仕様の最初のバージョンは、1986 年に公開されました。それは非公式にバージョン 3.0 と呼


ばれています。(TIFFの仕様は、マイクロソフトとアルダスによって開発されました。最新バージョンは
現在アドビで公開されています。)バージョン 4.0 は 1987 年に、そしてバージョン 5.0 は 1988 年に公
開されました。後者(バージョン 5.0)は限られたカラー空間(パレット色)とLZW圧縮のためのオプショ
ンを提供しました。特にCYMKカラーの定義とJPEG圧縮の使用を含むベースラインTIFF6.0 規格は、
1992 年から始まりました。さまざまな拡張がバージョン 6.0 以降で加えられました。(セクション 4.2.1
以降を参照) --その中でも重要なものは: TIFF/EP(2001 年)とTIFF/IT (2004 年)、DNG (2005 年)、
EXIFです。* 38

ベースライン TIFF6.0 は ISO-IEC 標準化されていません。

目的はスキャナとイメージ編集ソフトウェアから出力されるラスター・イメージを保存するためのファイ
ル形式を作成することでした。主な目標は「アプリケーションがイメージデータを交換できる豊かな環
境を提供することです。この豊かさは、スキャナと他の画像機器の異なった能力を利用するのに必
要」ということです* 39 。また、規格は新しい画像要件に基づいて拡張できなければいけません:TIFF
を構造化する、ということに高い優先度を与えました。今後の機能強化をするときに、開発者に不要
な負担をかけないようにするためです* 40 。おかげで様々な拡張がされてきました。その一方、すべて
の画像編集とビュアーソフトウェアが、すべての拡張を使用しているというわけではない、という不都
合もあります。

LZW圧縮アルゴリズムは 1984 年から始まりました。そして、基本的に 1978 年に公開されたLZ78 ア


ルゴリズムの改良版です。名前の元となったJacob Ziv氏とAbraham Zempel氏がLZ78 形式を開発し、
その後Terry Welch氏が高速版を開発してからLZWに名称が変更されました。それは(画像に限定さ
れない)ロスレスデータ圧縮アルゴリズムとして開発されました。TIFFで使用されることに加えて、
LZWは主にGIF形式における使用で有名になりました。さらに、LZWはユニシスが(開発者Terry
Welch* 41 を通して)アルゴリズムに特許を持っていると主張したために悪名高いです。この特許は
2003 年(米国)と 2004 年(ヨーロッパと日本)に期限が切れました、ユニシスは、アルゴリズムへのあ
る改良を持っているとまだ主張していますが。

5.2 それはどのように働いていますか?

5.2.1 ストラクチャー

38
デジタル写真用 TIFF/EP 拡張 (ISO 12234-2) (http://en.wikipedia.org/wiki/ISO_12234-2)
プリプレス用 TIFF/IT 拡張 (ISO 12369)
(http://www.digitalpreservation.gov/formats/fdd/fdd000072.shtml).
RAW データの保存に関する DNG Adobe TIFF UNC 拡張
(http://www.digitalpreservation.gov/formats/fdd/fdd000188.shtml).
EXIF テクニカル・メタデータ (http://www.digitalpreservation.gov/formats/fdd/fdd000145.shtml)
39
TIFF Revision 6.0 June 1992. p. 4. Scope.
http://partners.adobe.com/public/developer/en/tiff/TIFF6.pdf.
40
TIFF Revision 6.0 June 1992. p. 4. Scope.
http://partners.adobe.com/public/developer/en/tiff/TIFF6.pdf.
41
Welch 氏はかつて Sperry 社で働いていて、そのときに特許の基礎になるアルゴリズムを開発した。
その後、Sperry 社はユニシス社の一部となった

www.simpleA.cc
2008 年 6 月 20 日

TIFFファイルは、イメージ・ファイルディレクトリ(IFD)と関連するビットマップを参照する 8 バイトのイメ
ージ・ファイルヘッダー(IFH)から始まります。IFDは、イメージの情報に加えて、実際の画像データへ
のポインタを含んでいます。* 42

ヘッダーとIFDsに含まれているTIFFタグは、基本ジオメトリ情報を含んでいます。それには例えば、
イメージデータが編成されている方法、そして圧縮技術が使用されているかどうかなどが含まれます。
タグの重要な部分がいわゆるベースラインTIFFに属します* 43 。これの外側のすべてのタグは拡張さ
れたもので、代替のカラー空間(CMYKおよびCIELab)や様々な圧縮技術などを含んでいます* 44 。

プライベートタグと呼ばれるタグもあります。TIFF6.0 バージョンは、ユーザー固有のタグを用いるた
めのオプションをユーザに提供します。そしてまた、プライベートIFD* 45 を通してそれらを開発するた
めのオプションもまた提供します。先に述べたTIFF/EP、TIFF/ITはこのオプションを利用します。使わ
れたタグはパブリックなので、オープンな拡張の話があります。米国議会図書館の提供するドキュメ
ントにより、この拡張を概観することができます。
:http://www.digitalpreservation.gov/formats/content/tiff_tags.shtml

5.2.2 エンコード、デコード/フィルタリング、および圧縮

今後の課題。

5.3 必要となるストレージ容量に対するフォーマット選択の影響

テスト結果から、可逆モードの TIFF LZW を使用すると、非圧縮ファイルと比較して約 30%のベネフ


ィットを得られることが判明した。

5.4 画質に対するフォーマット選択の影響

LZW 圧縮は可逆性であるため、画質は劣化しない。

5.5 長期的な使用可能性に対するフォーマット選択の影響

「ファイル・フォーマットの評価方法」を「LZW 圧縮の TIFF 6.0」フォーマットに適用した結果、0-100 の


スケールにおいて 65.3 のスコアをマークした。このレポートで比較された四種類のフォーマットを、上
記の方法によって長期保存に最適なものから不適なものの順にソートすると、このスコアをもって
「LZW 圧縮の TIFF 6.0」は最下位となったが、実際にはスコア 65.4 の「basic JFIF (JPEG) 1.02」と大
して変わらない。

LZW 圧縮法に関しては、特許問題の可能性があることと、文化部門における TIFF のこのバージョ


ンのマスター・アーカイブ・フォーマットとしての採用率の低さが、低スコアの主な原因となっている
(http://www.unisys.com/about__unisys/lzw/を参照)。Unisys が現在も所有権を主張している特許は、
以前しばしば話題となって、2003 年~2004 年に失効したものとは異なる。同じ評価方法をベースラ
インの TIFF 6.0 に対して適用した時にスコアが高かったのは、LZW 圧縮法を使用していないと想定
していたからである。したがって、長期的な使用可能性の観点からは「LZW 圧縮の TIFF 6.0」の使
用は推奨できない。

5.6 機能性に対するフォーマット選択の影響
書誌的および技術的(EXIF)メタデータを組み込むためのオプション

42
TIFF は複数の IFDs を持つことができ、これはマルチページ TIFF と呼ばれ、ベースライン TIFF と
は異なる
43
http://partners.adobe.com/public/developer/en/tiff/TIFF6.pdf
44
http://partners.adobe.com/public/developer/en/tiff/TIFF6.pdf
45
EXIF の拡張のときに、このオプションを使った。
http://www.digitalpreservation.gov/formats/content/tiff_tags.shtml

www.simpleA.cc
2008 年 6 月 20 日

内容関連のメタデータ:可
技術的メタデータ(EXIF):可
高解像度のアクセス・マスターとして提供する際のフォーマットの適合性
ブラウザ・サポート:不可
高解像度画像アクセス:TIFF LZW では、ウェブ経由の高解像度画像の交換性が非常に
限定される。これは可逆モードのフォーマット圧縮を行った後も、サイズが比較的大きいま
まであるのが原因である。TIFF をサポートするブラウザもないため、JPEG を選択すること
になる。
最大サイズ
ファイルサイズ:4GB。20GBまで拡大しようという提案が出ている。(BigTIFF)* 46

米国議会図書館による「品質および機能性ファクター」* 47
通常の表示
スクリーン表示:可
印刷:可
拡大:可
明瞭度
高解像オプション:可
ビット深度:TIFF 6.0 スタンダードでは、各チャンネルにつき 1 ビット、4 ビット、8 ビット、16
ビット(および理論上は 32 ビット)のオプションを提供する。
カラー調整
さまざまなカラースペースのサポート:可(ICC プロファイル非経由)。スタンダード:二値、
グレースケール、RGBCMYK、YCbCR, CIEL*a*b
ガンマ調整を含ませるオプション:不可
ICCカラープロファイルを含ませるオプション:可。ICCカラープロファイルも含ませることが
できるが、標準的な方法ではない。TIFF/EPおよびTIFF/ITスタンダードでは、レギュラー
TIFF 6.0 ファイルにも含まれるプライベートタグを開発している。その一方、Adobe
Photoshopでは違う方法を使っているらしい。* 48
グラフィックエフェクトおよびタイポグラフィのサポート
ベクター・イメージ・オプション:不可
透過情報:可(いわゆるアルファチャンネルを通じて)
フォントおよびスタイルを特定するオプション:不可
通常の表示以外の機能
アニメーション:不可
マルチページサポート:不可
マルチ解像度:TIFF では、マルチ解像度(Image Pyramid)オプションを提供している。これ
がプライベートタグへの次期添加かどうかは不明。
いずれの場合にせよ、TIFF 6.0 1992 スタンダード(通常版および拡張版)には含まれてい
ない。さらに、この機能が閲覧ソフトによってどの程度サポートされるかも不明である。

5.7 結論

フォーマットの詳細
規格化:TIFF 6.0 のベースラインは、ISO/IEC に認められた規格でない。1992 年に決まった、こ
の規格の詳細は、Adobe 社のウェブサイトから無償で手に入る。LZW 圧縮は、1988 に決まっ
た TIFF 5.0 から、拡張版 TIFF の一部となっている。
目的:ラスター・イメージのリッチで拡張可能なファイル・フォーマットを提供すること。
構造:フォーマットの基本は、ヘッダー(IFH)とディレクトリー(IFD)の両方に書き込まれるタグで
形づくられる。

46
http://www.awaresystems.be/imaging/tiff/bigtiff.html Photoshop では 4GB のファイルを開くことが
できるものとする。 http://kb.adobe.com/selfservice/viewContent.do?externalId=320005&sliceId=1
47
http://www.digitalpreservation.gov/formats/content/still_quality.shtml
48
LOC TIFF docu: http://www.digitalpreservation.gov/formats/fdd/fdd000022.shtml#factors

www.simpleA.cc
2008 年 6 月 20 日

エンコード:今後の課題。

ストレージ容量に対する影響
-容量節約は、約 30%である。

画質に対する影響
ロスレスなので、なし

長期的な使用可能性に対する影響
評価スコア 65.3
主な問題点:LZW 圧縮が特許問題を抱えていることで、資料保存の分野でマスター・ファイル
として使うことが敬遠されていること

機能性に対する影響
重要な利点:
ロスレスであること
エディター、ビューワーで(広く)サポートされていること
メタデータの埋め込める可能性が高い
ビット深度を幅広く選択できる(各チャンネル 1~16 ビット)
EXIF メタデータを追加できること
重要な欠点:
ロスあり圧縮を選択できないので、高い圧縮率ができない
ブラウザーがサポートしていないこと

推奨

理由 1(代替)に対する考察
LZW 圧縮の TIFF 6.0 は、長期的に使うことができるという観点から、最も好ましくない。評
価スコアも最低である。LZW 圧縮の特許がどうなるのか分からない状況なので、代替目的
で TIFF+LZW を選択するのは賢くない。LZW はロスレスであり、イメージ情報のロスがな
いという点では理想的である。しかし、圧縮率が 30%であり、ロスレスの JPEG 2000 が 50%
であり、PNG が 40%より低い。TIFF をサポートしているソフトは多いが、消費者や資料保存
の分野で、あまり使われていない、というのが懸念される。

理由 2(やり直しが効かない) に対する考察
特許問題と、あまり圧縮効率が高くないことから、この目的に適しているとは言えない。

理由 3(マスター・ファイルはアクセス・ファイルの元になる) に対する考察
高い圧縮を可能とするロスあり圧縮ができないので、この目的に適しているとは言えない。

www.simpleA.cc
2008 年 6 月 20 日

6 結論

フォーマットについて
JPEG 2000、PNG、そして JPEG は、ISO/IEC 標準となっている。TIFF 6.0 は一般公開されて、Adobe
から詳細情報が提供されているが、ISO/IEC 標準とはなっていない。

必要となるストレージ容量に対するフォーマット選択の影響
ストレージ・テストを行うとき、2 つの条件があった:
RGB 各 8 ビットで計 24 ビットのファイルを用いた
おおよそ 100 枚くらいのオリジナル画像を 2 セット用意して、片方はコントラストの低いテキスト・
ページであり、もう一つは写真ページであった。

圧縮なしのTIFFからの
ファイル・フォーマット
ストレージ節約率* 49
可逆の JPEG 2000 Part 1 52%
不可逆の JPEG 2000 Part 1 91~98%
PNG 43%
JPEG 89~96%
LZW 圧縮の TIFF 30%

(異なる種類の画像ファイルを 2 セット用意したが)異なるセット間で、圧縮率に目立った違いはなか
った。しかし、コントラストの高いテキスト・ページを圧縮してみると、より高い圧縮率が得られた。これ
は、今後の研究課題の一つとなっている。

明らかに、JPEG 2000 Part1 が、可逆および不可逆の両方において、最も効果的である。しかし、


JPEG は、JPEG 2000 と比べて、ノイズが出てしまう圧縮率が低い、ということが言えるが、それ以外
の点では、不可逆の JPEG 2000 にひどく劣るということはない。

画質に対するフォーマット選択の影響
当然、可逆の JPEG 2000 Part 1、PNG、そして LZW 圧縮の TIFF は、画質の低下は起こらない。

不可逆の JPEG 2000 Part 1 や JPEG などの不可逆圧縮では、圧縮率が上がると、画質が劣化する。


圧縮率が上がっていくにつれて、徐々に、JPEG 画像のシャープさが失われる。JPEG 2000 では、
圧縮率を極端に上げた場合に限り、シャープさが失われる。
グレースケール画像やカラー画像を JPEG ないし JPEG 2000 で圧縮した場合、(カラーシフトや
デルタ E(色差)など)測定可能な画質ロスは起こらない。しかし、圧縮率を極端に上げた場合、
カラフルな色使いが「単純化」されてしまい、極端なケースでは、不自然なトーンになったり、バ
ンディングと呼ばれる「帯状の幾何学模様」が発生する。(これらは、エンコードの過程で行う定
量化によって引き起こされる。)
圧縮率をあげたときに発生するノイズは、JPEG の場合も、JPEG 2000 の場合も、かなり似てい
る。ただ注意しておくべきことは、これらのノイズは、JPEG 2000 に比べて JPEG の方が、早い段
階で発生するということである。
バンディング (カラーないしトーンの変化が荒くなる)
ピクセレーション (タイル状に見えてくる)
コントラストの高い部分がぼんやりする(Woolly Effect)

今後の研究課題として、不可逆圧縮をした場合に発生する画質劣化を、PSNR と呼ばれる「画像の
信号と混入したノイズとの比率」として計算することである。

長期的な使用可能性に対するフォーマット選択の影響

49
金城注:大きいほど、圧縮率が高い

www.simpleA.cc
2008 年 6 月 20 日

(序章や、おまけ 2 および 3 で紹介した)ファイル・フォーマットの評価方法を、これまで説明してきた


各フォーマットや、これまでマスター・ファイルとして使われてきた非圧縮の TIFF フォーマットに適用
してみると、以下の表のような結果となり、上から順番に長期保存に適していると言える。

順位 ファイル・フォーマット 点数
1 非圧縮の TIFF 6.0 84.8
2 PNG 1.2 78
3 可逆の JPEG 2000 Part 1 74.7
4 不可逆の JPEG 2000 Part 1 66.1
5 JPEG 1.02 65.4
6 LZW 圧縮の TIFF 65.3

要するに、(画像ファイルの)長期的な使用可能性という観点で言うと、非圧縮の TIFF を使うという


選択肢が最も無難である。ところが、実際のプロジェクトでは、ファイル・サイズが大きくなり、結果、
ストレージ・コストが高くなるため、維持可能なオプションではないと思われる。

「ファイル・フォーマットの評価方法」は、まだ発展途上にある。この方法に関するフィード・バックを待
っている状態である。加えて、この方法を実際に適用したという事例もまだ少ない。この研究で得ら
れた経験から、この方法を改良する必要がある。したがって、この方法で長期的なフォーマットを選
択するということは、時期尚早である。この方法によって得られた結果を、過去の知識や経験に照ら
し合わせてみる必要がある。

上で紹介した表から、期的な使用可能性という観点で言うと、「非圧縮の TIFF6.0」が最も無難である
ことが分かる。もしその代替フォーマットを選択する必要があるとすれば、(ともに可逆圧縮である)
「PNG 1.2」と「不可逆の JPEG 2000」が、候補となる。ここでまず、私たちの採用した方法の欠点があ
る。この方法の中で、「資料保存の分野で、マスター・ファイルのフォーマットとして使われている」と
いう項目があり、これは現在の採用状態を反映して、点数に大きく影響する。しかし、現在の方法だ
と、将来の採用状態の予想が含まれない。「PNG 1.2」も「不可逆の JPEG 2000」も、資料保存の分野
において、マスター・ファイルのフォーマットとして大規模に使われてはいない。しかし、JPEG 2000 の
ほうが、より将来性があると言える。PNG は 1996 年からあるが、JPEG 2000 は 2000 年からの規格
である。可逆圧縮フォーマットとしては、JPEG 2000 の方が好ましいと思われる。

もう一つ、この方法で考慮されていない点がある。それは、不可逆圧縮をかけたことによる画質の劣
化である。質的に劣る画像ファイルを長期保存することも可能であるが、スキャンをもう一度すること
が許されない状況においては、スキャン画像を短期的にしようすることだけでなく、長期的にも使える
ように考えることが必要である。この観点から考えなくてはならないことは、画質の劣化に関して今日
の基準で OK なものが、将来の、異なる使い方においては NG になるかもしれない、ということであ
る。例えば、より良い解像度のディスプレイや、より大きなディスプレイを使うかもしれない。(その画
像ファイルが)長期的に使うことができるのかどうかを考えれば、不可逆圧縮はあまり推奨できない。
とれは特に、オリジナルを電子化して、電子化したほうを長期保存していこうと考えている場合に当
てはまる。(序章で述べた、3 つの理由のうち、1 番目の原本の代替として残したい、という場合が該
当する。)それでも、不可逆圧縮が選択された場合、将来性を考慮すると、不可逆の JPEG 2000 より
も JPEG 1.02 がお勧めである。

「ファイル・フォーマットの評価方法」を用いて、長期的な使用可能性という観点からだけで判断する
と、非圧縮の TIFF の替わりとしては、以下のフォーマットが順番にお勧めである。
1. 可逆の JPEG 2000 Part 1
2. |PNG 1.2
3. JPEG 1.02
4. 不可逆の JPEG 2000 Part 1
5. LZW 圧縮の TIFF

機能性に対するフォーマット選択の影響
マスター・ファイルの保存という点で、最も関連する機能を以下の表にまとめる。

www.simpleA.cc
2008 年 6 月 20 日

機能 その機能が使えるファイル・フォーマット
可逆圧縮オプション JPEG 2000、PNG、TIFF+LZW
不可逆圧縮オプション JPEG 2000、JPEG
可逆・不可逆の選択オプション JPEG 2000
書誌メタデータの追加オプション JPEG 2000、PNG、JPEG、TIFF+LZW
EXIF をメタデータとして追加する標準的方法 JPEG、TIFF+LZW
ブラウザーの対応 JPEG、PNG
異なる解像度のファイル生成 JPEG 2000、TIFF+LZW、微妙に JPEG も
(高解像度のアクセス・ファイルに使えるかどうか)
最大サイズ JPEG 2000:制限なし(2 の 64 乗)
PNG:今後の調査課題
JPEG:今後の調査課題
TIFF+LZW:4GB
ビット深度 JPEG 2000:RGB 各 1~38 ビット
(クラス 2 の場合:RGB 各 16 ビット
PNG:RGB 各 1~16 ビット
JPEG:RGB 各 8 ビット
TIFF+LZW:RGB 各 1~16 ビット
(理論的には:RGB 各 1~32 ビット
標準でサポートするカラースペース JPEG 2000:二値、グレースケール、sRGB、インデック
スカラー
PNG:二値、グレースケール、sRGB インデックスカラー
JPEG:グレースケール、RGB
TIFF+LZW:二値、グレースケール、RGB、CMYK、
YCbCr、CIEL*a*b
ICC プロファイル使用オプション JPEG 2000、PNG、JPEG、TIFF+LZW*1
(標準的な使い方ではないが)
マルチページサポート TIFF+LZW

要約
可逆の 不可逆の PNG JPEG TIFF+LZW
JPEG 2000 JPEG 2000
正式な規格化 5 5 5 5 5
ストレージ容量節約 3 5 2 4 1
画質 5 4 5 3 5
長期使用可能性 5 2 4 3 1
機能性 5 5 4 3 4
合計点数 23 21 20 18 16

JPEG 2000 が、可逆でも不可逆でも、トップであることは注目に値する。

この論文の序章において、マスター・ファイルを長期保存する 3 つの理由を述べたが、上の表では、
その 3 つを区別しない。一番左の行でタテに並ぶ各項目の中には、その 3 つの理由とあまり関係な
いものもある。以下で提示する推奨は、タテに並ぶ 5 つの項目の重要性を考慮して作成された。

推奨

理由 1:原本の代替として残したいため

マスター・ファイルの長期保存の理由が、原本の代替であるとすると、「長期使用可能性」
「正式な規格化」「画質」という項目が最も重要だと考えられる。長期に渡る使用可能性を考
えると、可逆の JPEG 2000 が一番であり、PNG が僅差で二番となる。ストレージ容量の節
約度合い(PNG40%、可逆の JPEG 2000 が 53%)と機能性が重要だと思われる場合、JPEG
2000 に軍配があがる。TIFF+LZW は、ストレージ容量の節約度合いがたった 30%であるこ
とや、ファイル・フォーマット評価方法でのスコアが低いことから、代替フォーマットとしては

www.simpleA.cc
2008 年 6 月 20 日

適さない。(「評価方法」でスコアが低い原因は、特許に絡んだ問題があるため、ファイル・フ
ォーマットの利用に関する制約、という項目のスコアが低いためである。)

この代替理由が強い場合、不可逆圧縮は、画像情報が欠落して元に戻すことができないた
め、選択される可能性は低い。

しかし、人間の目には可逆に見える圧縮を利用する、ということも有り得る。その場合の候
補は、JPEG 2000 Part1(圧縮率 10 なので、元の 10%の大きさになる)や JPEG(PSD10 かそ
れ以上で、元の 11%の大きさになる)となる。人間の目には可逆に見える圧縮というのは、
相対的な用語であり、現在のモニター技術水準に依存し、かつ、個々人の主観的判断に寄
っていることを理解する必要がある。JPEG ファイル・フォーマットの大きな利点は、広く普及
していて、かつ、ブラウザーを含め、数多くの対応ソフトが出回っていることである。

理由 2:電子化は膨大なコストがかかるので、やり直しが効かないため

マスター・ファイルの長期保存の理由が、電子化作業を 2 度行いたくない((金城注:この気
持ち、痛いほど分かる))、というものであるとすると、「ストレージ容量節約」と「画質」の項目
が最も重要だと考えられる。この場合、不可逆圧縮を人間の目には可逆に見える範囲で利
用するのが、好ましいと思われる。オリジナルの代替ではないのだから、少しの情報欠落は
正当化できる。上述の不可逆の JPEG 2000 を利用したり、JPEG を人間の目には可逆に見
える範囲で利用したりするというのが、選択としては妥当である。

しかし、情報の欠落を一切許さない、という場合なら、上述の可逆の JPEG 2000 や PNG を


利用する、というのがあり得る選択肢となる。

理由 3:マスター・ファイルはアクセス・ファイルの元になるため

マスター・ファイルの長期保存の理由が、マスター・ファイルをアクセス・ファイルとして使うた
めである場合、「ストレージ容量節約」と「機能性」という項目が最も重要だと考えられる。こ
の場合、比較的高めの圧縮率で、不可逆圧縮をかける、というのが当然である。ふたつの
選択肢があり、不可逆の JPEG 2000 を利用するか、または、JPEG を高い圧縮率で利用す
るか、このどちらかである。JPEG 2000 の圧縮技術は進んでいるので、画質を大きく損なうこ
となく、より高い圧縮率を実現できる。(JPEG より勝る。)圧縮率を決めるとき、素材となる画
像のタイプを見極める必要がある。例えば、圧縮によるノイズは、写真などの連続階調のペ
ージより、テキスト・ページで目立つ。JPEG 2000 は圧縮効率も高いし、豊富なオプション機
能がある一方、JPEG はブラウザーを含む多くのソフトで対応していて、かつ広く受け入れら
れている。そのような状況を踏まえて、JPEG 2000 の利点が JPEG の利点を上回るのかどう
か、そこを考えなくてはならない。

www.simpleA.cc
2008 年 6 月 20 日

おまけ 1:代替的ファイルフォーマットの使用状況

以下のリストは、代替的ファイルフォーマットの使用状況の全てを示してはいません。単に、様々なフ
ォーマットの使用状況を、簡単に示そうとするものです。

JPEG 2000

「アクセスコピー」として JPEG2000 を使用している多数の機関があり、それ以外にも多くの機関が長


期保存用のフォーマットとしての使うための調査を実施しています。長期保存用のフォーマットに
JPEG 2000 のみを選んだ文化的な機関はたったひとつのようです。今後の調査の課題として、医学
分野における JPEG2000 の使用があります。JPEG2000 を使用する機関と会社に関する例:
英国図書館は、JPEG2000 をアーカイブ・フォーマットの 1 つとして選んだ唯一の団体です(まだ
TIFF との混用ですが)。「英国図書館のデジタル保存チーム(DPT)は次のように考えます。こ
のプロジェクトに使うストレージの予算はすでに割り当てられているので、ファイルフォーマット
関する限り、仕様の変更を推奨するのは非実用的であります。したがって、我々は
MLB_v2.doc で認知されたフォーマットを継続することを推奨します。それらは以下の通りです。
アクセス用ファイルとして、タグ付き PDF1.6 を使います。スキャンされた本の条件によりま
すが、 トップページは目次ページか、第 1 章の最初のページとします。
「保存コピー」用として、JPEG2000 ファイルを PSNR70dB のレベルで圧縮します。
メタデータは METS/ALTO3 XML を仕様します。
JP2 ファイルはマスターファイルの要件を満たしますが、業界での普及率が低く、保存という観
点から僅かな懸念が残ります。しかしながら、このフォーマットは明瞭かつ文書化されておりま
すので、即座にリスクを引き起こすようなことはありません。「普及率の低さに伴うリスク」はこの
ようにして認識されますが、JPEG2000 の選択を妨げる大きな障壁であるとは見なされません。
米国議会図書館: アメリカ・メモリーのウェブサイトで、アクセス・ファイルとして JPEG2000 を使
用しています。( http://memory.loc.gov/ammem/index.html )
全米電子新聞プログラム(NDNP)は、マスター・ファイルとして圧縮なしの TIFF6.0 を、全ての派
生ファイルに JPEG 2000 を使用します。 (http://www.loc.gov/ndnp /)
(日本)国立公文書館では、デジタル・ギャラリーにアクセスする際に JPEG と JPEG2000 どちら
かを選
ぶことができます。<br>( http://jpimg.digital.archives.go.jp/kouseisai/index_e.html )<br>マスタ
ー・ファイルのフォーマットは明らかにされていません。
Google はグーグル・アースとグーグル・プリントで JPEG2000 を使用します。
セカンドライフは JPEG2000 を使用します。
Motion JPEG2000(MJ2)は、デジタルシネマの規格として Digital Cinema Initiatives(DCI)のメン
バーによって使用されます。 DCI の代表的なメンバーは以下の通りです。
Buena Vista Group (Disney)
20th Century Fox
Metro-Goldwyn-Mayer
Paramount Pictures
Sony Pictures Entertainment
Universal Studios
Warner Bros. Pictures
医療画像分野では JPEG2000 が相当使われています--DICOM を参照して下さい。
(http://medical.nema.org/ )
生体認証: 例えばドイツの新しいパスポートは、組み込まれたチップ内にバイオメトリックなデー
タと JPEG 2000 のイメージが格納されています。
ビデオ監視アプリケーション
カナダ国立図書・資料館(LAC)は、JPEG2000 の使用に関して実行可能性調査を行いました。
( http://www.archimuse.com/mw2007/papers/desrochers/desrochers.html )しかしながら、追加的
なセーフティ・ネットとして、現在に至るまで TIFF でのコピーもアーカイブされています。
インターネット・アーカイブ。<br>http://www.archive.org
コネティカット大学
( http://charlesolson.uconn.edu/Works_in_the_Collection/Melville_Project/index.htm 。)
ユタ大学 ( http://www.lib.utah.edu/digital/collections/sanborn/ )

www.simpleA.cc
2008 年 6 月 20 日

スミソニアン図書館
J・ポール・ゲティ美術館

PNG
オーストラリア国立公文書館は、アーカイブ・フォーマットとして PNG を使用します。
アーカイブ・マスターとして PNG フォーマットを使用する文化遺産機関はこれ以上見つけられ
ませんでした。

JPEG
Leids Archief(ライデン地方のアーカイブ機関)の新聞マスターは、JPEG として格納されます。
チェコ共和国の国立図書館は、Memoria and Kramerius プロジェクト用マスターとして高品質な
JPEG(PSD12)ファイルを使用します。http://www.ncd.matf.bg.ac.yu/casopis/05/Knoll/Knoll.pdf.

TIFF LZW
アメリカ国立公文書記録管理局は、内部デジタル化プロジェクト用アーカイブ・マスターとし
て、TIFF LZW を使用します。
他の例は全く見つけられませんでした。

www.simpleA.cc
ラスタイメージ 基準となるTIFF 6.0 基本的なJFTF 1.02 JP2 (JPEG2000 JP2 (JPEG2000 TIFF 6.0
PNG 1.2
無圧縮 (JPEG) 不可逆圧縮 可逆圧縮 LZW圧縮
重み Score Total Score Total Score Total Score Total Score Total Score Total
オープン性 3
標準化されている 9 1 3 1.5 4.5 2 6 2 6 2 6 1 3
ファイルフォーマットの解釈に対する制約がある 9 2 6 1 3 1 3 1 3 2 6 1 3
ソースが入手可能な閲覧ソフトがある 7 2 4.66667 2 4.66667 2 4.66667 2 4.66667 2 4.66667 2 4.66667

利用率 2
世界的に使用されている 4 1 2 2 4 1 2 1 2 1 2 1 2
資料保存の分野にて、アーカイブのフォーマットとして使用されてい 7 2 7 0 0 0 0 1 3.5 1 3.5 0 0

複雑性 3
人間が読めること 3 0 0 0 0 0 0 0 0 0 0 0 0
圧縮 6 2 4 0 0 0 0 1 2 1 2 1 2
フィーチャーのバラエティさ 3 1 1 1 1 1 1 1 1 1 1 1 1

技術的なプロテクトの仕組み 5
パスワードによる防護策がある 3 2 1.2 2 1.2 2 1.2 2 1.2 2 1.2 2 1.2
コピーに対する防護策がある 3 2 1.2 2 1.2 2 1.2 2 1.2 2 1.2 2 1.2
電子署名を埋め込める 3 2 1.2 2 1.2 2 1.2 2 1.2 2 1.2 2 1.2
印刷に対する防護策がある 3 2 1.2 2 1.2 2 1.2 2 1.2 2 1.2 2 1.2
内容抽出に対する防護策がある 3 2 1.2 2 1.2 2 1.2 2 1.2 2 1.2 2 1.2

ドキュメント自体 2
メタデータを埋め込める 1 2 1 1 0.5 2 0.8 2 0.8 1 0.5 2 1
そのフォーマットに関する技術的な説明を埋め込める 1 1 0.5 0 0 0 0 0 0 0 0 1 0.5

堅牢性 7
データ破損に強い構成となっている 2 1 0.4 1 0.4 2 0.8 2 0.8 1 0.4 0 0
ファイルの破損を発見できるサポート機能がある 2 0 0 0 0 0 0 0 0 0 0 0 0
ファイルフォーマットの不変性が確保されている 2 2 0.8 2 0.8 2 0.8 2 0.8 2 0.8 2 0.8
旧バージョンのフォーマットと互換性が保たれている 2 2 0.8 2 0.8 2 0.8 2 0.8 2 0.8 2 0.8
次バージョンのフォーマットと互換性が保たれている 2 2 0.8 0 0 0 0 0 0 0 0 2 0.8

依存度 4
特定のハードウェアに依存しない 8 2 4 2 4 2 4 2 4 2 4 2 4
特定のOSに依存しない 8 2 4 2 4 2 4 2 4 2 4 2 4
1種類の特定の閲覧ソフトに依存しない 8 2 4 2 4 2 4 2 4 2 4 2 4
他の外的な資源(フォントやコーデックなど)に依存しない。 8 2 4 2 4 2 4 2 4 2 4 2 4
最高得点は 63.667点 53.9667 41.6667 42.0667 47.5667 49.6667 41.5667
100点換算 84.7644% 65.445% 66.0733% 74.712% 78.0104% 65.2879%
2008 年 6 月 20 日

おまけ 3 ファイル・フォーマットの評価方法 - 解説

ファイル・フォーマットの評価方法を取り上げている以下の論文は、IPRES Conference 2007


(http://ipres.las.ac.cn/)に於いて、幾分異なる形で報告済みだが、まだ公式発表はされてはいない。こ
の評価方法を試した経験を重ね、また、第三者からのフィードバックを受けて、項目と特性の定義は
幾分改訂されている。

長期保存に適するファイル・フォーマットの評価
Judith Rog, Caroline van Wijk National Library of the Netherlands; The Hague, The Netherlands
judith.rog@kb.nl, caroline.vanwijk@kb.nl

(要約)
国内外の出版社は、2003 年以降、オランダ王立図書館(略号 KB)に電子刊行物をデポジットしてい
る。最近まで、これらの文書はポータブル・ドキュメント・フォーマット(PDF 形式)で保存投稿されてき
た。しかしながら、例えばウェブ保存プロジェクトといった新規プロジェクトにより、王立図書館はさら
なる多様な素材の取扱いを余儀なくされている。それ故、王立図書館はファイル・フォーマットの定量
的リスク査定方法の検討を重ねて来た。この方法は、個々のファイル・フォーマットに関し、電子化保
存の戦略を決定するために用いることができる。電子文書の生成時ないしはその後の段階で、どの
ようなファイル・フォーマットを選ぶかによって、その文書の長期的な利用可能性に影響がでてくる。
この評価方法は、ファイル・フォーマットに関する七つの使用可能性項目からなり、それらの項目は
重要性を鑑みて重み付けがなされている。使用可能性項目そのものについては、世の中で意見が
一致しているように見える。しかし、各項目の重み付けは、王立図書館という一機関の方針に従って
いる為、項目の相対的重要度(訳者注:重み付けのこと)に関して他の諸機関の合意を得られるもの
か、王立図書館は懸念を持っている。この論文が、他の文化物保存機関に於いて、それぞれ独自の
定量的なファイル・フォーマット評価方法を策定させる刺激となることを王立図書館は切に願ってい
る。

(はじめに)

10 年以上の間、王立図書館は電子刊行物の保存に関わってきた。エルセフィエル・サイエンスおよ
びクルウェル・アカデミックというオランダ発の国際的出版社二社と初めて契約を交わしたのは 1996
年のことである。それは彼らが発行する電子ジャーナルの長期保存に関する契約であった。e-Depot
の対象は、2002 年、全ての国際的な科学刊行物に広げられることとなった。e-Depot とは、王立図書
館がこれらのジャーナルの長期保管および保存の為に使用している電子書庫のことで、2003 年に
運用が始まっている(National Library of the Netherlands, 2007a 参照)。現在、e-Depot は 1000 万点
以上の世界の電子出版物を保管している。これまで e-Depot に納められた刊行物の大半は電子ジ
ャーナルの記事である。一部を除いて、使用されたファイル・フォーマットは、ポータブル・ドキュメン
ト・フォーマット(PDF 形式)であり、PDF の種類としては version 1.0 から 1.6 の範囲内だった。しかし
今や、e-Depot の保存対象は拡大され、現在 e-Depot に取り込み中の電子化刊行物を除いても、今
後の五年間に web archiving (Digital Preservation Department KB, 2007b)、DARE (Digital
Preservation Department KB, 2007c)、national e-Depot (KB, 2007d) その他の電子化プロジェクト(KB,
2007e)のデータが新たに e-Depot に統合される。これらの電子化プロジェクトのコンテンツは、ファイ
ル・フォーマットに関しては実に多岐に亘っている。出版社が提供する”伝統的な”電子刊行物でさえ、
段々と種類が増している。記事には、調査内容を説明するマルチメディア・ファイルやらデータベース
が添付されることもある。

このような従来よりも多様なコンテンツが、王立図書館をして、電子化保存戦略の再考をなさしめた
のである。戦略の根幹には、王立図書館が常に「元の形」を保持すべしという基本思想がある。刊行
物を保存し、将来も利用可能たらしめる為に、王立図書館がなすべきこと(例 マイグレーションやエ
ミュレーションなど)を、電子化保存戦略は説いている。また、生成時、取り込み時、そして、それ以降
の段階において、どのファイル・フォーマットを選択するのかについても、電子化保存戦略で説明が
なされていて、これは各段階におけるファイル・フォーマットの選択がファイルの使用可能性に影響
するが故である。現行の戦略では、主に PDF ファイルの保存に焦点が当てられているが、今後は、
もっと多くのフォーマットを考慮することが必要となる。保存が必要なのか、そして、どんな保存方法

www.simpleA.cc
2008 年 6 月 20 日

が必要なのかは、諸々の事柄の中でも、刊行物のファイル・フォーマットの長期的使用可能性に依っ
ている。さて、ファイル・フォーマットが長期保存に向いているか否かは、どのような要素で決まるの
だろうか?ファイル・フォーマットの評価項目について論じた者は今までにも幾人も居る(Folk &
Barkstrom, 2002;, Christensen, 2004; ,Brown, 2003; ,Arms & Fleischhauer, 2005; ,Library of Congress,
2007 を参照)。しかし、それらの項目が実際のファイル・フォーマットの評価に用いられたことは殆ど
ない (Anderson, Frost, Hoebelheinrich & Johnson, 2005 を参照)。使用可能性項目を適用するに当た
って、それらの項目が全て同程度に重要なのか、それとも各項目の間に軽重があるのかを知る必要
がある。では、それをどう測定するのか?また、ファイル・フォーマットは各項目に関して、どれくらい
満たしているものなのか?ファイル・フォーマットを比較検討できるように、そして、長期保存に適した
ファイル・フォーマットの選択に当たり、より洞察を与えられるように、各項目は定量化して用いられる
べきである。

王立図書館は、そういったファイル・フォーマットの定量的リスク評価の策定をはじめている。ファイ
ル・フォーマットのリスク評価は、長期保存に適したファイル・フォーマットの選定を容易にする。この
論文が説明するのは、王立図書館が開発したファイル・フォーマットの評価方法について、そして、そ
れが王立図書館の長期保存化戦略に於いて如何に実地に用いられたかについてである。王立図書
館は、このように自らのファイル・フォーマット評価方法を発表することで、電子保存を行う皆々と、使
用可能性項目とその重要性について議論を始めたいと考えている。

長期保存に適するファイル・フォーマットを評価する為に

(方法論・手順)

王立図書館の方法で採用している保存に関する一般項目は、前述の文献に依っている。Arms &
Fleischhauer の論文(2005)に述べられている通り、通常のレンダリング作業での必要を超える鮮明
度や機能性などの質的・機能的な項目は、王立図書館の評価方法では考慮されていない。王立図
書館が保管している刊行物は完成物であって、例えば、刊行後の機能的な変更などは必要でない。
また、王立図書館は、長期保存のために刊行物を保管するのであって、それらの配布を主目的とは
していない。刊行物への日頃のアクセスやそれらの配布は、出版社のウェブサイトや大学のレポジト
リなどを通じて行われている。これらは、王立図書館の極めて特殊な事情であろうし、リスク評価方
法に、使用可能性項目のみを取り上げていることの理由にもなる。では次より、各項目、各項目の重
み付け、そしてこの方法の適用例について述べていこう。

電子保存の観点から見たファイル・フォーマットの適合性は、これらの項目を判断の基礎として等級
付けされる。各項目は以下に説明する通りである。各項目は計量可能なスタンダードとなっており、
それらによってファイル・フォーマット適・不適を決めることができる。各項目は、全てのファイル・フォ
ーマットが持っている各種の特性に細分され、それぞれの特性毎に点が付けられる。それぞれのフ
ァイル・フォーマットで、点は異なる。使用可能性項目と特性には重み付けがなされている。なぜなら、
王立図書館は、それぞれの特性が、電子保存計画のために等しく重要だとは考えていないからであ
る。項目および特性に与えられた重み付けは、確定されたものではない。その重み付けは、それぞ
れの機関の独自方針に沿ったものとなる。この論文に挙げられた例に用いられている重み付けは、
王立図書館の独自方針、一般的な電子化保存に関する文献、そして、一般常識に沿って、王立図
書館が定めたものである。特性に付される重み付けの値は、範囲が決まっている。

重み付けの値をゼロから 7 としたのは、恣意的な取り決めである。重み付け 7 は、電子化保存の見


地から最も重要な項目に与えられ、重み付けゼロはもっとも瑣末な項目に与えられる。特性毎に付
けらる得点はゼロから 2 まで。電子化保存と長期的使用性に関して、もっとも恐れありと見られる特
性には最低点ゼロが付けられる。電子化保存と長期的使用性に関して、もっとも重要と見られる特
性には最高点 2 が付けられる。ゼロから 2 までとしたのも恣意的な取り決めだ。各項目は、それぞ
れ同じ数の特性を持っているわけではない。それ故、全ての特性の得点の合計は、特性の数で除
算することで、正規化される。

このファイル・フォーマット評価方法をそれぞれのファイル・フォーマットに実施することで、各々のファ
イル・フォーマットの長期保存適合性を表す得点がゼロから 100 の幅で付けられる。その得点が高

www.simpleA.cc
2008 年 6 月 20 日

いほどに、より長期保存に適したファイル・フォーマットということになる。時が経つに連れて、得点結
果はさまざまに変わることだろう。採用度といった項目は、そのフォーマットが普及したり、古くなった
りするために、時と共に、非常に変化を被りやすい。

(項目について)

王立図書館の評価方法で使用されている項目は、開放性、採用度、複雑性、技術的保護のメカニズ
ム(DRM)、セルフドキュメンテーション、ロバスト性と従属性である。

開放性(オープン性)
ファイル・フォーマットの開放性という項目は、標準化の度合い、ファイル・フォーマットの
interpretation に関する制限、そして、無料で入手可能なリーダーの有無という特性に分か
れている。これらの特性は、ファイル・フォーマットの構造について知識を得ることが容易か
否かを示している。ファイル・フォーマットに関する知見があれば、電子化保存計画を成功さ
せる確率を増やすことができる。

採用度
採用度という項目は、保管のためのフォーマットとしての国際的な使用状況および文化物
保存の分野での使用状況、という二つの特性からなる。これらの特性はファイル・フォーマッ
トの普及度合いと偏在性を示す。もし、とあるファイル・フォーマットの使用状況がクリティカ
ル・マスに至っているならば、ソフトウェアの開発者らは(商業であろうと、非商業であろうと)、
リーダー・ソフトや編集ソフトなどのファイル・フォーマット用ソフトウェアの開発といったサポ
ートを続けるインセンティヴを持つ。とは言え、文化物保護機関の立場としては、一般的な
普及の度合いだけを考慮することが重要とは言えず、むしろそれ以上に大事なことは、長
期的に文献を保存しようという同じ目的を持っている他の文化物保護機関が使用している
か否かなのである。

複雑さ
複雑さの項目は、(いざという時)人間でも解読可能かどうか、圧縮率、機能の多様性という
特性に分かれている。これらの特性は、デコーダにとって、そのファイル・フォーマットの扱い
がどれほど難しいかを示している。あるフォーマットのデコーディングに大変手間が掛かって、
完全に再表出できないことがあるならば、そのフォーマットは電子化保存と長期的使用性に
関して、危ういものとなる。

技術的保護のメカニズム(DRM)
技術的保護のメカニズムという項目は、パスワード保護、コピー制御、デジタル署名、印刷
保護、コピペ制御の特性からなっている。これらの特性は、(広い意味で)コンテンツへのアク
セスを制限できるかどうかについて、ファイル・フォーマットが有する可能性を示している。コ
ンテンツへのアクセス制限は、電子化文献へのアクセスを(永年)確保するために、電子化
保存戦略のうち、マイグレーションが必要となった際に、問題となるだろう。

セルフ・ドキュメンテーション
セルフ・ドキュメンテーションの項目は、メタデータ、および、フォーマットの技術的仕様の埋
め込みという特性に分けられる。これらの特性は、そのフォーマットが、メタデータの追記を
可能たらしめるか否かを示している。メタデータは、文献に関するものか、フォーマットに関
するものか、どちらかである。例えば、とあるフォーマットが、(著者名、概要などの)文献の
個別情報を追記できるならば、あるいは、各フォーマットの読み方に関するフォーマット特有
情報をヘッダーに入れることができるならば、そのフォーマットは、他のソースに当たる必要
なく情報保存できる。それぞれの電子文献について情報が多いほど、それらの文献は将来
に於いてもよりよく理解される。

ロバスト性
ロバスト性という項目は、特定の支障に対する堅牢性、および、ファイル破損の検出機能を
サポートしているか、ファイル・フォーマットの安定性、前方互換性・後方互換性という特性

www.simpleA.cc
2008 年 6 月 20 日

に分かれている。これらの特性は、時に連れ、フォーマットがどれほど改訂・修正されるか、
また、世代交代する度に、フォーマットはどれほど変わったものになるのかを指し示している。
また、この項目から、ファイル・フォーマットが、ファイル破損からどのように保護されている
のかの情報も得られる。頻繁にフォーマットが変わるのならば、長期的にアクセス可能とす
るための継続性が覚束ない。同様に、ファイル・フォーマットの世代間で違いが甚だしい場
合も、この継続性が危うくなる。ファイル・フォーマットの安定性の得点を決める「新しいバー
ジョンのリリースが殆どない」「新しいバージョンのリリースが幾らかある」「新しいバージョン
のリリースがしばしばある」の三つ特性は、それぞれ「リリースが 10 年に一度」、「リリース
が 5 年に一度」、「リリースは年に一回」に対応している。

独立性
この独立性の項目は、特定のハードウェアに依存するか、特定の OS に依存するか、特定
のリーダーに依存するか、そして、その他諸々の外部リソースに依存するかという特性に分
けられる。これらの特性は、特定の環境なり,フォントやコーデックなどの他のリソースへの、
依存の度合いを示している。特定の環境や外部リソースへの依存度が高い場合、電子保
存並びに長期的なアクセスの可能性にとってはリスクとなる。年月とともに、外部リソースが
無くなることもあろうし、外部リソースが維持されることも難しいだろう、特定環境に高く依存
するということは、フォーマットを扱える場所や空間が限られることにつながる。

項目一覧表、王立図書館で採択した重み付け、それぞれの項目とその得点については、Appendix I
を参照のこと。MS ワード 97 2003 年版と PDF/A-1 に対して実施されたファイル・フォーマット評価方
法の参考例は、Appendix II に記載されている。

ファイル・フォーマット評価の適用について

王立図書館は、e-Depot のコンテンツに関する電子化保存方針を策定済みである。この方針は、e-
Depot に納められる電子文献の電子化保存戦略にとっての最初の一歩である。電子化保存戦略は、
電子文献が生成された時から始まり、後々における文献保存のための活動事項をも規定するもの
だ。王立図書館は、保管に用いるファイル・フォーマットを限定しない。汎用のいかなるフォーマットで
あろうと受け付ける。しかし、王立図書館は推奨の意見を述べ、ファイル・フォーマット評価方法を戦
略決定に使う。

この 10 年の間、王立図書館では多くの電子化プロジェクトが実行された。電子化に関する諸ガイド
ラインの策定も、これらのプロジェクトの一部に入っている。これらのガイドラインは、画質に関する特
定の要件を確実に満たすようにさせるだけのものではない。特定のファイル・フォーマットの使用法
や圧縮(非圧縮ないしは可逆圧縮)の方法などの技術事項やメタデータについて、電子化保存部が
設定した要件を、生成されたマスター・ファイルが確実に満たせるようにするのも、それらのガイドラ
インなのである。電子文献の生成時にどのファイル・フォーマットにするのか十分に検討した上で選
択するには、ファイル・フォーマットの評価方法が重要となる。

電子化されたマスター・ファイルの所有者として、王立図書館はマスター・ファイルの生成過程に多
大な影響を及ぼして来た。しかし、国際的な出版社がデポジットしてきた、ないしは、これからデポジ
ットするであろう何百万もの電子化刊行物に関しては、そうとは言えない。王立図書館は種々の技術
協定を含むデポジット契約を結んでいるのだ(例えば、刊行物の提供の際に、出版社が用いるべきフ
ァイル・フォーマットなどについて)。また、多くの出版社が PDF 形式でデポジットしている為、PDF 形
式での刊行物生成に関するガイドライン(Rog 2007 参照)も作成した。その PDF 形式に関するガイド
ラインは、標準的な保管形式である PDF/A に関するものであるが、非技術者にも読みやすくなって
いる。そのガイドラインには、生成作業のベスト・プラクティスを説明する、PDF 形式の機能の10の
ルールも含まれている。

前述した通り、従来、所蔵刊行物はファイル・フォーマットに関しては単一のものであった。殆どの刊
行物は、バージョン 1.0 から 1.6 までの PDF 形式でデポジットされて来た。これまで、ファイル・フォー
マット評価方法は、この PDF という主流フォーマットが、電子化保存に適しているかを評価する為に

www.simpleA.cc
2008 年 6 月 20 日

用いられて来た。しかし、幾つかの新規プロジェクトによって、書庫の電子コンテンツは近いうちに多
様なものとなる。これが為に、もっと工夫されたファイル・フォーマット評価が必要とされるのだ。

e-Depot の新しいコンテンツに対するファイル・フォーマット評価の適用事例には、DARE プロジェクト


に用いられたフォーマット評価が挙げられる。DARE の所蔵文献は、オランダ大学のレポジトリといっ
た科学系のレポジトリから取り込まれたものである。その殆どの文献は PDF 形式で取り込まれたが、
わずかの文献については、MS ワード、MS パワーポイントといった MS オフィスの書類フォーマット
および、ワードパーフェクト・フォーマットで取り込まれた。王立図書館がファイル・フォーマットのリス
ク評価を実施した結果、MS オフィスおよびワードパーフェクトの書類を、標準の保管形式である
PDF/A に変換するとの決定が下された。その評価方法では、MS ワード書類の得点は 22/100 点。
PDF/A は 89/100 点であった。フォーマット間の得点の差は、開放性、採用度、そして、独立性の三
項目に大きく見られた。これらの三項目において、MS ワードは PDF/A-1 に比してかなり低い得点と
なっている。保存方針に則って、オリジナルのファイルも変換後のファイルも共に長期保存用にレポ
ジトリに納められている。

大変興味深いことに、王立電子化保存連合(略号 NCDD)に王立図書館と共に参加しているとある
機関は、PDF/A が電子データを長期保存するには適さないフォーマットと考えていた。彼らは PDF/A
を使用せずとする真っ当な論拠の一つとして、PDF/A には、データシートと同じ編集機能がないこと
を挙げている。使用可能性項目とその各項目の重み付けに関する、各文化物保存機関の違いを比
較するのは、大変興味深いものだろう。もし各機関が各々のファイル・フォーマット評価を定量的なも
のとするならば、比較も随分容易となる。

ファイル・フォーマットのリスク評価を適用するに当たり、ウェブ情報保管プロジェクトは、近い将来に
大きな問題となるだろう。ウェブサイトには非常に様々なファイル・フォーマットが含まれるものである
し、この新しいコンテンツによって、e-Depot は現在のものとは大きく異なる保存戦略および保存計画
を持つ必要に迫られる。

結果および今後の議論

この論文は、長期保存に関して、ファイル・フォーマットの適性を評価する為に、王立図書館が策定し
たファイル・フォーマット評価方法について論じている。適性は定量化して算出され、その結果は、フ
ォーマットの長期保存適合性を表すゼロ点から 100 点までの幅の得点となって出てくる。こうして、そ
れぞれのフォーマットを比較させることが容易となる。評価する項目も、特性も、また各フォーマットに
付けられた得点も一目瞭然である。

長期保存に最も適するフォーマットを決定する為に、各種フォーマットの間に序列をつけねばならな
い他の機関から、この論文で説明した方法についてフィードバックが寄せられることを王立図書館は
希望している。使用可能性の項目に付いては他の機関にも異論はないように見える。しかしながら、
王立図書館はこれらの項目が正しいものかどうか知りたいのであり、また、各特性毎にフォーマット
に付けられる得点によって、実用的な選択がなされうるものかどうかも知りたく思っている。各項目に
与えられた重み付けは、ここで説明した方法では、固定されてはいない。それぞれの機関の独自の
方針に沿って、重み付けは変更可能である。それ故、王立図書館は、他の文化物保存機関とファイ
ル・フォーマットの定量的リスク評価について議論の場を持ちたいし、また、できれば他の機関のそ
れと比較なども行いたいと考えている。

(リファレンスは訳さない)

著者経歴

カロリーネ・ファン・ワイク Caroline van Wijk (1973 生)は、文学士号および政治学の修士号を有する。


2000 年には Java エンジニアの訓練を終了。その後、2004 年に王立図書館に勤務するまで四年の
間、幾つかのウェブ開発企業に勤務。王立図書館では、2005 年 12 月まで、Tiff ファイル保管庫の
試験計画に技術スタッフとして従事。2006 年以降、ファイル・マイグレーション推進計画に指導的立
場にあり、また、ヨーロッパで推進されているプラネッツ(Planets)というプロジェクトに、電子保存研究

www.simpleA.cc
2008 年 6 月 20 日

員およびワークパッケージ(訳者注:work package とは、言ってみればプロジェクトで様々作られる小


チームのこと)のリーダーとして参加。

ユーディット・ログ Judith Rog(1976 生)は、音声学とスピーチ技術の修士号を 1999 年に取得。オラン


ダの辞書出版社に言語技術者として勤務した後、2001 年、王立図書館に転職。四年間、IT 部に籍
を置いた後、2005 年より電子化保存部に所属。電子化保存部において、ファイル・フォーマットのリ
サーチを主要業務として、各種プロジェクトに参加。

www.simpleA.cc
標準 指標(要素の重み付け) 値
オープン性
標準化されている (9)
2 正式な標準化仕様
1.5 独立した団体によって作られた仕様(デファクト・スタンダード)
1 企業によって作られた仕様(デファクト・スタンダード)
0.5 公開されていない仕様(デファクト・スタンダード)
0 標準化されていない
ファイルフォーマットの解釈に対する制約がある (9)
2 制約がない
1 部分的な制約がある
0 厳しい制約がある
ソースが入手可能な閲覧ソフトがある (7)
2 入手が自由なオープンソースの閲覧ソフト
1 入手が自由な閲覧ソフトだが、オープンソースではない
0 No freely available reader
利用率
世界的に使用されている (4)
2 広範囲で使用されている
1 限定された範囲で使用されている
0 ほとんど使用されていない
資料保存の分野で、アーカイブのフォーマットとして使用されている (7)
2 広範囲で使用されている
1 限定された範囲で使用されている
0 ほとんど使用されていない
複雑性
人間が読めること (3)
2 構成と内容を読むことができる
1 構成を読むことができる
0 読めない
圧縮 (6)
2 非圧縮
1 可逆圧縮
0 不可逆圧縮
フィーチャーのバラエティさ (3)
2 フィーチャーが少ない
1 いくつかのフィーチャーがある
0 多数のフィーチャーがある
技術的なプロテクトの仕組み (DRM)
パスワードによる防護策がある (3)
2 できない
1 オプション設定
0 標準機能
コピーに対する防護策がある (3)
2 できない
1 オプション設定
0 標準機能
電子署名を埋め込める (3)
2 できない
1 オプション設定
0 標準機能
印刷に対する防護策がある (3)
2 できない
1 オプション設定
0 標準機能
内容抽出に対する防護策がある (3)
2 できない
1 オプション設定
0 標準機能
セルフ・ドキュメンテーション
メタデータを埋め込める (1)
2 ユーザが定義したメタデータを埋め込める
1 規定されたメタデータを埋め込める
0 メタデータを埋め込むことはできない
そのフォーマットに関する技術的な説明を埋め込める (1)
2 全ての説明を埋め込める
1 一部の説明を埋め込める
0 できない
堅牢性
データ破損に強い構成となっている
2 強い
1 弱い
0 かなり弱い
ファイルの破損を発見できるサポート機能がある (2)
2 ある
0 ない
ファイルフォーマットの不変性が確保されている (2)
2 新しいバージョンに更新されることが少ない
1 たまに新しいバージョンに更新される
0 頻繁に新しいバージョンに更新される
旧バージョンのフォーマットと互換性が保たれている (2)
2 互換性が高い
1 ある程度の互換性が保たれている
0 保たれていない
次バージョンのフォーマットと互換性が保たれている (2)
2 互換性が高い
1 ある程度の互換性が保たれている
0 保たれていない
依存度
特定のハードウェアに依存しない (8)
2 依存していない
1 若干依存している
0 かなり依存している
特定のOSに依存しない (8)
2 依存していない
1 若干依存している
0 かなり依存している
1種類の特定の閲覧ソフトに依存しない (8)
2 依存していない
1 若干依存している
0 かなり依存している
他の外的資源(フォントやコーデックなど)に依存しない (8)
2 依存していない
1 若干依存している
0 かなり依存している
PDF/A-1 MS Word 97-2000
標準 指標 重み付け
Score Total Score Total
オープン性 3
標準化されている 9 2 6 0.5 1.5
ファイルフォーマットの解釈に対する制約がある 9 2 6 0 0
ソースが入手可能な閲覧ソフトがある 7 2 4.666667 0 0
利用率 2
世界的に使用されている 4 2 4 2 4
資料保存の分野にて、アーカイブのフォーマットとして使用されている 7 2 7 0 0
複雑性 3
人間が読めること 3 1 1 0 0
圧縮 6 1 2 0 0
フィーチャーのバラエティさ 3 1 1 0 0
技術的なプロテクトの仕組み 5
パスワードによる防護策がある 3 2 1.2 1 0.6
コピーに対する防護策がある 3 2 1.2 1 0.6
電子署名を埋め込める 3 2 1.2 1 0.6
印刷に対する防護策がある 3 2 1.2 2 1.2
内容抽出に対する防護策がある 3 2 1.2 2 1.2
ドキュメント自体 2
メタデータを埋め込める 1 2 1 2 1
そのフォーマットに関する技術的な説明を埋め込める 1 0 0 0 0
堅牢性 7
データ破損に強い構成となっている 2 0 0 0 0
ファイルの破損を発見できるサポート機能がある 2 0 0 0 0
ファイルフォーマットの不変性が確保されている 2 2 0.8 1 0.4
旧バージョンのフォーマットと互換性が保たれている 2 2 0.8 2 0.8
次バージョンのフォーマットと互換性が保たれている 2 1 0.4 0 0
依存度 4
特定のハードウェアに依存しない 8 2 4 0 0
特定のOSに依存しない 8 2 4 0 0
1種類の特定の閲覧ソフトに依存しない 8 2 4 0 0
他の外的な資源(フォントやコーデックなど)に依存しない。 8 2 4 1 2
トータルスコア 56.66667 13.9
100%換算 89.01% 21.83%
2008 年 6 月 20 日

おまけ 4:ストレージテスト

序論で述べた通り、このテストを実行する際には 2 つの条件があった。
RGB 各 8 ビットで計 24 ビットのファイルを用いた
2 セットのオリジナルファイルをテストした:片方はコントラストの低いテキスト・ページであり、も
う一つは写真ページであった。

テストイメージは、ポピュラーな物語本をスキャンした 94 枚の画像であり、原本はコントラストが低く、
スキャン条件は 300ppi/24 ビットRGBです* 50 。オリジナルファイルはA5 より小さいものから、A4 より
わずかに大きなフォーマットまで、様々です。

ファイル・フォーマット テストバッチのファ 平均的なファイルサ ストレージ節約率 50 万ファイルの推


及び圧縮 イルサイズ イズ* 51 * 52 計容量* 53
非圧縮 TIFF 623 MB 6.6 MB 3.1 TB
TIFF+LZW 428 MB 4.6 MB 31% 2.2TB
JPEG 10* 54 66 MB 0.7 MB 89% 343 GB
JPEG 8 35 MB 0.4 MB 94% 195 GB
JPEG 6 26 MB 0.3 MB 96% 146 GB
JPEG 1 10 MB 0.1 MB 98% 49 GB
PNG 355 MB 4 MB 43% 2 TB
JPEG2000 ロスレス* 55 298 MB 3.2 MB 52% 1.5 TB
JPEG2000 圧縮率 10 54 MB 0.6 MB 91% 280 GB
JPEG2000 圧縮率 25 25 MB 0.3 MB 96% 146 GB
JPEG2000 圧縮率 50 13 MB 0.1 MB 98% 68 GB

物語本に加えて、写真を RGB スキャンした 104 枚の画像に関しても行われました。結果はほとんど


同等のものでした。

50
Geheugen van Nederland(オランダの思い出)プロジェクトの一環としてスキャンしました。
http://www.geheugenvannederland.nl/?/nl/collecties/straatliederen
51
ファイル数 . 94 .で全ファイルサイズを分割しました。
52
94 個の圧縮ファイルストレージと非圧縮 TIFF(RGB 653GB, grey 218GB )ストレージを比較したパ
ーセンテージ。
53
平均的なファイルサイズを 500,000 倍
54
JPEG Adobe Photoshop scale quality 10
55
フォトショップの Lead JPEG2000 プラグインが使用されている。圧縮量は圧縮率によって設定され
ます。圧縮率 10 は最小の圧縮であり、質的に JPEG10 に匹敵しています。圧縮率 25 は平均的な圧
縮であり、質的に JPEG6 に匹敵しています。圧縮率 50 は強烈な圧縮であり、質的に JPEG1 に匹敵
しています。追加テストは Photoshop native プラグインで実行しました。可逆圧縮は Lead プラグイン
と比較し、わずかに下回る結果を得ました。 Lead プラグイン 53% -Photoshop プラグイン 52%。
Lurawave tool のような、他コンバータによる追加テストの必要性あり。(http://www.luratech.com/
products/lurawave/jp2/clt/)

www.simpleA.cc

You might also like