政府統計のガイドラインの素案として 統計表における機械判読可能なデータ作成に関する表記方法案 が公開された。総じて各項目は良質で、僕のような人間にとってはそういったガイドラインが go.jp 配下のドメインに配置されているだけで癒し効果がある。
何点か気になる点はあったので、総合窓口にて意見を提出しておいた。記録のため、下記にも掲載しておく。
■チェック項目1-3
例3に記載の「欄外での注釈」は不可としてほしい。理由は、データ処理で「どの行以降は注釈」という分岐が必要になってしまうため。代わりに、すでに記載のある「カラムあるいはシートへの切り出し」のみを認める方針にしてほしい。それであれば、安定したプログラムを作成しやすい。
■チェック項目1-12
特殊処理「集計に必要なデータがない」については、慣習に従って表記「NULL」を使うのはどうか。
また「秘匿データ」については not available を意味する「#N/A」を採用するなど、できる限り既存のライブラリに沿った易しい設計としてほしい。
参考:
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html
■他ガイドラインへの参照
今回のガイドライン策定にあたって、国際的な公的機関が公表しているガイドラインなどと互換性があれば、公表するガイドライン内でその旨を明記してほしい。そうすることで、1つのプログラムで他国との比較がしやすくなる利点がある。