セキュリティ研究員コラム

セキュリティ研究員コラム

第1回 データの匿名化

2017.05.29
東京システムハウス

こんにちは。情報セキュリティの研究を行っている佐藤です。最先端のセキュリティ研究と言われると、難しいことを行っているように聞こえますが、そんなことはありません。実はとっても身近な内容が多いです。そんな身近な最先端のセキュリティ研究についてご紹介していきたいと思います。

今回は個人情報の保護について触れていきます。ご存知の通り、最近は個人情報の取扱はとてもデリケートなものとなっております。企業は個人情報の漏えいに敏感となっています。一方で、データの活用も重要な課題となっています。データを公開して活用を促しているケースも見受けられます。ここで、データを公開、もしくは、第三者提供する際に気をつけなければならないのが、個人情報が含まれているかということです。個人情報が含まれていた場合は、個人を特定できないようにデータを加工する必要があります。このように個人を特定できないようにデータを加工することを「匿名化」と呼びます。

匿名化の技術には、マスク処理というものがあります。一部の情報を黒塗りするようなものです。例えば、東京システムハウスの住所は「東京都品川区西五反田7-1-10 ユーズワンビル」です。これを都道府県レベルまでの情報とした場合、「東京都********」となります。
市区町村では、「東京都品川区****」となります。このように一部の情報を隠す処理をマスク処理と言います。

このようにマスク処理により住所を秘匿することが出来ますが、注意しないといけないことがあります。住所を推測するための情報として、郵便番号、電話番号(市内局番)があります(※ 以下、電話番号とは市内局番を含む電話番号とする)。郵便番号、電話番号の情報がある場合、そちらを匿名化が不十分な場合、住所が推測されてしまいます。

今回は、住所と電話番号の組合せについて考えていきます。

東京システムハウスの問合せ先は「03-3493-4601」です。こちらを住所と同じようにマスク処理することで、「03********」となります。電話番号から東京都であることが想像できますね。住所と電話番号を匿名化し、「東京都********」、「03********」となれば、住所の推測は困難です。

東京都以外について調べてみましょう。電話番号の上2桁に対する都道府県は以下のようになります。

 

電話番号の
上2桁
都道府県
01 北海道、青森県、秋田県、岩手県
02 宮城県、山形県、福島県、新潟県、長野県、群馬県、茨城県、栃木県、埼玉県 
03 東京都
04 東京都、埼玉県、神奈川県、山梨県、千葉県、静岡県、茨城県
05 愛知県、静岡県、山梨県、三重県、岐阜県、長野県
06 大阪府、兵庫県
07 大阪府、兵庫県、和歌山県、三重県、滋賀県、京都府、奈良県、石川県、富山県、福井県
08 広島県、山口県、島根県、鳥取県、岡山県、香川県、高知県、徳島県、愛媛県
09 福岡県、長崎県、佐賀県、熊本県、大分県、沖縄県、宮崎県、鹿児島県

 

例えば電話番号が「05********」の場合は、愛知県、静岡県、山梨県、三重県、岐阜県、長野県の何れかとなります。これだけからは、住所は推測が困難です。しかし、「長野県********」、「05********」となった場合は、どうでしょうか?

実は、長野県には、「05」以外にも「02」が割り当てられています。したがって、長野県で「05」となる地域は、長野県の一部となります。長野県で「05」から始まる箇所は、実は「長野県木曽郡南木曽町田立」のみとなります。人口は約1000人のようです。「長野県」で電話番号が「05」から始まるという情報のみで、かなり具体的な住所が特定でき、個人の特定も出来そうです。

今回は、住所と電話番号を見ていきました。このように、それぞれの情報では十分に匿名化が出来ていた場合でも、それを組合せることにより、個人の推測が可能になることがあります。このように、データの匿名化は複数のデータの組合せを考慮していく必要があります。

 次回は、データの匿名化において安全性の評価に用いられる「k-匿名性」についてお話ししたいと思います。