한국여성정책연구원

여성가족 빅데이터의 활용을 통한정책 개선과 발굴(Ⅱ)
구분	기본	분야	사회/문화
연구자	문유경/전기택/김영택/정성미/배호중/정희태/김유정
발간년도	2019
첨부파일	(보이스아이)여성가족 빅데이터의 활용을 통한 정책 개선과 발굴(Ⅱ).pdf ( 162.01 MB ) [미리보기]
목차 국문요약 Ⅰ. 서 론 1 1. 연구필요성과 목적 3 2. 연구내용 및 방법 5 가. 연구내용 5 나. 연구방법 7 Ⅱ. 여성가족 빅데이터의 연구 배경 11 1. 여성가족 빅데이터의 개념과 범주 13 2. 빅데이터 정책의 여성가족 관련성 15 가. 국정과제의 빅데이터 정책 15 나. 공공데이터 정책 16 3. 국제기구 및 주요 선진국의 구축과 활용사례 19 가. 유엔 데이터투엑스(Data2X) 현황 19 나. 미국, 유럽연합 등의 여성 빅데이터 정책과 활용 28 Ⅲ. 빅테이터 활용과정에서의 성차별 가능성과 대응방안 37 1. 문제제기 39 2. 빅데이터 알고리즘의 중립성에 관한 논의 40 가. 알고리즘 중립성의 정의 40 나. EU의 알고리즘 중립성 논의 42 다. 미국의 알고리즘 중립성 논의 47 3. 빅데이터 자료수집과 알고리즘의 차별 가능성 50 가. 빅데이터 라이프 사이클 51 나. 빅데이터 수집 통합과정에서의 차별 가능성 52 다. 빅데이터 알고리즘의 차별 가능성 55 4. 빅데이터 자료수집과 알고리즘의 성차별 사례 59 가. 해외 구인광고 추천 알고리즘 60 나. 국내 신용정보회사의 소득추정 알고리즘 60 다. 국내 구인구직 추천 알고리즘 62 라. 국내 보험 인수심사 알고리즘 63 5. 빅데이터 차별 방지를 위한 방안 64 가. EU의 일반 개인정보보호법(GDPR)에서의 알고리즘 규제 방안 64 나. 미국의 빅데이터 알고리즘에 대한 대응 65 다. 빅데이터 차별 방지를 위한 전략제안 66 6. 결 론 68 Ⅳ. 여성안전 분야의 공간빅데이터 활용방안 69 1. 연구배경 및 목적 71 2. 연구의 내용과 방법 72 3. 공간빅데이터의 정책동향 및 활용사례 74 가. 공간빅데이터의 정의와 중요성 74 나. 공간빅데이터 정책동향 78 다. 공간빅데이터 활용사례 81 4. 여성안전을 위한 공간빅데이터 시범분석 88 가. 시범분석 주제와 분석방법 88 나. 자료수집 및 분석과정 90 다. 분석결과 109 5. 여성안전 분야 공간빅데이터 활용을 위한 정책제언 116 가. 분석결과의 한계 116 나. 공간빅데이터 활용을 위한 정책제언 117 Ⅴ. 빅데이터를 이용한 여성의 고위험음주 분석과 정책대안 121 1. 서론 123 가. 연구배경 및 목적 123 나. 연구의 내용과 방법 125 2. 여성 고위험음주 현황 및 추이분석 126 가. 여성 고위험음주 추이 126 나. 여성 고위험음주 현황 129 3. 신용카드 빅데이터를 활용한 여성 주류소비 현황 및 추이 분석 132 가. 신용카드 이용 여성의 주류소비 현황 132 나. 여성의 주류소비 추이 133 다. 주류소비 여성의 특성과 맥락 분석 137 4. 건강보험공단 빅데이터를 활용한 여성 고위험음주의 폐해 결과 144 가. 음주기인질병으로 인한 의료서비스 이용 및 의료비 추이 145 나. 음주수준에 따른 의료서비스 이용 및 의료비 146 5. 여성 고위험음주에 대한 정책제언 149 가. 주요 연구결과 149 나. 성인지적 음주예방정책이 가지는 정책적 함의 150 다. 빅데이터에 기반한 건강증진연구 방법론에 대한 함의 151 Ⅵ. 소셜 빅데이터를 이용한 미투담론의 파급양상 분석 153 1. 연구의 목적과 방법 155 가. 사회관계망서비스와 미투운동의 발생 155 나. 연구의 목적 157 다. 연구 대상과 방법 157 2. 기초분석 159 가. 미투운동의 사건별 흐름 159 나. 게시글 분석 164 다. 댓글 및 재댓글 분석 171 3. 영향력자 분석 174 가. 영향력자의 분석의 의의와 도출과정 174 나. 영향력자의 소셜 액션 현황 175 다. 영향력자의 성향 분포 178 라. 영향력자의 집단별 소셜 액션 현황 184 마. 상위 50위 영향력자들의 관계망 분석 187 4. 분석의 결론과 정책적 함의 188 <이하 원문 확인> Ⅰ. 서론 가. 연구 목적과 내용 ○ 컴퓨터 산업의 발달에 따라 이전에는 불가능하였던 이질적이고 다양한 정보를 결합한 빅데이터의 생성과 분석이 가능해지고 있음. 이에 따라 빅데이터의 산업적 가치와 함께 정책적 중요성이 날로 커지고 있음. 여성과 가족 정책연구 역시 빅데이터를 활용하여 기존의 연구방법으로 다루지 못했던 새로운 주제와 결과를 얻을 수 있을 것으로 예상됨. ○ 여성가족 빅데이터 연구는 크게 두가지 범주의 수요가 예상됨. 첫째 빅데이터 자체에 대한 기초 연구임. 여성가족 정책과 연구에 필요한 혹은 생산가능한 빅데이터가 무엇인지, 이 데이터의 생산을 위해 요구되는 기술과 분석과정은 무엇인지, 향후 활용이 가능한 범주는 무엇인지 등 전반적인 활용 현황과 활용 가능성에 대한 연구가 필요함. 둘째 기초 연구와 함께 여성가족 부문에서 당면한 문제를 해결하기 위한 본격적인 연구에 앞서 시범분석 연구가 필요함. 빅데이터 분석이 효과적일 가능성이 크고, 시급성이 있는 연구주제를 선택하여 빅데이터 자료를 수집, 가공하고, 자료에 적합한 분석방법을 시도해봄으로써 향후 여성가족 빅데이터 연구에 시사점을 줄 수 있을 것임. ○ 본 연구는 3차년도(2017년~2019년)에 걸친 장기 과제임. 전체과제의 목적은 첫째 여성가족 연구와 정책결정에 있어 빅데이터를 용이하게 활용할 수 있도록 데이터의 개선, 관리, 공유방법을 모색하는 것임. 둘째 여성정책의 집행과 수혜의 불일치가 큰 정책, 사각 지대가 있는 정책 등 빅데이터의 활용효과가 큰 정책을 선정하여 시범으로 분석하여 빅데이터의 활용가능성을 탐색하는 것이며 셋째 시범 분석결과를 이용하여 여성정책의 개선과제를 도출하는 것임. 2차년도인 2018년에는 기본 목적인 여성가족 빅데이테 활용기반 조성을 위해서 첫째 국제기구와 주요 국가의 여성관련 빅데이터 추진 정책을 살펴보았고, 둘째 빅데이터의 활용수준이 높은 공간데이터가 여성연구에 어떻게 활용될 수 있을지를 모색하였으며, 셋째 빅데이터의 활용에 있어서의 성차별 가능성과 이에 대한 방안을 연구하였음. 두 번째 기본 목적인 부문별 시범분석으로는 첫째, 여성의 고위험음주의 현황과 이에 따른 대책에 대해 기존의 통계자료, 신용카드 자료, 건강관련 공공부문 빅데이터자료를 연계하여 심층분석을 시도하였음. 둘째, 공간과 시설, 위치정보 등을 결합한 공간빅데이터가 여성의 안전정도를 얼마나 설명할 수 있는지에 대한 분석을 시도해보았음. 마지막으로 올해 큰 이슈가 된 “미투운동”에 대한 소셜 데이터 상의 담론에 대한 파급양상을 분석하였음. [그림 ⅰ-1] 연도별 부문별 연구목표 나. 연구 방법 ○ 국내외 문헌 및 자료 수집. - 빅데이터를 비롯한 데이터 정책과 관련된 연구문헌과 정책자료를 수집하여 검토. - 여성과 빅데이터 관련 연구문헌과 정책 자료 수집 및 검토. ○ 민간과 공공부문의 여성가족과 관련된 빅데이터 활용 사례의 수집. ○ 유형별 빅데이터의 원자료를 검토하고 활용가능한 빅데이터의 원자료 수집과 분석을 시도. ○ 다양한 전공자들과의 교류를 위해 산학연 협동연구의 형식으로 관련 기관에 과제를 위탁하고, 빅데이터 전공자들과 교류를 함. - 위탁과제의 주제선정은 연구진 회의와 전문가 자문회의를 거쳤으며, 연구제안서는 원내 연구심의위원회의 심의를 받음. 선정된 위탁과제는 착수보고회, 중간보고회, 결과보고회, 자체 전문가 자문회의를 개최하여 단계별로 의뢰기관과 수행기관과의 의견차이를 좁히고, 창의적인 해결방안을 모색하였음. <표 1> 위탁과제명과 수행기관 과제1: 빅데이터를 활용한 여성의 고위험음주 분석과 정책대안(인제대학교 수행) 과제2: 여성안전분야의 공간빅데이터 활용방안 (국토연구원 수행) - 소셜 네트워크 데이터의 수집과 분석은 민간 빅데이터 업체인 아르스 프락시아의 협력으로 수행되었음. ○ 여성연구자들에게 빅데이터에 대한 이해를 높이고, 다학제간 교류를 위하여 다학제간 융복합적 세미나를 4회 개최하였음. 다양한 분야의 빅데이터 전문가를 초청하여 원내외 여성문제 연구자들과 의견을 교류하였음. <표 2> 여성과 빅데이터 세미나: 빅데이터 연구방법론과 젠더 이슈 ○ “여성가족 빅데이터 심포지엄”을 개최하여 1년간의 연구결과를 여성 연구자들 및 정책관련자들과 공유하고, 전문가들의 토론의 장을 마련함. <표 3> 여성가족 빅데이터 심포지엄 프로그램 ○ 산학연 협동연구의 전략 도출을 위해 착수보고와 중간보고 등 전문가 자문회의시 학계와 정부는 물론 기업의 빅데이터 종사자를 아울러 초청하였음. 참석자들의 전공은 사회학, 경영학, 여성학, 경제학, 사회복지학, 의료사회학, 사회심리학, 통계학, 교통공학, 공학, 지리학, 전산학 등임. ○ 여성가족 빅데이터의 연구결과에 대한 공감대를 형성하고 빅데이터 현업 종사자와 연구자들과의 네트워킹을 넓히고, 정보 및 사례를 수집하기 위해 국내 주요 빅데이터 세미나와 포럼과 교육 및 자문회의, 교육 등에 참석하였음. <표-4> 연구진이 참석한 빅데이터 세미나 Ⅱ. 여성가족 빅데이터의 연구배경 가. 여성가족 빅데이터의 개념과 범주 문유경 외(2017)의 『여성가족 빅데이터의 활용을 통한 정책개선과 발굴』의 15~18쪽과 문유경 외(2016)의 「여성가족 빅데이터 활용을 위한 기초연구」의 7-18쪽을 기초로 재작성함. ○ 여성가족 빅데이터의 개념에 대한 학술적인 혹은 사회적인 논의는 현재 시작단계임. 본 연구에서는 성평등, 성별 차이, 여성의 지위향상, 성평등한 가족 등의 연구와 정책수립에 필요한 빅데이터를 여성가족 빅데이터의 개념으로 상정하였음. ○ ‘여성가족 빅데이터’의 개념은 다시 두 차원으로 나눌 수 있음. 광의로는 ‘모든 빅데이터에 성인지적 관점을 반영하여 빅데이터를 재가공, 재분석하는 경우“임. 즉 성차별, 성별차이, 여성의 상태 등을 파악하기 위해 데이터의 수집에서 결과발표에 이르는 과정 중의 하나 혹은 전과정을 성인지적으로 재구성한 것을 말함. 예를 들어 국민건강보험공단의 빅데이터를 이용하여 노년기의 성차에 대한 빅데이터를 가공한다면 후자가 여성가족 빅데이터로 볼 수 있을 것임. 협의로는 ‘여성가족 정책과 관련된 부처 및 기관에서 발생하는 자료들의 다양한 결합으로 여성가족 빅데이터를 생산하는 경우’로 설정할 수 있음”(문유경 외, 2017,p.16). ○ 협의의 여성가족 빅데이터를 생산하기 위해서는 여성가족부와 여성정책연구원 등 관계부처와 기관의 관심이 필요함. 즉 여성가족 정책과 연구의 수행과정에서 발생하는 자료들을 빅데이터의 원천자료의 개념으로 설정하여, 업무설계를 검토할 수 있음. 나. 빅데이터 정책의 여성가족 관련성 1) 국정과제의 빅데이터 정책 ○ 「문재인정부 국정운영 5개년 계획」(국정기획자문위원회, 2017)의 국가비전과 5대 국정목표, 20대 국정전략, 100대 국정과제를 보면 빅데이터가 표면적으로 언급되지는 않고 있음. 다만 국제과제의 과제목표, 주요내용, 기대효과 중에 언급되어 있음. <표-5> 100대 국정과제 중 “빅데이터” 출현 내용 ○ 국정과제에서 등장하는 빅데이터 내용은 행정, 금융, 복지, 안전 등의 도구로서의 빅데이터 활용에 초점을 두고 있음. 4차 산업혁명의 원천자원으로서 데이터의 중요성을 감안할 때, 국정과제에서의 빅데이터 정책은 데이터의 생산에서 활용까지의 전 과정을 포괄하지 못하고 있다는 점에서 아쉬움이 있음. ○ 여성과 가족에 관련된 내용으로서는 “빅데이터를 활용한 위기아동 조기발견 시스템 구축”이 있음. 향후 위기아동에서 대상 범위를 넓혀 가정폭력과 성폭력피해 여성에게도 이 시스템의 적용을 모색해 볼 수 있음. 2) 공공데이터 정책 ○ 2018년에 발표된 ‘공공데이터 혁신전략’은 현 정부의 데이터 정책을 축약한 것임. 이 전략은 국민들에게 공공데이터를 개방하여 접근과 활용을 가능하게 함으로써 사회적 가치를 창출하게 하는데 초점을 두고 있음. ○ 이 전략에 대해 여성가족의 관점에서 두 가지를 제안함. 첫째 데이터 접근과 활용이 인구집단간 격차가 있을 가능성이 있기 때문에 취약집단에 대한 추가적인 전략이 필요함. 둘째 데이터의 생성과 활용의 중립성과 차별가능성에 대한 점검임. 빅데이터의 수집과 분석은 원천 데이터의 생산목적과 상이할 수 있으며 이 과정에서 편파성, 차별성이 발생할 수 있음. 이러한 편파성과 차별성은 데이터의 활용으로 더욱 커질 가능성이 있으므로 데이터의 활용에 대한 점검이 필요함. 다. 국제기구 및 주요 선진국의 구축과 활용사례 1) 유엔 Data2X의 빅데이터 활용 현황 Gender Data Gaps-data2x. https://www.data2xorg.what-is-gender-data/ gender-gaps. 2018.4.28. 접속. ○ Data2X는 세계 여성들의 삶의 질 개선을 목표로 성별 데이터 질 및 활용에 대한 기술 및 지원 플랫폼으로 정의될 수 있음. Data2X는 성별 데이터 수집을 장려하고 성별 데이터를 활용하여 정책 의사 결정을 개선하는 데 주요 목적을 두고 있음. ○ 성 인지적 데이터 활용을 통하여 여성과 소녀에 대한 정책 발굴 및 글로벌 개발 아젠다를 구축하기 위하여 유엔 기관, 지역기구, 민간 부문 파트너 및 국가와 협력하는 파트너쉽을 강조하고 있음. ○ Data2X는 대용량, 다양성, 빠른 속도라는 특징을 가진 빅데이터를 활용하여 여성의 삶의 질 개선에 관한 연구와 조사를 장려하고 있음. 빅데이터의 효과적인 활용은 성인지적 정책 개발 및 여성을 위한 효율적인 서비스와 프로그램을 개발할 수 있다는 점을 강조하고 있음. Gender Data Gaps-data2x. http://www.data2xorg.what-is-gender-data/ gender-gaps. 2018.4.29. 접속. ○ 최근 Data2X는 UN Global Pulse와 협력하여 "빅데이터와 여성과 소녀의 복지" 라는 주제 아래 시범사업을 실시하고 여성의 삶의 질 개선을 위한 빅데이터 활용 가능성을 높이고자 노력하고 있음. 시범사업에서 빅데이터의 위성 이미지, 통화 내역 기록, 신용 카드 및 소셜 미디어를 통해 여성과 소녀의 삶의 질 개선 방안에 대한 이해를 증진시킬 수 있는 방법을 제시하였음. ○ Data2X는 빅데이터를 활용하여 성 인지적 데이터 격차(gender data gap)를 줄일 수 있는 혁신적인 방법을 공모하여 아래의 10개 프로젝트를 선정하였음 Gender Data Gaps-data2x. http://www.data2xorg.what-is-gender-data/ gender-gaps. 2018.4.29. 접속. <표-6> 데이터 격차의 감소를 위한 프로젝트 주제들 ○ 2018년 개최된 ‘지속가능한 발전을 위한 데이터’에서 제시된 Data2X의 임무는 아래와 같음 Rebecca Furst-NIchols, Bapu Vaitla (2018). Webinar series Data for sustainable development. Big Data and the Global Gender Gap: The Promises and Perils of Digital Information.https://sdtalks.unssc.org/en/video/54-sd-talks-special-series-on-data-for-sustainable-development-3-big-data-and-the-global-gender-gap-the-promises-and-perils-of-digital-information.2018.5.1. 접속. - 확장되고 편향적이지 않고 혁신적인 젠더 데이터 수집을 장려함. - 긴급하고 중요한 젠더 데이터 격차 차이를 발견함. - 젠더 데이터 격차를 줄이기 위한 파트너십을 주도함. - 보다 나은 젠더 데이터 활용을 통해 정책 의사 결정을 홍보함. - 삶의 질과 여성과 남성 모두를 위한 결과를 가져오기 위해 젠더 데이터를 개선하고 사용하는 방법에 대해 교육함. 2) 미국와 유럽연합의 여성관련 빅데이터 현황 ○ 미국은 일찍이 금융시장을 비롯하여 다양한 분야에서 빅데이터를 활용하고 있었으며, 정부차원에서 데이터 기반 한 의사결정에 부처 간 협업 및 민관협업을 통해 시너지를 내도록 장려하고 있음. ○ 2009년 빅데이터 플랫폼인 DATA.GOV를 구축하여 농업, 기후, 소비, 친환경시스템, 교육, 에너지, 금융, 의료, 지방정부, 제조업, 해양, 공공안전, 과학 및 연구 영역으로 나누고 각 분야의 오픈데이터 및 빅데이터를 제공. ○ 한편 유럽연합은 미국에 비해 빅데이터 시장이 활발하지 않고, 금융영역을 제외하고 제한적으로 형성되어 있음. 공공부문 데이터 활용의 중요성이 대두되며 2011년제한으로 12월 데이터 개방전략(ODS: Open Data Strategy)’을 발표한 이후 EU기구와 27개 회원국이 생산하는 모든 공공정보와 데이터를 의무적으로 공개하고, 사용자들이 공공기관의 공공데이터를 자유롭게 이용할 수 있도록 함. ○ 2014년 빅데이터 플랫폼인 데이터 포털을 개설하여 유럽국가 관련 모든 공공정보와 데이터를 집중시키고 공개하고 있는데, 주제 범주가 DATA.GOV 보다 폭넓어 농업, 에너지, 지역, 교통, 경제 및 금융, 국제이슈, 정부와 공공부문, 법과 제도, 환경, 교육·문화·스포츠, 의료, 인구와 사회, 과학과 기술을 다루고 있음. ○ 그러나 두 데이터 플랫폼에서 여성·가족 영역은 따로 존재하지 않고 있으며 세부 주제로 일부 여성과 연관된 내용을 찾아야 하는 한계가 있음. Ⅲ. 빅데이터 활용과정에서의 성차별 가능성과 대응방안 가. 문제제기 ○ 빅데이터 알고리즘의 활용이 보편화되면서 부정적 결과들이 발생함. 이에 알고리즘의 공정성, 중립성, 투명성에 대한 문제 제기됨. 나. 빅데이터 알고리즘의 중립성에 관한 논의 1) EU의 알고리즘 중립성 논의 ○ EU는 개인정보보호법(GDPR)을 통해 개별 사람에게 적용되는 알고리즘의 중립성을 의심하고 이에 대처하기 위한 알고리즘 적용거부권을 명시하였음. - 22조 프로파일링 등 자동화된 개별 의사결정에 명시함. “프로파일링이란 개인에 관한 특정한 측면 특히, 업무능력, 경제상황, 건강, 개인의 성향이나 관심사, 신뢰도, 행동, 위치, 이동 등을 분석 및 예측하기 위해 개인정보를 사용하는 모든 개인정보의 자동처리 형태를 의미“(GDPR 제 4조 (정의)) - 알고리즘은 중립적이지 않을 수 있음 명시. - 알고리즘의 적용을 거부할 수 있음. - 알고리즘 처리를 대상자가 납득할 수 있도록 설명하고 사람의 개입에 의해 보정되어야 함을 강조. 2) 월드와이드웹 재단의 알고리즘 책무성 ○ 3W 재단은 다양한 알고리즘들이 편견과 차별을 가질 수 있음을 제기하고 이의 원인과 방지하기 위한 원칙을 제시함. ○ 그 원인으로 편향되거나 품질이 낮은 입력데이터, 잘못 적용된 규칙, 상황인식(contextual awareness)의 부족, 오류의 반복 재생산 등을 지적함. ○ 이를 방지하기 위한 원칙으로 공정성, 설명가능성, 검증성, 책임성, 정확성 등을 제시. 3) 미국의 알고리즘 중립성 논의 ○ 미 연방 공정거래위원회와 백악관은 빅데이터 알고리즘이 기회와 우려가 동시에 있음을 밝히고 우려가 현실화하는 것을 방지하기 위한 노력이 필요함을 제기함. ○ 빅데이터 알고리즘은 양면성 보유함. 즉 유용하고 가치있는 수단이면서 소비자 특히 소득이 낮은 취약계층에게는 해를 끼칠 가능성 경고. 다. 알고리즘의 차별 가능성 ○ 차별적 알고리즘이 발생하는 원인적 요소로는 알고리즘의 입력 데이터 측면과 알고리즘의 측면으로 크게 살펴볼 수 있음. [그림 ⅲ-1] 알고리즘의 차별가능성 발생요소 1) 데이터의 대표성 ○ 빅데이터 분석이 기반하는 데이터셋은 특정 인구집단의 데이터가 상대적으로 부족한 데이터셋인 경우가 대부분임. ○ 수집되는 빅데이터는 분석목적에 맞는 모집단을 대표하고 있지 않음. ○ 사례: 보스톤의 스트리트 범프(Street Bump) - 스마트폰 GPS 데이터 기반으로 도로상태 정보를 제공하여 도로상태의 개선에 기여. - 저소득층 지역의 도로정보가 부족하여, 고소득층 지역중심으로 도로 개선 집중, 의도하지 않게 소득지역별 차별. 2) 데이터의 정확성 ○ 디지털 시스템에 의해 발생되는 빅데이터는 정확하다고 생각하지만 실제로는 부정확한 데이터가 많음. ○ 빅데이터는 불필요한 데이터(garbage data)가 많아 데이터의 정제 작업이 중요함. 3) 데이터의 편견성 ○ 빅데이터는 기존에 특정한 고유의 목적으로 생성된 데이터로 데이터가 생성된 맥락과 특성이 미리 존재함. ○ 빅데이터 사용 시, 이러한 사전적 맥락을 파악하고 활용해야 함. 4) 기존 차별의 재생산 ○ 과거의 데이터의 패턴을 학습한 알고리즘은 기존의 차별패턴을 재생산하거나 강화할 수 있음. ○ 사례: 구글 광고추천 알고리즘: 범죄기록정보 웹사이트 - 링크광고 게시비율 (흑인이름 > 백인이름) (Sweeney, 2013: 16) - 광고추천이라는 상업적 목적의 알고리즘이 기존 사회의 인종적 편견을 학습하고 재생산 5) 보호되어야 할 속성의 대리정보화 가능성 ○ 미국의 기존 법들은 보호되어야할 속성(protected characteristics:인종, 피부색, 성별, 종교, 연령, 장애, 출신국가, 결혼지위 그리고 유전적 정보 등)에 기반한 차별을 금지함. ○ 빅데이터는 보호되어야 할 속성의 대리정보를 생성하여 차별을 재생산할 수 있음. 알고리즘 개발자들은 의도적인 것을 비의도적인 것으로 가장할 수 있음(Ohm, 2014: 10). 6) 의사-상관관계 ○ 빅데이터 분석은 방대한 데이터의 막강한 분석을 통해 가설을 구성하지 못했던 패턴과 관계를 찾아내는 능력 강조(예: 맥주와 기저귀 연관구매). ○ 빅데이터 알고리즘은 상관관계를 인과관계로 가정하는 경향이 있고 인과관계의 가정은 차별을 유도하는데 사용될 가능성이 있음. 라. 알고리즘의 성차별 사례 ○ 채용과 승진에서의 성적 차별구조는 빅데이터 알고리즘에 의해서도 재생산되고 있음. 1) 구글 직업광고 알고리즘 사례 ○ 카네기멜론 대학의 연구팀은 AdFisher라는 툴을 만들어 알고리즘의 직업적 성차별을 증명함(Datta et al., 2015:152). - 동일한 경력과 속성을 가진 가짜 계정을 만들고 이것에 성별만 변경하여 CEO 직업광고에 동일한 횟수로 노출시킴. - 그 결과 구글 직업광고 알고리즘은 남성 계정에는 1852회, 여성계정에는 318회 CEO 직업광고가 제시됨. - 구글의 직업광고 알고리즘은 기존의 성차별적 편견 데이터를 학습하여 차별을 재생산하고 있음. 2) 국내 신용정보회사의 소득추정 알고리즘 사례 ○ 보험 인수심사에 빅데이터 알고리즘을 적극적으로 도입하면 여성이 부정하게 인수거절 당할 가능성이 존재함. ○ 보험 업무프로세스에 빅데이터 분석기반의 인공지능 도입. 인수심사 부분에도 업무효율성 제고 및 손해율 감소를 위한 알고리즘 도입 가속화. ○ 생명보험상품에서 여성의 손해율이 높으며 개인추정소득이 일정규모 이하이면 손해율이 높다고 보고(정재욱 외, 2010:11-15). ○ 이러한 연구결과들과 데이터를 학습한 인수심사 알고리즘은 보험상품 규정에 여성을 차별적으로 판매할 수 있다는 허가가 없어도 인수심사 알고리즘을 통해 자동으로 차별당할 수 있음. 마. 빅데이터 차별 방지를 위한 방안 ○ 이에 우리나라에서도 공공연구기관을 중심으로 기존의 빅데이터 알고리즘에 대한 사회적 차별을 검사하고 빅데이터 라이프사이클 상의 구체적인 가이드라인을 정립할 필요가 있음. 아울러 알고리즘 감사(algorithm audit) 및 외부검사(external testing)를 규제준수 서비스업으로 발전시킬지를 빅데이터 산업의 양적 질적 확산이라는 차원에서 검토할 필요가 있음. Ⅳ. 여성안전분야의 공간빅데이터 활용방안 가. 연구배경 및 목적 ○ 최근 여성혐오 살인과 성폭력 증가 등으로 인해 여성안전에 대한 관심이 증가. - 충북경찰청과 충청북도는 유흥가와 대학가 주변, 원룸촌 등 여성 안전 취약지역의 편의점에 여성의 귀가를 도와주는 반딧불편의점을 운영함. - 사용자의 위치를 실시간으로 추적하고 위험상황 발생시 보호자와 경찰에 알릴 수 있는 ‘안심귀가 앱’ 활용 등 스마트 치안체계도 늘어나고 있음. ○ 본 연구의 목적은 최근 빅데이터로 주목받고 있는 유동인구와 신용카드 자료를 활용하여 여성의 안전과 관련이 있는 지리공간적인 요소와 특성을 파악하는 것임. ○ 공간빅데이터의 정의와 중요성, 활용 동향을 조사하고 실제 공간빅데이터를 범죄예방이나 검거에 활용한 사례를 조사하여 시사점 도출. ○ 빅데이터를 지도로 변환하여 여성안전 관련 정밀한 지리공간적 진단이 가능한지를 알아보기 위한 시범분석 수행. 나. 공간빅데이터의 정책동향 및 활용사례 ○ 지리공간정보(geospatial data)는 현실세계에 존재하는 지형지물을 래스터(raster)나 벡터(vector)로 표현하고, 관련 속성정보(attribute)를 연결한 데이터를 말함. ○ 공간빅데이터는 위치정보를 가지고 있는 빅데이터를 지리공간정보로 변환한 것을 의미하며, 넓은 의미에서는 지적도, 도로망도, 3차원 지형을 표현한 수치표고모델(DEM, Digital Elevation Model), 3차원 영상 등 기존의 벡터와 래스터 형태의 지리공간자료를 공간빅데이터에 포함시킬 수 있음. - 인공위성, 항공기, 드론, CCTV와 같은 각종 센서, 스마트 폰 등의 기기들이 생산하고 있는 지리공간자료를 종합적으로 분석해야 함. ○ 공간빅데이터 구축사업이 국내외에서 추진되고 있음. - 국토교통부는 공간빅데이터 구축사업과 연계하여 공간 빅데이터의 분석 및 활용기술 개발 사업을 2014년도부터 수행하여, 공간 빅데이터 플랫폼 및 서비스를 활용한 재난, 재해, 범죄 등 국민생활밀착형 사회문제의 예측 및 분석정보를 제공함. - 영등포구는 ‘2018년 영등포 빅데이터 분석 사업’의 일환으로 ‘여성안전 빅데이터 셉테드 협업 플랫폼’을 전국 최초로 구축하여, 여성 대상 범죄 발생을 예방함. - 미국의 프레드폴(Predpol)은 빅데이터 기반 범죄 예측시스템으로 범죄 장소와 시간을 예상하여 경찰관을 선제적으로 배치하고 범죄를 예방할 수 있도록 돕는 예측치안(Predictive Policing)의 가장 대표적인 사례임. 다. 여성안전을 위한 공간빅데이터 시범분석 결과 ○ 여성안전을 위한 공간빅데이터 시범분석을 위해 폭력 위험등급과 공간특성의 상관관계 분석을 서울특별시 강남구 일대를 대상으로 실시함. - 해당 지역의 유동인구, 유흥업종 카드매출, 경찰서, CCTV와 보안등과의 최단거리 등의 공간특성(독립변수)이 성폭력 위험등급(종속변수)에 미치는 효과에 대한 경험적 분석을 실시함. ○ 다양한 변수들이 성폭력 발생 등급에 얼마나 영향을 끼치는지를 확인하고, 공간적 상관관계를 분석하고자 분석용 데이터를 구축하였음. - 행정안전부 생활안전 지도서비스의 OpenAPI, 현대카드사의 월별 카드매출데이터, 통신회사의 유동인구 데이터, CCTV, 보안등, 경찰서 및 지구대 위치 등 생활안전인프라 관련 데이터 등 종합적인 공간 데이터를 구축함. ○ 분석용 테이블을 성폭력 발생현황 XY좌표, 위험 등급, 위험 등급 위치별 반경 100m 내 평균 카드매출액, 최근접 경찰서 거리, 최근접 CCTV 거리, 최근접 보안등 거리, 반경 100m 내 30대 남성의 평균 유동인구, 포인트 반경 100m 내 20대 여성의 평균 유동인구 등으로 정의하고 공간분석을 수행함. - 공간상관을 고려하지 않는 일반 OLS(Ordinary Least Squares, 최소자승법)는 CCTV와의 거리를 제외한 신용카드 매출액, 경찰서와의 거리, 보안등과의 거리, 30대 남성 유동인구 평균, 20대 여성 유동인구 평균 모두 유의미한 결과를 가짐. - 그 중에서 30대 남성 유동인구와 20대 여성 유동인구의 평균은 0.01의 유의수준에서 정(+)의 상관관계를 가지며, 이는 30대 남성 유동인구와 20대 여성 유동인구가 많을수록 성폭력 위험등급이 높다는 것을 의미함. ○ SEM(Spatial Error Model, 공간오차모형)과 SLM(Spatial Lag Model, 공간시차모형) 모형은 공간자기상관을 고려하지만 공간자기상관성을 에러 혹은 변수로 보는지 그 차이에 따라 결과가 다르게 나타남. - SEM의 경우 경찰서와의 거리, 보안등과의 거리, 30대 남성 유동인구 평균, 20대 여성 유동인구 평균이 유의미하게 나타났으며, 30대 남성 유동인구 평균이 가장 영향력이 높은 변수임을 알 수 있음. - SLM의 경우 신용카드 매출액, 경찰서와의 거리, 30대 남성 유동인구 평균, 20대 여성 유동인구 평균이 유의미한 변수이지만 두 개의 유동인구 변수만 정(+)의 상관관계를 보임. - 한편 지리가중회귀분석(GWR)은 각각의 독립변수마다 발생현상이 상이하게 나타나는 것을 의미하며, 성폭력 발생현황과 변수 간 공간특성의 상관관계는 다음의 [그림 ⅳ-1]과 같음. [그림 ⅳ-1] 지리가중회귀분석(GWR)의 독립변수별 시각화 라. 여성안전 분야 공간빅데이터 활용을 위한 방안 ○ 지리공간적인 접근으로 정밀한 진단과 맞춤형 처방이 필요. - 여성안전분야에 효과적인 맞춤형 정책을 발굴하기 위해서는 지리공간적인 접근이 유용하다는 것을 알 수 있었음. - 공간빅데이터 분석으로 어떤 정책이 가장 효과적일 것인지를 시뮬레이션하여 최종 정책대안을 선택하고 시행할 수 있어야 함 ○ 정확한 시공간 범죄자료 생산과 개방 및 통합. - 수많은 연구자가 다양한 자료를 융합활용하여 매우 효과적인 인사이트를 얻을 수 있도록 더욱 개방적인 데이터 공개 정책이 필요함. - 범죄자료, 신고자료, 스마트 귀가 등에 축적되는 자료 등을 통합하여 관리할 수 있는 체계 필요. ○ 참여형 실시간 여성안전 지도 구축 및 공유 플랫폼 구축 필요. - 안심귀가길과 같은 앱은 자신의 보행경로를 추적할 수 있게 공유해주고 필요시 가족과 경찰에 바로 신고할 수 있는 것처럼 다양한 사용자가 자신에게도 유용하고, 타인에게도 유용한 정보를 공유하고 분석하여 더 큰 부가가치를 얻을 수 있는 생태계를 구축하는 방안 필요. - 생활안전지도에서 밀도지도나 그리드로 집합한 정보를 제공한다면 안심귀가길과 같은 보다 다양한 앱이 개발될 것임. - 수많은 사용자가 다양한 장소에서 여성안전과 관련된 정보를 생산하고, 이 정보를 통합하여 분석한 결과를 공유하면 성폭력과 같은 여성안전 관련 범죄는 지속적으로 줄어들 것임, Ⅴ. 빅데이터를 이용한 여성의 고위험음주 분석과 정책 대안 가. 연구배경 및 목적 1) 음주로 인한 사회적, 경제적 폐해는 매우 크고 광범위함 ○ 전세계적으로 사망의 5.1%(WHO, 2014: 2), 우리나라는 8,4%가 음주로 사망하며(김광기 등, 2017: 696), 음주는 200여 가지 질병과 손상의 원인이며, 생산성 손실 및 각종 사고, 범죄, 폭력의 원인임. ○ 음주는 음주하지 않는 비음주자에게 미치는 외부효과(간접폐해)가 존재하며, 이는 특히 여성과 아동이 많이 경험함. 2) 우리나라 여성의 음주율, 특히 고위험음주율은 지속적으로 증가하는 추세이나 기존의 연구방법과 대상의 한계로 여성음주 특성 기술에 한계가 있음. ○ 주로 자기보고에 의한 연구 위주로 객관적 자료(유통자료)에 의해 기술하는 것은 부족함. ○ 여성음주자의 특성(compositional factors) 분석에 집중되어 여성음주 발생의 맥락적 특성(contextual factors) 분석이 부족함. 3) 본 연구에서는 빅데이터를 활용하여 여성의 주류소비, 고위험음주로 인한 의료서비스 이용과 같은 건강영향을 분석하여 여성 고위험음주 예방과 폐해 감소를 위한 정책 대안을 제시하고자 함. ○ 문헌고찰을 통해 여성음주 결정요인 및 효과성이 입증된 정책 사례 기술. ○ 국민건강영양조사자료를 활용하여 여성음주 및 고위험음주에 대한 역학적 현황과 추이 기술. ○ 신용카드 빅데이터 및 기상청 빅데이터를 이용한 여성의 주류소비 추이 및 관련된 사회경제적 맥락 규명. ○ 국민건강보험공단 빅데이터분석으로 여성의 고위험음주로 인한 의료서비스 이용 및 의료비 지출 관련성 파악. ○ 여성 고위험음주 폐해 예방 및 감소를 위한 정책 대안 및 빅데이터 정책 대안 모색. 나. 여성 고위험음주 현황 및 추이분석 1) 국민건강영양조사 자료로 확인한 여성 고위험음주는 지속적으로 증가하여 남녀가 수렴하는 양상을 보이고 있음. ○ 여성 월간음주율, 월간폭음률, 고위험음주율 모두 남성에 비해 여성이 더 증가하는 양상이며 성비로 볼 때 여성 고위험음주율의 증가가 더 커서 성비가 낮아지는 양상임. ○ 특히 20대와 30대 여성의 고위험음주율이 매우 가파르게 증가하고 있으며, 이는 연령-기간-코호트(Age-period-cohort) 분석에서 뚜렷하게 나타남. 1940년 출생 코호트부터 1997년 코호트까지 포함된 코호트효과에서 여성 고위험음주의 급격한 증가추세를 보이고 있었으며, 이에 비해 남성은 여성에 비해 변화가 매우 적었음. 2) 우리나라 여성의 고위험음주율은 연령별, 소득수준별로 차이를 보임. ○ 여성은 연령이 높아질수록 고위험음주율이 감소하나(20대 9.6%, 30대 8.6%, 40대 5.7%, 50대 4.9%, 60세 이상 0.6%) 남성은 연령이 높아질수록 고위험음주율이 계속 증가하다가(20대 17.7%, 30대 23.5%, 40대 25.7%, 50대 26.0%) 60세 이후 11.9%로 급격하게 낮아짐. ○ 소득수준별로는 여성은 소득수준이 낮을수록 고위험음주율은 더 높았으나 남성은 소득수준이 높은 계층의 고위험음주율이 높았음. 특히 여성의 월간음주율은 소득이 높을수록 높지만, 월간 폭음률과 고위험음주율은 소득이 낮을수록 높아, 소득수준이 낮은 여성들이 위험한 음주를 더 많이 하는 것을 확인하였음. 다. 신용카드 빅데이터를 활용한 여성 주류소비 현황 및 추이 분석 1) 신용카드 빅데이터는 신한카드사의 신용카드와 체크카드를 소지한 개인고객 중 19세 이상으로 주류를 주로 판매하는 업종에서 신용 카드를 이용한 사람의 자료로 분석하였음. ○ 여성의 주류소비는 2013년 이후 약 10%포인트 증가하였음. 2) 지난 5년간(2013년~2017년) 신용카드를 사용한 주류소비자 수, 주류소비건수, 주류소비비용은 2015년까지 증가하다가 이후 감소 하는 양상임. ○ 이는 남녀간의 주류소비가 수렴하는 것으로 여성음주율 및 고위험음주율에서 남녀가 수렴하는 것과 같은 양상을 보이는 것임. ○ 성비로 확인해보면 주류소비자 수(1.26→1.13)와 주류소비건수(1.44→1.33)는 미미하게 감소하는 양상이나 주류소비비용은 2013년 2.69에서 2017년 2.29로 성비의 감소폭이 더 큼. ○ 특히 여성 20대와 30대의 주류소비가 다른 연령대에 비해 많았으며, 이는 국민건강영양조사 자료 분석에서 여성 20대와 30대의 고위험음주율이 급격하게 증가하는 것과 같은 맥락임. 3) 신용카드를 사용한 주류소비는 시간적, 공간적, 기후와의 관련성을 보였음. ○ 주류업종에서 신용카드를 사용한 건수가 가장 많은 시간대는 남녀 모두 오후 1시부터 오후 7시 전까지였으며, 남성은 24시 이후 다시 증가하는 양상임. ○ 요일별로는 남녀 모두 금요일과 토요일에 주류소비건수와 비용 모두 증가함. ○ 월별로는 주류소비건수와 비용 모두 10월 이후 감소하다가 1월부터 증가함. ○ 주류소비건수가 가장 많은 지역은 서울과 수도권이며, 두 번째로 많은 지역은 강원도와 경상북도, 경상남도 지역임. ○ 기상청 빅데이터와 연계하여 주류소비와 기후와의 관련성을 파악한 결과 기온이 높을수록, 상대습도가 낮을수록, 불쾌지수가 높을수록, 미세먼지가 많을수록 주류소비건수가 늘어나는 양상임. 4) 신용카드를 사용한 주류소비는 관련 연계활동과의 관련성을 보였음 ○ 남녀 모두 신용카드를 이용한 주류소비건수가 많을수록 노래방과 편의점, 레저 스포츠 이용을 위해 신용카드를 사용한 경험이 더 많았음. ○ 또한 주류소비건수가 많은 경우 병원 이용경험 빈도와 한의원 이용경험 빈도가 많은 것으로 확인되었음. 라. 건강보험공단 빅데이터를 활용한 여성 고위험음주 결과 분석 1) 건강보험공단 빅데이터를 이용하여 음주로 인한 의료서비스 이용 건수와 의료비를 2013년부터 2017년까지 5년간의 추이를 분석 하였음. ○ 음주로 인한 의료서비스는 음주가 질병에 100% 기여하는 질병과 음주가 질병 발생에 일부 기여하는 질병을 모두 포함한 음주기인질병으로 인한 의료서비스 이용건수와 의료비를 추계한 것임. ○ 전체 의료이용건수 중 음주기인질병으로 인한 의료이용건수가 차지하는 비율은 남녀 모두 2013년 이후 감소하는 추세였으며(여성 1.66%→1.57%, 남성 4.59%→4.39%), 남녀의 감소추이가 비슷하였음. ○ 음주기인 질병으로 인한 의료비가 총 의료비 중 차지하는 비율도 2013년 이후 줄어들고 있었는데 여성에 비해 남성이 더 많이 감소하였음(여성 1.02%→0.83%, 남성 6.05%→4.65%). 2) 음주수준에 따른 음주기인질병으로 인한 의료서비스 이용 비율은 차이를 보였음. ○ 음주수준은 건강검진설문의 음주량과 빈도로 고위험음주, 사회적음주, 비음주자로 구분하였으며, 고위험음주는 국민건강영양조사에서의 기준을 따랐음. ○ 여성 고위험음주자의 음주기인질병 의료이용건수 비율이 3.06%로 사회적 음주자(2.64%)나 비음주자(1.54%)에 비해 높았음. 그러나 남성은 사회적 음주자의 의료이용건수 비율이 가장 높았고(6.33%), 고위험음주자(6.21%), 비음주자(4.02%)의 순으로 나타나 남성은 고위험음주자와 사회적 음주자의 의료이용건수 비율은 차이가 없음을 보여주고 있음. ○ 음주기인질병으로 인한 의료건수와 의료비가 전체 의료이용건수 및 의료비에서 차지하는 비율은 남녀 모두 연령이 높아질수록 같이 높아져서 50대와 40대가 가장 높았음. 이는 국민건강영양조사 자료나 신용카드 빅데이터 자료 분석에서 나타난 고위험음주율 및 주류소비가 바로 음주기인질병으로 인한 의료서비스 이용으로 이어지기 보다는 일정 기간이 지난 후 음주로 인한 질병이 발생하고 이로 인한 의료서비스를 이용이 증가하는 것으로 예측됨. ○ 소득이 낮은 계층의 음주기인질병으로 인한 의료이용건수 비율과 의료비 비율이 높아서 소득이 낮은 계층의 고위험음주가 건강폐해로 이어질 가능성이 높은 것으로 보여짐. 마. 여성 고위험음주 관련 정책 제언 1) 여성 고위험음주의 증가가 우리가 사회의 성평등 정도의 변화외에 관련 상업활동의 영향을 고려하여야 함. ○ 주류회사 마케팅 및 주류광고, 미디어의 영향, 저도주의 출시 등 2) 연령별, 사회계층별 맞춤형 음주폐해 예방 감소 정책이 필요 ○ 여성 음주의 외부효과(출산과 양육)를 고려해볼 때 30대 소득수준이 낮거나 판매서비스직에 종사하는 여성을 위한 정책이 우선되어야 함. 3) 여성 고위험음주를 빅데이터 활용으로 확대하였다는 의의가 있으나 한계도 있음. ○ 자기보고와 달리 객관적 자료라는 장점이 있지만 분석단위가 집단별로 이루어짐으로써 전반적 추이 정도가 기술되며, 해석에서 조심해야 함. Ⅵ. 소셜 빅데이터에 나타나는 미투담론의 파급양상 가. 연구 필요성 및 목적 ○ “미투”운동은 발생자체가 소셜네트워크의 전파력에 힘입은 것으로 소셜 네트워크와 미투는 밀접한 관계가 있음. 우리나라의 미투 운동 역시 소셜네트워크와 미디어에 의해 전개되었음. 전개 과정을 보면 초기의 일방적인 찬성과 지지에서 시간이 지남에 따라 반론이 제기되고 2차 피해가 발생하는 등 복잡한 양상을 보임. 이 연구에서는 미투 담론이 온라인의 소셜 미디어 공간에서 어떻게 파급되어 갔는지를 분석함. ○ 이 연구의 자료수집과 기초분석은 빅데이터 분석업체인 아르스프락시아에 의뢰하여 이루어짐. 분석대상은 페이스북 공개게시물이며 수집 대상기간은 2018년1월에서 8월까지임. 검색어는 “미투”로 한정하였으며, 페이스북 공개게시물 중 본문에서 “미투”를 언급한 본문 및 댓글, 공유글 등의 데이터를 수집하였음. 분석 방법은 데이터의 파급력(potential page view) 지표를 산출하여 파급력이 큰 게시문과 댓글의 내용을 분석하였음. 나. 주요연구결과 ○ 게시글 분석 결과 지난 8개월간의 수집된 공개게시글은 총 2,415건이며, 하루 평균 10.41건, 월평균 301.88건임. 월별 분포를 보면 3월에 급격한 증가세를 보이다 4월이후 감소하여 월별 평균 200건 미만으로 유지되고 있음. ○ 게시글의 내용을 분석하면 첫째 젠더 이슈에 대한 근본적인 성찰보다는 “성폭력”, “성희롱”, “성추행”, “성차별” 등으로 인한 “여성”들의 피해사실을 “폭로” 혹은 “고발”하는데 초점이 있음. 둘째 페이스북의 특성상 직장 내 미투보다는 “스쿨미투”의 비중과 영향력이 더욱 부각되고 있음. ○ 각 대학교 대나무숲(일종의 익명게시판)을 포함하여 10대~20대를 주요 대상으로 하는 공개페이지가 많아 학내 문제를 공론화 할수 있는 장이 존재함. 직장미투는 직장 내 문제를 공론화 할 수 있는 적절한 공간이 페이스 북내에서 거의 부재하며, 익명성이 보장이 되지 않아 온라인 미투운동이 활발하지 않은 것으로 생각됨. [그림 ⅵ-1] 게시글의 개념에 대한 내용 분석 ○ 공유, 댓글 분석 결과 첫째, 게시글과는 달리 댓글에서는 “미투”에 대한 서로 다른 의견이 혼재되어 있으며 대립적인 양상이 나타남. 둘째 여성만이 피해자가 되는 것이 아니라, 남성 역시 직간접적 피해자가 될 수 있다는 의견이 제기되면서 다양한 층위의 차별과 역차별이 논의되고 있음. [그림 ⅵ-2] 댓글, 공유글, 재댓글의 내용분석 ○ 각 소셜액션에 대한 파급력 점수를 이용자별로 합하여 이 점수를 근거로 영향력자 1000명을 도출하였음. 영향력자의 성향을 근거로 4개 집단으로 분류하여 이들의 소셜액션의 특성을 분석하였음. 집단1은 혐오표현을 사용하는 미투지지집단(과격한 지지집단), 집단2는 혐오표현을 사용하지 않는 미투지지집단(온건한 지지집단), 집단3은 혐오표현을 사용하지 않는 미투 지지유보집단(온건한 지지유보집단), 집단4는 혐오표현을 사용하는 미투 지지유보나 반대집단이다(과격한 반대 집단). 집단5는 입장파악이 불가하거나 주제와 상관없는 의견게시자 집단임. ○ 영향력자의 댓글과 재댓글 분포 양상을 보면 4월 이후 집단2(온건한 지지)의 비중이 낮아지고, 집단4(과격한 반대)의 비중이 높아지는 경향이 나타남. 다. 미투운동 관련 정책적 함의 ○ 미투 운동이 성공하기 위해서는 이러한 갈등구조를 풀어나가기 위한 노력이 필요함. 지속적인 대결구도는 소모적일뿐 아니라 갈등이 심화되어 폭력성을 띠게 됨. 현실적인 대안으로는 미투운동을 남녀대결 프레임보다 비대칭적인 권련관계에 의한 가해자와 피해자의 프레임으로 전환할 필요가 있음. ○ 미투운동은 기존의 사법체계가 성폭력에 대한 보호를 충분히 해주지 못함으로써 그동안 축적되었던 성폭력사건들이 한꺼번에 분출된 것임. 정책적으로는 사법적 공정성이 확보될 필요가 있음. 페이스북의 미투와 관련된 많은 담론들은 사법적 판단을 중요시하고 있음. Ⅶ. 빅데이터의 생산과 활용에서의 정책제언 가. 여성가족 빅데이터의 생산체계의 확립 1) 협의의 여성가족 빅데이터의 생산 ○ 본 연구에서 시도한 바와 같이 여성과 가족의 연구에 빅데이터의 활용범위는 다양함. 공간데이터를 이용한 여성의 안전정도, 신용카드와 건강 데이터를 이용한 여성의 음주행위 등은 새로운 시도임. 문제는 이러한 시도에서 분석에 필요한 빅데이터의 정의와 자료수집, 자료정비 등의 과정에 새로운 문제점이 등장하여 연구의 효율성이 떨어지게 됨. ○ 이를 해결하는 방안의 하나는 여성가족 연구를 위한 최소한의 빅데이터의 정비임. 여성가족부에서 생산되는 모든 종류의 데이터가 어떻게 여성가족 빅데이터의 가능성을 갖고 있는지에 대해서는 「여성가족 빅데이터의 활용을 통한 정책개선과 발굴(Ⅰ)」에서 제시한 바 있음. ○ 이외에도 본 연구의 6장에서 시도한 바와 같이 소셜 네트워크 데이터의 분석을 여성정책에서 중요한 주제를 선별하여 정기적으로 발표한다면 여성문제에 대한 최신 흐름을 파악할 수 있을 것임. 2) 여성가족 연구시 빅데이터 활용의 문제점과 이의 개선 ○ 본 연구는 빅데이터를 이용한 여성연구의 가능성을 탐색하고, 시범분석을 통하여 빅데이터의 사용상의 문제점을 파악하고자 하였음. 그 결과 기존의 통계자료로는 밝힐 수 없었던, 심층적인 의식의 문제, 시공간을 미분하는 세밀한 인간행동의 변화, 공간과 시설과 인간행동의 관계 등 새로운 차원에서의 연구가 가능함을 보여주었음. ○ 그러나 시범분석 시 자료의 수집과 활용에 여러 어려움이 있었음. 구체적으로 첫째, 개인 정보가 아님에도 불구하고, 공공데이터가 제공되지 않아, 대리변수를 사용할 수밖에 없었고, 그 결과 분석의 설명력이 낮아지게 되었음. 특히 여성안전에 대한 연구에서 현재 제공되는 생활안전지도의 경우 안전의 정도를 특정 공간이나 시설이 아닌 도로에 표시함으로써 안전에 영향을 미치는 것으로 예상되는 특정 공간이나 시설과의 거리를 측정하기 어려운 점이 있었음. 향후 해당 정보를 구축하고 있는 부처와의 협조관계를 구축하거나 협동연구 등을 통해 자료를 확보해야 정확한 빅데이터 연구가 가능할 것임. ○ 두 종류 이상의 빅데이터의 개인별 정보를 연계할 경우 새로운 차원의 분석이 가능함에도 불구하고 개인 정보 보호 정책에 따라 불가능하여 집단변수로 대체할 수 밖에 없었음. 데이터의 제공자의 불안감을 해소하면서 활용자가 활발하게 이용할 수 있도록 블록체인 등의 기술개발이 시급함. 또한 정책연구를 진작시킬 수 있도록 개인정보보호법의 개정도 필요함. ○ 여성연구에서도 금융, 교통, 통신 등의 부문에서 구축되어 있는 민간 빅데이터가 유용하게 사용되었음. 그러나 민간 빅데이터의 경우 사용비 부담으로 인해 사용할 수 있는 정보의 양과 수준이 제한되어 깊이 있는 연구가 진행되기 어려웠음. 민간 데이터의 사용에 대해 시장에 의존하기 보다는 정부차원에서 지원책을 모색할 필요가 있음. 3) 빅데이터 분석에 적합한 연구방법론의 개발 ○ 기존의 여성연구는 성별에 따른 차이에 초점을 두고 있음. 대부분의 통계분석은 인구학적, 사회경제적 독립변수에 따른 종속변수의 차이를 파악하는 인과관계 분석틀을 사용하였음. ○ 그러나 빅데이터 연구에서 자주 사용되는 소셜 네트워크 데이터 등은 개인별 특성의 판별이 어려워 다른 방식의 분석을 시도해야 함. 예를 들어 이 보고서의 6장에서 시도한 분석은 구체적으로 페이스북의 게시글과 댓글, 공유, 좋아요 등의 소셜 액션이 어느 내용에 대해 얼마나 자주 행해지고 있는지, 영향력을 미치는 주요 계정자의 성향과 이들의 소셜 액션은 어떤 특징을 갖고 있는지를 분석함으로써 기존의 횡단적 통계자료 분석이나 일회적인 내용분석의 한계를 보완하고 전반적인 추세와 내부 집단의 역동적인 변화를 파악하였다는 점에서 새로운 방법론을 시도하였다고 볼 수 있음. 이와 같이 여성정책의 연구에서 빅데이터를 이용하기 위한 적합한 연구방법론의 개발이 필요한 시점임. 나. 빅데이터의 차별 방지를 위한 방안 ○ 빅데이터 알고리즘은 성차별을 포함하여 각종 차별을 재생산하고 강화할 잠재적 우려를 충분히 내포하고 있음. 이러한 잠재적 위험은 빅데이터의 라이프사이클 전 과정에 도사리고 있는데 반해 그것에 대한 감시와 검사는 체계적으로 실행되지 않는 상태임. ○ 특히 개인의 적격성 관련 의사결정에 관여하는 알고리즘의 경우 차별의 위험은 삶에 심대한 영향을 미침. 따라서 우리는 이러한 알고리즘의 차별가능성을 충분히 고려하여 알고리즘을 개발 활용하도록 주의를 환기시켜야 함. 그러나 아직까지 우리나라는 빅데이터의 긍정적 측면을 바탕으로 빅데이터 이용의 활성화를 촉진하는데 힘을 쏟는 반면 빅데이터의 부정적 측면에 대한 인식과 대응이 부족한 현실임. 알고리즘의 차별가능성에 대한 EU와 미국의 대응을 바탕으로 다음과 같은 정책을 제안함. 1) 빅데이터 알고리즘의 차별 재생산에 대한 연구의 촉진 ○ 적격성에 대한 의사결정에 관여하는 빅데이터 알고리즘 특히 금융 및 직업 분야의 알고리즘이 차별을 재생산하고 있는지에 대한 연구를 정부차원에서 촉진할 필요가 있음. 빅데이터 초기단계의 알고리즘이 보다 공정성을 확보하여 고도화하는 계기가 됨과 동시에 관련 산업종사자들의 인적 자원 개발에도 기여할 수 있음. 2) 가이드라인의 작성과 제시 ○ 알고리즘 개발의 전 과정에서 존재하는 잠재적인 이슈와 문제점을 방지하기 위한 가이드라인을 제시할 필요가 있음. 이러한 가이드라인이 실질적인 효과를 내기 위해서는 일반적인 가이드라인이 아니라 빅데이터의 종류별, 알고리즘 개발 방법별, 알고리즘 활용분야별로 구체적이고 세밀한 가이드라인의 개발과 제시가 필요함. 3) 알고리즘 프로토타입의 개발과 확산 ○ 통계청은 국가통계의 신뢰성 제고를 위해 국가승인통계제도와 통계품질 진단제도를 운영하고 있음. 빅데이터의 품질진단을 담당하는 부처가 정해지지는 않았지만 빅데이터 알고리즘의 책무성(Accountability)과 투명성(Transparency) 확보를 위해서 알고리즘의 메타정보 프로토타입을 개발하여 확산시킬 필요가 있음. 즉 특정분야의 빅데이터 알고리즘을 대상으로 수집데이터에 대한 정보, 데이터 통합과 관련된 정보, 개발방법 및 분석결과 관련 정보, 그리고 활용과 관련된 정책적 정보 등에서 제공할 메타정보 항목과 수준을 정의하고 실질적으로 참고할 원형을 만듬. 이를 바탕으로 전 영역에 확산 전개 가능한지에 대한 적합성 논의를 함. 4) 성차별 알고리즘 전담 센터 신설 ○ 빅데이터 알고리즘이 모든 산업영역에서 일반화되면 우리의 삶에 알고리즘의 영향력은 매우 심대해짐. 그러나 시장논리와 조직논리에 영향을 받는 알고리즘 개발자의 자율적 노력에만 의존하게 되면 알고리즘의 정확성과 공정성은 담보하기 힘듬. 따라서 이를 견제할 또 다른 주체로서 알고리즘 개발조직과는 별개로 알고리즘에 대해 감사를 하는 서비스산업을 촉진시키는 것도 필요함. ○ 성차별적 알고리즘에 적용하다면 개인의 삶에 중요하고 성차별 가능성이 있을 것으로 여겨지는 영역 예를 들어 신용평가, 대출심사, 보험심사, 채용추천, 입학 등의 선별 알고리즘 등에서 성차별의 문제가 존재하는지에 대한 실증적 조사연구가 필요함. 이러한 조사연구를 함에 있어 알고리즘의 성차별효과를 밝히는데 사용한 카네기멜론대학 연구팀의 AdFisher 같은 툴을 개발하거나 조사패널을 활용하여 테스트해 볼 수도 있음. 그리고 알고리즘의 문제가 발견되었다면 빅데이터 라이프사이클 상에서 어떤 문제가 작용하여 성차별이 생기는지를 연구할 필요가 있음. 이를 통해 알고리즘에서 성적 차별의 재생산을 방지하기 위한 실질적인 가이드라인을 제시할 수 있을 것임. ○ 아울러 공공연구기관에 성차별 알고리즘 전담센터를 두고 알고리즘 성차별 의심사례를 접수 받아 관련 사례를 모으고 성차별 알고리즘에 대한 알고리즘 감사를 수행해 나갈 수도 있을 것임.

돌아가기

한국여성정책연구원 Korean Women's Development Institute