메뉴 건너뛰기

지난 6일 미국 미네소타주 미니애폴리스에서 열린 데이터저널리즘 콘퍼런스 NICAR 행사장의 모습.


데이터저널리즘에 널리 쓰이는 웹스크래핑, PDF 문서 추출, 그래프 작성 등을 더 손쉽게 할 수 있는 방법은 없을까?

지난 6일부터 나흘간 미국 미네소타주 미니애폴리스에서 열린 데이터저널리즘 컨퍼런스 행사 NICAR(National Institute for Computer-Assisted Reporting)에서는 다양한 데이터저널리즘 기법들이 소개됐다. 미국 탐사보도협회(IRE)가 주최하는 NICAR는 미 전역에서 모인 데이터 저널리스트들이 자신들의 데이터 수집 및 분석 기술을 공유하는 자리로 매년 3월 개최된다.

데이터 수집의 다양한 방법 제시

웹페이지의 데이터를 추출하는 웹스크래핑 기법은 데이터저널리즘뿐만 아니라 학술 연구에도 널리 쓰이는 기법이다. 경향신문 데이터저널리즘팀에서도 ‘대통령실 국민참여 토론 댓글 분석’에서 활용하기도 했다.

그러나 정적인 웹페이지와 달리 X, 인스타그램 등 사회관계망서비스(SNS)가 제공하는 웹페이지는 스크롤을 내리면 새로운 콘텐츠가 나타나는 방식이어서 스크래핑이 쉽지 않다. 블룸버그의 데이터저널리스트 레온 옌과 노스이스턴대 연구원 피터 사피예진스키는 ‘문서화 되지 않은 API를 찾고 사용하기’ 발표에서 이같은 문제를 우회해서 해결하는 방법을 소개했다.

이들은 스크롤을 내렸을 때 웹페이지가 새로운 콘텐츠를 불러오는 응용프로그램 인터페이스(API)를 찾아낸 뒤 직접 데이터를 호출했다. API는 프로그램이나 컴퓨터 사이에서 정보를 호출받고 제공하는 방식이나 도구를 뜻한다. 두 사람은 전자상거래 사이트 아마존에서 추천 상품을 긁어오는 작업을 직접 시연해 보였다.

pdfplumber를 이용해 PDF를 파싱하는 과정.


PDF 문서는 대규모의 데이터를 다루는 데이터저널리스트들이 부딪히는 벽 중에 하나다. 사람이 읽기는 쉽지만, 컴퓨터 프로그램이 인식할 수는 없는 형태이기 때문에 규격화된 데이터인 CSV나 JSON 형식으로 바꾸어야 분석이 가능하다. 그러나 PDF에서 내용만을 추출해 규격화된 틀에 담기는 쉽지 않다. PDF에서 데이터를 추출하는 프로그램이 필요한 이유다.

뉴욕타임스의 제러미 싱어바인 기자는 ‘pdfplumber를 이용해 복잡한 pdf에서 데이터 추출하기’ 발표에서 pdfplumber라는 라이브러리를 이용해 PDF를 데이터화하는 방법을 소개했다. 그는 “많은 사람들이 인공지능(AI)에 PDF를 넣으면 쉽게 분석해줄 거라 말하지만 AI는 돌릴 때마다 약간씩 다른 결과를 출력할 수 있다”며 “pdfplumber를 사용하면 당신이 어떻게 PDF를 데이터화하는지 파악할 수 있을 뿐만 아니라 매번 같은 결과를 얻을 수 있다”고 말했다.

손쉽게 할 수 있는 데이터시각화 도구 소개

데이터시각화 방법을 공유하는 발표도 인기를 끌었다. CBS의 테일러 존스턴, 그레이스 맨시 비주얼데이터 기자는 Datawrapper를 이용해 그래프 만드는 방법을 소개했다. Datawrapper는 데이터를 입력하면 다양한 그래프를 그려주는 웹사이트 도구다. 무료 플랜을 사용하면 그래프에 Datawrapper 워터마크가 남고 그래프를 png 파일과 웹 임베딩 형태로만 추출 가능하다. 유료 플랜을 사용하면 제공하는 모든 기능을 사용할 수 있다.

강연자들이 제공한 미국 주별로 인기있는 여자 아기 이름에 대한 데이터를 입력한 뒤, 색상표를 고르고 약간의 코드를 입력하니 30분만에 간단한 통계 지도를 만들 수 있었다.

미국 주별로 가장 인기있는 여자 아이의 이름 데이터를 이용해 Datawrapper로 작성한 지도.


미국 언론에서는 위성사진 활용도 활발하다. 월스트리트저널의 ‘새해 첫날의 작은 화재가 LA 화재에 미친 영향’이나 로이터의 ‘가자지구 피해 규모’ 등 많은 기사에서 위성 사진을 사용하고 있다. 워싱턴포스트 그래픽 기자인 다니엘 울프 등 4명의 강연자가 진행한 ‘고화질의 위성 사진 무료로 받기’ 발표에서는 다양한 기사에 사용할 수 있는 위성 사진을 무료로 다운받는 방법을 소개했다.

위성 사진은 해당 사진을 갖고 있는 회사나 전문가에게 메일을 보내 요청할 수도 있지만, 직접 사진을 내려받을 수도 있다. 코페르니쿠스는 위성 사진을 받을 때 보편적으로 많이 사용하는 사이트다. 무료로 사용 가능하지만 회원가입을 하면 더 다양한 이미지를 받아볼 수 있다. 널리 알려진 구글의 위성사진 서비스 구글 어스를 이용해도 되는데, 애플리케이션을 다운받아 사용하면 더욱 편리하다.

‘데이터 저널리스트’의 기쁨과 슬픔

지난 7일 미국 애틀랜타주 미니애폴리스에서 열린 데이터저널리즘 콘퍼런스 NICAR의 ‘라이트닝 토크’ 세션에서 커다란 홀을 다 메울만큼 많은 사람들이 참석하고 있다.


콘퍼런스 둘째 날인 지난 7일 오후 5시에는 강연자들이 순서대로 나와 5분씩 발표하는 ‘라이트닝 토크’ 세션이 진행됐다. 데이터를 주제로 한 다양한 이야기들이 오갔는데, 기자들이 기사를 쓸 때 정보 출처의 다양성이 지켜지고 있는지에 관한 발표가 많은 공감을 얻었다. 한 참가자는 코로나19 사태 당시 관련 기사의 취재원 성별을 분석했을 때 여성은 5명 중 1명에 불과했다는 통계를 제시하며 취재원이 더욱 다양해질 필요가 있다고 말했다.

진지하기만 한 것은 아니었다. 뉴욕에서 온 워싱턴 포스트 소속 다니엘은 자녀들의 사진과 일상을 계산한 결과를 발표했다. 첫째를 찍은 사진이 둘째 사진의 약 2배였다는 선 그래프를 보여주며 참가자들의 웃음을 자아냈다.

참가자끼리 어울리는 네트워킹 시간도 준비돼 있었다. NICAR에 처음 온 참가자를 위한 네트워킹, 학생 네트워킹, 다국적 참가자를 위한 네트워킹 등 다양한 자리가 있었다.

팟캐스트 매체 ‘리빌’의 탐사보도 에디터 케이트 호워드와 비영리언론 위스콘신 워치의 기자 쿠슈부 라타오레가 진행한 여성을 위한 네트워킹 세션은 데이터 저널리즘과 탐사 저널리즘에서 여성이 겪는 어려움과 도전에 대해 이야기했다. 한 참가자가 “여성 차별적인 취재원을 어떻게 상대하냐”고 질문하자 비슷한 경험을 공유하는 참가자가 많았다. 뉴스룸 안에서 동료를 찾고 도움을 구해야 한다는 조언을 해주는 참가자도 있었다.

참가자는 학생부터 현직 저널리스트까지 다양했고, 미국 외에서 온 참가자들도 있었다. 콜롬비아대 학생인 라이언 산토스는 “데이터 분석과 수집을 위한 새로운 프로그래밍 방식과 정부로부터 자료를 요청하는 절차에 대해 배우고 싶어 왔다”며 “여러 나라에서 온 기자들과 만나고 많은 것을 배울 수 있었던 보람 있는 경험”이라고 말했다.

※이 기사는 한국언론진흥재단의 지원을 받아 작성됐습니다.

경향신문

번호 제목 글쓴이 날짜
46934 드라마 ‘가시나무새’ 주연 리처드 체임벌린 별세 랭크뉴스 2025.03.31
46933 ‘한덕수 최후통첩’ 하루 앞…야당 ‘마은혁 임명 촉구’ 단독 결의 랭크뉴스 2025.03.31
46932 의대 40곳 중 38곳 '전원 복귀'… 수업 거부 불씨는 남았다 랭크뉴스 2025.03.31
46931 이재명 “韓, 이래도 상법 거부권 쓸 거냐”며 든 총수 사례가… 랭크뉴스 2025.03.31
46930 [단독] 2년전 ‘판박이 산불’로 백서까지 내고도... 최악 산불 참사 못막았다 랭크뉴스 2025.03.31
46929 野, 마은혁 자동임명법 상정…'韓대행 임명방지법'도 발의 랭크뉴스 2025.03.31
46928 경의중앙선 DMC∼공덕 12시간째 멈춰…"출근시간 전 복구 총력" 랭크뉴스 2025.03.31
46927 '강남 마지막 판자촌' 구룡마을, 3800세대 단지 탈바꿈 랭크뉴스 2025.03.31
46926 김수현 "의혹 모두 거짓말" 폭로전 이제 법정 다툼으로 랭크뉴스 2025.03.31
46925 의대 40곳 중 38곳 '전원 복귀'…1년 만에 학사 정상화 목전 랭크뉴스 2025.03.31
46924 이재명 “韓, 이래도 거부권 쓸 거냐”며 든 총수 사례가… 랭크뉴스 2025.03.31
46923 초선들 불러 “국무위원 다 날리면”… 거야 좌지우지하는 김어준 랭크뉴스 2025.03.31
46922 이재명, 한화 경영승계 언급하며 “기어이 거부권 쓸 거냐” 랭크뉴스 2025.03.31
46921 미얀마 군부, 지진 사망자 수 급증 뒤 취재 제한…구조 활동은 허가 랭크뉴스 2025.03.31
46920 의대 40곳 중 38곳 ‘전원 복귀’…학사 정상화 목전 랭크뉴스 2025.03.31
46919 몸 못 가눈 어르신 ‘화장실도 천리길’…화마가 드러낸 인구소멸지역 민낯 랭크뉴스 2025.03.31
46918 이재명, 기업 경영승계 거론 "韓대행, 기어이 상법 거부할 건가" 랭크뉴스 2025.03.31
46917 장제원 고소인측, 경찰에 동영상 증거제출…내일 기자회견 랭크뉴스 2025.03.31
46916 '장제원 성폭행 의혹' 피해자 '동영상·국과수 감정 결과' 증거 제출 랭크뉴스 2025.03.31
46915 중학교 교사, 학생 2명 산에 끌고 가 "죽이겠다" 협박…무슨 일 랭크뉴스 2025.03.31