공공데이터포털의 특징은 자료를 활용을 요약하자면
1. 회원 가입 후 '사용자 인증키'를 생성해야한다.
2. 이후 원하는 데이터를 '활용 신청'을 해서 승인이 떨어지고 활용 권한을 획득해야한다. (실제 활용 가능 시간까지 약 1일 정도 소요) (파일데이터는 활용 신청 없이 그냥 다운로드 하여 사용 가능)
3. 제공되는 데이터는 파일데이터, JSON, XML 등이 있다.
1. 공공데이터포털 접속
2. 원하는 데이터 검색
3. 데이터 선택
4. 데이터 정보 확인
아래로 스크롤을 내리면 다양한 연관 데이터를 확인할 수 있다.
그 중 '지역별 PIR 및 LIR'을 열어보자.
5. 데이터 얻기
여기서는 CSV 파일로 해보기로 한다.
파일 다운로드를 누른 다음 다운로드 파일의 주소를 복사해온다. (크롬에서는 chrome://downloads/ 접속)
6. Pandas로 불러오기
url = 'https://www.data.go.kr/cmm/cmm/fileDownload.do?atchFileId=FILE_000000001581679&fileDetailSn=1'
import pandas as pd
koreaPirLir = pd.read_csv(url, encoding='cp949')
koreaPirLir
한국 정부 사이트답게 ms 인코딩이다... 'ms949' 또는 'cp949'를 인코딩 옵션으로 줘야지만 제대로 읽어온다.
7. 데이터를 조회해보자.
# 어떤 지역 데이터가 있는지 컬럼 헤더를 조회해보자.
koreaPirLir.columns
# 결과 :
# Index(['연도', '월', '전국PIR', '서울PIR', '부산PIR', '대구PIR', '인천PIR', '광주PIR',
# '대전PIR', '울산PIR', '세종PIR', '경기PIR', '강원PIR', '충북PIR', '충남PIR', '전북PIR',
# '전남PIR', '경북PIR', '경남PIR', '제주PIR', '전국LIR', '서울LIR', '부산LIR', '대구LIR',
# '인천LIR', '광주LIR', '대전LIR', '울산LIR', '세종LIR', '경기LIR', '강원LIR', '충북LIR',
# '충남LIR', '전북LIR', '전남LIR', '경북LIR', '경남LIR', '제주LIR'],
# dtype='object')
# 서울 지역의 PIR 평균을 구해보자.
import numpy as np
np.average(koreaPirLir['서울PIR'])
# 결과 :
# 6.847530864197529
완성본
url = 'https://www.data.go.kr/cmm/cmm/fileDownload.do?atchFileId=FILE_000000001581679&fileDetailSn=1'
import pandas as pd
koreaPirLir = pd.read_csv(url, encoding='cp949')
koreaPirLir
# 어떤 지역 데이터가 있는지 컬럼 헤더를 조회해보자.
koreaPirLir.columns
# 서울 지역의 PIR 평균을 구해보자.
import numpy as np
np.average(koreaPirLir['서울PIR'])
'개발자 > Python' 카테고리의 다른 글
Python (파이썬) 공공데이터 수집 (Open API - XML) (6) | 2020.05.06 |
---|---|
Python (파이썬) 공공데이터 수집 (Open API - JSON) (0) | 2020.05.06 |
Python (파이썬) .bat 실행파일 만들기 / Crontab 크론탭 (0) | 2020.05.05 |
Python (파이썬) Formatting (포맷팅) (0) | 2020.05.05 |
Python (파이썬) 메일 보내기 (0) | 2020.05.04 |