목록인포섹 아카데미 (30)
배고픈 개발자 이야기

- 실습환경 구축 1. AWS에 ec2 인스턴스를 새로 생성한다. 인스턴스는 사용하지 않을시 종료/중지 해야한다 (무료 평가판은 ec2 720시간 제한이 있다고한다) 2. Ubuntu18.04 버전으로 생성 (Window에 비해 성능이 30% up) 3. new 키페어 or 기존 키페어 선택 new 키페어일 경우, 한번만 다운 받을 수 있으며, 추후 재사용하므로 잘 저장해 두자 4. AWS 접속 프로그램 putty 설치 putty gen 을 통해 다운받은 키페어(gem)을 -> ppk로 저장한다. ps) putty 접속시 connection error가 발생했었는데 putty connection 탭의 Bypass authentication entirely를 체크해서 발생한 에러였다. (unchecked로..
- 한글폰트 설치 sudo apt -qq -y install fonts-nanum - 한글폰트 적용이 안될 때 한글 폰트를 설치하여 적용하려면 기존의 폰트캐시를 삭제해 주거나 로그아웃 후 재접속을 해야한다. 1. 폰트캐시 삭제 rm -rf ~/.cache/matplotlib/* sudo apt install fontconfig sudo fc-cache -fv 2. 파이썬 패키지에 폰트 직접 복사 rm -rf ~/.cache/matplotlib/* cp /usr/share/fonts/truetype/nanum/Nanum* /home/ubuntu/ai/cloud/workspace/venvs/myproject/lib/python3.6/site-packages/matplotlib/mpl-data/fonts/tt..

- 클라우드 컴퓨팅이란? 인터넷기반 컴퓨팅의 일종으로 정보를 자신의 컴퓨터가 아닌 인터넷에 연결된 다른 컴퓨터로 처리하는 기술 - 장점 1. 자원 활용성 : '종량제'방식으로 최적화된 리소스 사용 2. 운영 효율성 : 따로 구성 및 설치 없이 언제 어디서든 인프라 구축 및 서비스 이용에 따른 생산성 향상 3. 비용 효율성 : 필요한만큼 사용 및 구축, 운영비 절약 - DJango 1. 파이썬의 대표적인 웹 개발 프레임워크 중 하나 2. 풀 스택 프레임워크, MVC 기반 패턴 개발 구조화 3. 템플릿 형태로 기능 제공 등 정해진 틀 존재 => 비교적 자유도 낮음 - Flask 1. 파이썬의 대표적인 웹 개발 프레임워크 중 하나 2. 마이크로 프레임워크, 가볍고 간단 3. 지정한 라이브러리와 패키지만 설치됨..
- 아파트 연도별 평당분양가격의 이상치 검출 및 그래프 분석 # 제 1사분위수 Q1 = df_last[df_last["연도"] == 2019]["평당분양가격"].quantile(0.25) # 제 3사분위수 Q3 = df_last[df_last["연도"] == 2019]["평당분양가격"].quantile(0.75) IQR = Q3 - Q1 # 이상치 최소 한계점 outlier_min_limit = Q1 - (IQR*1.5) # 이상치 최대 한계점 outlier_max_limit = Q3 + (IQR*1.5) # 최소 한계점을 넘어간 이상치 data df_last[ (df_last["연도"]==2019) & (df_last["평당분양가격"]outlier_max_limit) ] # (60, 8) df_last..

- seaborn titanic 그룹화, 컴럼별 평균, 표준편차 import seaborn as sns # titanic 데이터 중 원하는 컬럼만 데이터프레임으로 변환 titanic = sns.load_dataset("titanic") df = titanic.loc[ : , ["age", "sex", "class", "fare", "survived"]] # class별 각 행의 평균 df.groupby("class").mean() # class가 Thrid인 그룹 추출 df.groupby("class").get_group("Third") # class별 sex별 평균값 df.groupby(["class", "sex"]).mean() # class별 sex별 그룹에서 Third class의 female d..
- 각 시도별 분양 면적별 분양가의 동향을 분석 csv 데이터(엑셀)은 load시 cp949인코딩 사용 결측치 처리 및 분석을 위한 명령어 실습 import pandas as pd # Exel은 cp949 df_last = pd.read_csv("data/주택도시보증공사_전국 평균 분양가격(2019년 12월).csv", encoding="cp949") df_last.shape # DataFrame 정보 상세보기 df_last.info() # null인지 True False로 표기 df_last.isnull() df_last.isna() # 각 column의 null 갯수 합 df_last.isnull().sum() import numpy as np # 결측치 삽입 df = pd.DataFrame({ "컬..

•정형 데이터 –값이 의미를 파악하기 쉽고, 규칙적인 값으로 데이터가 저장된 경우 –주로 정수 실수와 같은 숫자 저장 –문자의 경우 성별 컬럼에 male, female 과 같이 정수로 변환 할 수 있는 범주형 데이터가 저장된 경우 •비정형 데이터 –정해진 규칙이 없어서 값의 의미를 쉽게 파악하기 힘든 데이터 –게시판의 텍스트, 음성, 영상과 같은 데이터가 비정형 데이터 데이터 분석 업무의 80~90%는 데이터 수집 및 정리에 사용됨 10~20%가 알고리즘 선택등 판다스 - 판다스 자료구조 - DataFrame 생성 아래와 같이 두가지 방법으로 생성할 수 있다. import pandas as pd # dictionary로 생성 df1 = pd.DataFrame( { "나이":[15, 17], "성별":["..

- 네이버 영화 평점 수집 https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=cur&date=20210427 랭킹 : 네이버 영화 영화, 영화인, 예매, 박스오피스 랭킹 정보 제공 movie.naver.com 위 사이트는 네이버 영화 순위로 오늘날짜로 맞춰주면 그날 랭킹을 볼 수 있다. 아래와 같은 코드로 간단한 영화 랭킹을 긁어올 수 있다. import urllib.request # http 요청용 from bs4 import BeautifulSoup # 스크래핑용 # 7월 12일 네이버 영화 랭킹 url 요청 response = urllib.request.urlopen("https://movie.naver.com/movie/sdb/rank/rmovie.n..