본문 바로가기

👩🏻‍💻 강의 기록용11

파이썬으로 시작하는 데이터 사이언스 1~4주차 인사이트 모음 📍1주차 : 데이터 분석 환경 구성 📍2주차 : 서울 종합병원의 분포 알아보기 한글폰트 설정할 필요 없는 matplotlib # 한글폰트 사용을 위해 설치 # 아래 모듈을 설치하고 불러오면 별도의 한글폰트 설정이 필요 없습니다. !pip install koreanize-matplotlib import koreanize_matplotlib 텍스트 데이터 색인 인덱싱하기 (~가 들어간 칼럼만 남기기) # str.contains 를 사용해서 "상호명"에 "대학병원"이 들어가는 것을 가져와서 head()로 미리보기 합니다. df_seoul_hospital.loc[~df_seoul_hospital['상호명'].str.contains('종합병원'), '상호명'].unique() # '상호명' 열에 '꽃배달'이 포함.. 2023. 11. 19.
6-② 탠서플로를 통한 자동차 연비 예측하기 (데이터셋 나누기, 딥러닝 모델 만들기, 딥러닝 모델로 학습과 예측하기) 탠서플로를 통한 자동차 연비 예측하기 공식 문서 (링크) 필요한 도구 가져오기 # 데이터 분석을 위한 pandas, 시각화를 위한 seaborn 불러오기 import pandas as pd import seaborn as sns 데이터셋 로드하고 결측치 확인 머신러닝, 딥러닝으로 데이터 예측할 때는 연산작용을 통해서 결과값이 출력되는 것 그런데, 결측치가 있으면 그 데이터는 계산할 수 없기 때문에 결측치를 제거하거나 대체해야함 결측치가 많지 않으면 제거하면 되고, 결측치가 너무 많다면 다른 값으로 대체하는게 적절 # 자동차연비 데이터셋인 mpg 데이터셋을 불러옵니다. df = sns.load_dataset('mpg') df.shape (398, 9) # 결측치의 합계 구하기 df.isnull().sum(.. 2023. 9. 19.
6-① 탠서플로우를 통한 데이터 예측 인공지능 ⊃ 머신러닝 ⊃ 딥러닝 인공지능 최근에 등장한게 아니라 1950년대에 등장 하지만, 학습 속도도 느리고, 학습할만한 데이터도 많지 않았음 현재는. 기술의 발전으로 학습속도 빨라지고, 학습할 데이터도 많고, 데이터 저장 수집 장비 저렴해짐 → 빅데이터 처리 가능해짐 머신러닝 기존에 있는 메일, 스팸메일 분류한 데이터를 가지고 학습해서 새로운 메일이 왔을 때 스팸인지 아닌지 구분 정형 데이터는 머신러닝으로 충분히 분류 가능 딥러닝 이미지, 음성, 텍스트 같은 경우는 용량이 훨씬 크고 비정형 데이터는 예측할 때 인공 신경망을 사용해야 훨씬 더 좋은 성능을 낼 수 있음 머신러닝 과정 머신러닝 구분 정답이 있으면 🙆🏻‍♀️ 지도학습 예측할 데이터가 범주형 데이터 ➡️ 분류 연속된 수치 데이터 ➡️ 회귀 .. 2023. 9. 19.
05-④ 파이썬 EDA - 범주형 변수 기술 통계 # describe 를 통해 범주형 변수에 대한 기술통계를 보기 df.describe(include='object') - count : 빈도수 - unique : 중복 제외한 유일한 값들의 빈도 수 - top : 최빈값, 가장 빈번하게 나온 값의 정체는? - freq : 위에서 최빈값의 빈도수. 총 몇번이나 나왔어~ 범주형 데이터의 유일값의 빈도수 # nunique 값 구하기 df.nunique() mpg 129 cylinders 5 displacement 82 horsepower 93 weight 351 acceleration 95 model_year 13 origin 3 name 305 countplot 으로 origin 빈도수 시각화 하기 x='origin' : 아래 그림처럼 세로로 보여.. 2023. 9. 17.
05-③ 파이썬 EDA - 수치형 변수 히스토그램과 분포 히스토그램(histogram) 표로 되어 있는 도수 분포를 정보 그림으로 나타낸 것 표본의 다양한 산출 분포를 보여주는 목록, 표, 그래프 표에 들어가는 각 항목은 특정 그룹이나 주기 안에 값이 발생한 빈도나 횟수를 포함하고 있으며 이러한 방식으로 표는 표본 값의 분포를 요약 # 수치형 변수 mpg의 unique 값 보기 -> 아~ 이걸 보니까 이 변수는 연속된 숫자겠다 감이 옴 df['mpg'].unique() array([18. , 15. , 16. , 17. , 14. , 24. , 22. , 21. , 27. , 26. , 25. , 10. , 11. , 9. , 28. , 19. , 12. , 13. , 23. , 30. , 31. , 35. , 20. , 29. , 32. ,.. 2023. 9. 17.