일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 노마드코더
- 개발자북클럽
- SQL
- TS
- 코테
- c++
- 앱개발
- dfs
- 코딩일기
- 최단경로
- 프로그래머스
- 알고리즘
- bfs
- DP
- Typescript
- 이진탐색
- 그리디
- 타입스크립트
- 정렬
- ps
- 백준온라인저지
- 이것이코딩테스트다
- 구현
- 이코테
- 코딩테스트
- BOJ
- 빅데이터분석
- 다이나믹프로그래밍
- react-native
- 백준
- Today
- Total
목록빅데이터 분석 (10)
한량처럼 살고 싶다

k-means 클러스터링을 하다 발생한 오류였다. 아래와 같이 정상적으로 라이브러리를 import 하였다. from sklearn.cluster import KMeans from sklearn.metrics import silhouette_score, silhouette_samples 이후 정규분포로 스케일링을 하고 predict를 하면 이상한 오류가 난다. from sklearn.preprocessing import StandardScaler X_features_scaled = StandardScaler().fit_transform(X_features) kmeans = KMeans(n_clusters=3, random_state=0) Y_labels = kmeans.fit_predict(X_featur..

결론부터 정리하자면 대부분 오타일 때가 많다(...) 빅데이터나 분석쪽 함수명이 워낙 길다보니 오타가 자주 발생하는데(심지어 맨눈으로 잘 안보임), 오류나면 짜증내면서 무작정 구글을 켜기보단 이름을 먼저 확인하는게 코드 작성 시간을 30% 정도 줄여주는 것 같다. 1. 라이브러리 import 를 제대로 안함 혹은 이름에 오타 라이브러리 양이 많아지고 코드가 길어지다보니 라이브러리 임포트 안한 채로 코드 작성하다가 오류 발생할 때가 많다. 그리고 임포트할 때 너무 길면 이름을 줄이기도 하는데(as) 이 때 줄임말과 변수를 헷갈리는 상황도 빈번히 발생한다. 꼭! 분석함수 쓸 때 그 함수가 어떤 라이브러리에 있는지 제대로 확인하고 import 부터 다시하자 (jupyter나 colab 같이 셀단위로 실행하는 ..

1. 로지스틱 회귀 1) 배우는 내용 로지스틱 회귀 전처리: Scaling, PCA 결정트리 분류 성능 지표 encoding 2) classification X: 특징 벡터 y: class (nominal) - regression 에서는 y가 numeric value 가장 단순한 분류 ZeroR: 다수인 클래스로 판단 2. 로지스틱 회귀 실습 1) 로지스틱 회귀 분류 방법: sigmoid 함수, X에 값에 따라 특정 지점에서 y가 0 또는 1의 값을 갖도록: 2 class multi class 일 때는 softmax: 합이 1이 됨. 가장 값이 높은 것이 각 클래스의 확률이 된다 1) 데이터 획득하기 import numpy as np import pandas as pd from sklearn.datase..

1. 집값 예측하기 0) 머신러닝 패키지 설치 #머신러닝 패키지 sklearn 설치 !pip install sklearn 1) 데이터 수집 import numpy as np import pandas as pd from sklearn.datasets import fetch_california_housing housing = fetch_california_housing() housing 2) 데이터 준비 및 탐색 housing.DESCR: 데이터설명 housing.data: X 데이터 housing.feature_names: X 데이터의 feature name housing targe: y 데이터 dataframe.shpe: 보편적 데이터 형태 조회 #데이터 프레임으로 만들기 df = pd.DataFrame..

1. 2개 변수 간의 관계 분석 상관이 있는가? 독립변수가 종속변수에 영향을 주었는가? 변수 유형 nominal vs numeric discrete vs continuous 또다른 분류 unordered nominal: 혈액형, 남녀 (순서를 줄 수 없고 이름에 의미가 있는) continuous numeric: 키, 몸무게 (float 형태로 이루어진 숫자) ordered nominal: 성적, 직급 (이름에 의미가 있고, 그것이 순서가 존재하는) discrete numeric: 나이 (정수 형태로 이루어진 숫자) 1) nominal-nominal (교차분석) 성별에 따라 생존자 숫자 (비율)이 다른가? contigency table (cross table): 두 개의 변수의 도수를 표시 pd.cross..

1. 변수의 종류와 titanic column 짝짓기 1) nominal: 이름에 의미를 부여할 수 있는 경우, sex, who, adult_male, alive, alone 2) ordinal: 변수 크기나 순서에 대한 의미가 없고 이름에만 의미 부여: pclass, embarked, class, deck, embark_town 3) discrete: 양적 변수 중 이어지지 않은 변수: age, sibsp, parch 4) continuous: 양적 변수 중 이어지는 변수: fare 2. undersampling vs oversampling 빅데이터는 전수처리가 기본이지만, test, 비식별화 등의 용도로 undersampling을 학습 데이터 증강 등의 용도로 oversampling을 할 수 있다. ..

1. 정적 웹페이지 파싱 1) 웹페이지 가져오기 urllib.request.urlopen(url) import urllib.request hollys_url="https://www.hollys.co.kr/store/korea/korStore2.do?pageNo=1&sido=&gugun=&store=" html= urllib.request.urlopen(hollys_url) print(html) 2) beautifulsoup 설치 (환경: Jupyter) !pip install beautifulsoup4 3) 파싱 연습용 html로 실행 BeautifulSoup(): 파싱 soup: 파싱된 객체 prettify(): 파싱된 객체 구조를 예쁘게 보여줌 from bs4 import BeautifulSoup h..

1. 정의 인터넷(SNS, 웹사이트 등)에서 정보 수집 2. 크롤링 종류 API 기반 정보 수집: 프로그램을 위한 정보 제공 API가 존재 스크레이핑: 인간 사용자를 위해 제공된 웹페이지를 파싱하여 활용 3. API 기반 크롤링 1) Naver crawling (비 로그인 형) a. 개발자 센터 가입: http://developers.naver.com NAVER Developers 네이버 오픈 API들을 활용해 개발자들이 다양한 애플리케이션을 개발할 수 있도록 API 가이드와 SDK를 제공합니다. 제공중인 오픈 API에는 네이버 로그인, 검색, 단축URL, 캡차를 비롯 기계번역, 음 developers.naver.com b. 애플리케이션 생성 과정 상단바에서 App 누르고 Application 누르기 A..