'빅데이터 분석' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록빅데이터 분석 (10)

한량처럼 살고 싶다

[오류 기록]kmeans.fit_predict nonetype object has no attribute 'split' 해결하기

k-means 클러스터링을 하다 발생한 오류였다. 아래와 같이 정상적으로 라이브러리를 import 하였다. from sklearn.cluster import KMeans from sklearn.metrics import silhouette_score, silhouette_samples 이후 정규분포로 스케일링을 하고 predict를 하면 이상한 오류가 난다. from sklearn.preprocessing import StandardScaler X_features_scaled = StandardScaler().fit_transform(X_features) kmeans = KMeans(n_clusters=3, random_state=0) Y_labels = kmeans.fit_predict(X_featur..

빅데이터 분석 2023. 4. 27. 10:31

08. 데이터 처리할 때 자주 발생한 오류

결론부터 정리하자면 대부분 오타일 때가 많다(...) 빅데이터나 분석쪽 함수명이 워낙 길다보니 오타가 자주 발생하는데(심지어 맨눈으로 잘 안보임), 오류나면 짜증내면서 무작정 구글을 켜기보단 이름을 먼저 확인하는게 코드 작성 시간을 30% 정도 줄여주는 것 같다. 1. 라이브러리 import 를 제대로 안함 혹은 이름에 오타 라이브러리 양이 많아지고 코드가 길어지다보니 라이브러리 임포트 안한 채로 코드 작성하다가 오류 발생할 때가 많다. 그리고 임포트할 때 너무 길면 이름을 줄이기도 하는데(as) 이 때 줄임말과 변수를 헷갈리는 상황도 빈번히 발생한다. 꼭! 분석함수 쓸 때 그 함수가 어떤 라이브러리에 있는지 제대로 확인하고 import 부터 다시하자 (jupyter나 colab 같이 셀단위로 실행하는 ..

빅데이터 분석 2023. 4. 26. 18:20

07. 머신러닝 - 분류

1. 로지스틱 회귀 1) 배우는 내용 로지스틱 회귀 전처리: Scaling, PCA 결정트리 분류 성능 지표 encoding 2) classification X: 특징 벡터 y: class (nominal) - regression 에서는 y가 numeric value 가장 단순한 분류 ZeroR: 다수인 클래스로 판단 2. 로지스틱 회귀 실습 1) 로지스틱 회귀 분류 방법: sigmoid 함수, X에 값에 따라 특정 지점에서 y가 0 또는 1의 값을 갖도록: 2 class multi class 일 때는 softmax: 합이 1이 됨. 가장 값이 높은 것이 각 클래스의 확률이 된다 1) 데이터 획득하기 import numpy as np import pandas as pd from sklearn.datase..

빅데이터 분석 2023. 4. 26. 14:29

06. 머신러닝-Regression(회귀예측): 선형회귀 모델

1. 집값 예측하기 0) 머신러닝 패키지 설치 #머신러닝 패키지 sklearn 설치 !pip install sklearn 1) 데이터 수집 import numpy as np import pandas as pd from sklearn.datasets import fetch_california_housing housing = fetch_california_housing() housing 2) 데이터 준비 및 탐색 housing.DESCR: 데이터설명 housing.data: X 데이터 housing.feature_names: X 데이터의 feature name housing targe: y 데이터 dataframe.shpe: 보편적 데이터 형태 조회 #데이터 프레임으로 만들기 df = pd.DataFrame..

빅데이터 분석 2023. 4. 26. 12:31

05. 변수 간 관계 분석, 회귀 분석, 데이터 예측

1. 2개 변수 간의 관계 분석 상관이 있는가? 독립변수가 종속변수에 영향을 주었는가? 변수 유형 nominal vs numeric discrete vs continuous 또다른 분류 unordered nominal: 혈액형, 남녀 (순서를 줄 수 없고 이름에 의미가 있는) continuous numeric: 키, 몸무게 (float 형태로 이루어진 숫자) ordered nominal: 성적, 직급 (이름에 의미가 있고, 그것이 순서가 존재하는) discrete numeric: 나이 (정수 형태로 이루어진 숫자) 1) nominal-nominal (교차분석) 성별에 따라 생존자 숫자 (비율)이 다른가? contigency table (cross table): 두 개의 변수의 도수를 표시 pd.cross..

빅데이터 분석 2023. 4. 26. 02:50

04. 기술 통계

1. 변수의 종류와 titanic column 짝짓기 1) nominal: 이름에 의미를 부여할 수 있는 경우, sex, who, adult_male, alive, alone 2) ordinal: 변수 크기나 순서에 대한 의미가 없고 이름에만 의미 부여: pclass, embarked, class, deck, embark_town 3) discrete: 양적 변수 중 이어지지 않은 변수: age, sibsp, parch 4) continuous: 양적 변수 중 이어지는 변수: fare 2. undersampling vs oversampling 빅데이터는 전수처리가 기본이지만, test, 비식별화 등의 용도로 undersampling을 학습 데이터 증강 등의 용도로 oversampling을 할 수 있다. ..

빅데이터 분석 2023. 4. 25. 20:48

03-2. 웹페이지 스크레이핑

1. 정적 웹페이지 파싱 1) 웹페이지 가져오기 urllib.request.urlopen(url) import urllib.request hollys_url="https://www.hollys.co.kr/store/korea/korStore2.do?pageNo=1&sido=&gugun=&store=" html= urllib.request.urlopen(hollys_url) print(html) 2) beautifulsoup 설치 (환경: Jupyter) !pip install beautifulsoup4 3) 파싱 연습용 html로 실행 BeautifulSoup(): 파싱 soup: 파싱된 객체 prettify(): 파싱된 객체 구조를 예쁘게 보여줌 from bs4 import BeautifulSoup h..

빅데이터 분석 2023. 4. 16. 21:59

03-1. 크롤링

1. 정의 인터넷(SNS, 웹사이트 등)에서 정보 수집 2. 크롤링 종류 API 기반 정보 수집: 프로그램을 위한 정보 제공 API가 존재 스크레이핑: 인간 사용자를 위해 제공된 웹페이지를 파싱하여 활용 3. API 기반 크롤링 1) Naver crawling (비 로그인 형) a. 개발자 센터 가입: http://developers.naver.com NAVER Developers 네이버 오픈 API들을 활용해 개발자들이 다양한 애플리케이션을 개발할 수 있도록 API 가이드와 SDK를 제공합니다. 제공중인 오픈 API에는 네이버 로그인, 검색, 단축URL, 캡차를 비롯 기계번역, 음 developers.naver.com b. 애플리케이션 생성 과정 상단바에서 App 누르고 Application 누르기 A..

빅데이터 분석 2023. 4. 16. 19:40

이전 Prev 1 2 Next 다음

목록빅데이터 분석 (10)

한량처럼 살고 싶다

티스토리툴바