전체 글 55

반려동물 식품 쇼핑몰 데이터 분석 - 데이터 이해

데이터 셋 Pet Food Customer Orders Online | Kaggle Pet Food Customer Orders Online www.kaggle.com 데이터는 총 36 column이며, 49042개의 데이터들로 이루어져 있습니다. RangeIndex: 49042 entries, 0 to 49041 Data columns (total 36 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 customer_id 49042 non-null uint64 1 pet_id 49042 non-null uint64 2 pet_order_number 49042 non-null int64 3 wet_food_order_nu..

카테고리 없음 2024.02.22

Customer Segmentation (고객 세그멘테이션) 개념

. 저는 이번에 이커머스 고객 세분화 분석 아이디어 경진대회에 참여하여 고객 세그먼테이션에 대해 공부하고 알아가고자 합니다. https://dacon.io/competitions/official/236222/data 이커머스 고객 세분화 분석 아이디어 경진대회 - DACON 분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다. dacon.io 이커머스 개아이디어 경진 분석 목적에 맞는 고객 세그먼테이션 방법을 찾아서 : Customer segmentation 고객 세그먼테이션 5단계 방법 medium.com 개인적으로 접해본 경험이 없어서 위의 링크를 참조하여 개념을 알 수 있었습니다. 참 깔끔하게 정리되어있으니 다들 한번 보셨으면 좋겠어요! 우리의 프로덕트의 고객을 어떻게 분류할..

카테고리 없음 2024.02.17

GAP(Global Average Pooling)

Global Average Pooling 이란 Global Average Pooling은 feature map 의 가로 x 세로 의 특정 영역을 sub sampling 하지 않고, 채널 단위로 평균 값을 추출하는 방법이다. 3차원 Feature map 을 1차원 Dense Classification layer에 연결 시, 많은 연결 노드와 파라미터가 필요하다. 예를 들어 (8 , 8, 512 ) 의 Feature map을 Flatten으로 1차원 형태로 바꾸면 8 x 8 x 512 = 32,768의 파라미터가 생기고, 여기서 100개의 뉴런으로 구성된 Layer에 연결하면 32,768,000개의 파라미터가 생긴다. 하지만 Global Average Pooling을 사용하게 되면 효과적으로 노드와 파라미터..

합성곱 신경망 정리 (Convolutional Nueral Network , CNN)

1. 합성곱층의 필요성 합성곱 신경망은 이미지나 영상을 처리하는데 유용하다. 예를 들어서 다음과 같이 3x3 흑백 이미지가 있다고 가정할때, 이미지 분석은 3x3 배열을 펼쳐서(flattening) 각 픽셀에 가중치를 곱하여 은닉층으로 전달하게 된다. 하지만 이렇게 분석하면 데이터의 공간적 구조를 무시하게 되는데, 이것을 방지하려고 도입된 것이 합성층이다. 2. 합성곱 신경망 구조 합성곱 신경망(Convolutional Neural Network , CNN) 은 음성인식이나 이미지/영상 인식에서 주로 사용되는 신경망이다. 다차원 배열 데이터를 처리하도록 구성되어 컬러 이미지와 같은 다차원 배열 처리에 특화되어 있으며 , 다음과 같은 계층으로 구성된다. 입력층 합성곱층 풀링층 완전연결층 출력층 합성곱 신경..

[python] matplotlib 한글 자음 모음 분리 현상

🤔 문제: 구글에서 검색해서 한글 폰트 설정하는 함수를 실행했더니 시각화 한 결과가 다음과 같이 자음과 모음이 분리된 채로 나온다. 구글링을 통해서 쉽게 찾을 수 있었다. 감사합니다..😍 💡 참고한 자료 : https://jonsyou.tistory.com/26 [Python] 한글 내용이 같지만 다르다고 인식하는 경우 분석 환경 Google Colab pro의 구성환경 Python Version : 3.7.10 상황 눈으로 볼 땐 두 한글 변수의 값이 같지만 비교 연산자 실행 시 다르다고 인식하는 상황. 더 나아가 두 변수를 같게끔 인식 시키고 싶 jonsyou.tistory.com 😯 요약하자면 unicodedata 모듈의 normalize 함수를 사용하여 해결했다. unicodedata 모듈 : 이..

파이썬(Python) 2024.01.09

[웹크롤링] window.scrollTo(0, document.body.scrollHeight)

웹 크롤링을 진행하는데 브라우저의 창을 현재 위치에서 문서의 맨 아래로 끝까지 내리는 JavaScript 코드가 다음과 같았다. window.scrollTo(0, document.body.scrollHeight) 여기서 document.body.scrollHeight는 현재 문서(body) 읯 총 높이다. 그렇다면 0은 무엇을 의미하는지 궁금해서 찾아봤다 (궁금한건 못참는 사람🖐️) 💡 0은 가로 스크롤을 의미한다고 한다. 스크롤의 위치를 지정할 때 (가로, 세로) 형태로 값을 지정하는데, 여기서 가로 스크롤은 0으로 설정되어 있다. 가로 스크롤은 보통 웹페이지에서 수직방향으로만 스크롤이 되는 경우에는 크게 중요하지 않다. 대부분의 경우 수직 스크롤이 주로 사용되기 때문에 수평 스크롤을 0으로 설정하는 ..

파이썬(Python) 2024.01.07

[SQL] SELECT ALL FROM SQL

기초 문법을 다시 되짚어보고자 강의를 수강했으며 현재 인프런에서 박범진님께서 무료로 강의를 제공해주고 있습니다. 무한한 감사를 드리며.. 😊 https://www.inflearn.com/course/sql-select/dashboard [지금 무료] SELECT ALL FROM SQL 강의 - 인프런 SQL 설치 없이 시작하는 SQL SELECT 기초 문법 강의입니다., SQL Select로 실제 데이터 추출까지! 강의 소개📝 • SQL의 SELECT 문법을 통하여 자신이 원하는 데이터를 추출할 수 있도록 만든 강의입니다. www.inflearn.com 1.SELECT (조회) SELECT 열 이름(들) FROM 테이블명; = 테이블며에서 열 이름(들)을 가지고 와라 숫자제한(LIMIT) SELECT C..

SQL 2024.01.03

[머신러닝]Feature Selection - Filter Methods

Feature Selection : Filter Methods 각각의 독립변수를 하나만 사용한 예측모형의 성능을 이용하여 가장 분류성능 혹은 상관관계가 높은 변수만 선택하는 방법이다. 통계적 측정방법을 사용하여 피처들의 상관관계를 알아내는 방법 도움이 되지 않는 피처들은 걸러내는 'filter' 방식 💡하지만 단일 변수의 성능이 높은 특징만 모았을 때 전체 성능이 반드시 향상된다는 보장은 없다. sklearn.feature_selection.SelectKBest http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html sklearn.feature_selection.SelectKBest Example..

[python] predict vs predict_proba의 차이

predict() 는 범주의 예측을 반환 predict_proba()는 확률을 반환 1) predict() : predict의 경우, 각각 모델의 최종 예측값을 출력 회귀모델 : 특정 값 출력 ( 0.56 , 0.65 .. ) 분류모델 : 가장 확률이 높은 클래스 출력 (0 ,1 ,2 .. ) 2) predict_proba() : 분류모델이 각 클래스에 대한 확률을 출력 회귀에서는 사용할 수 없다 model = GradientBoostingClassifier(random_state = 0 , learning_rate = 0.01, n_estimators = 450) model.fit(x_train , y_train) #predict y_pred = model.predict(x_test) #pred_pro..

파이썬(Python) 2023.12.28

[불균형 데이터]오버샘플링(Over Sampling)

오버샘플링 기법 : minority class 의 데이터 다수 범주의 데이터 수에 맞게 늘리는 샘플링 방식 1. Resampling : minority class 의 데이터를 단순히 copy 하는 방법 → 새로운 데이터가 아닌 소수 데이터 개수만 많아지는 방법 ✔️ 단점 → minority class 에 과적합이 발생할 가능성이 있음. 2. SMOTE(Synthetic Minority Over-sampling Technique) : minority class 의 데이터를 최근접 이웃(K-NN) 알고리즘을 활용하여 새롭게 생성하는 방법이다. minority class 의 데이터 중 임의의 한개를 기준으로 잡는다 해당 데이터와 가장 가까운 거리에 있는 k개의 데이터를 찾는다 (이때 k개의 데이터는 모두 소수..