- Today
- Total
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- map
- 연관분석
- 프로그래머스 SQL
- 부스트캠프ai
- 쉽게 배우는 데이터 통신과 컴퓨터 네트워크 답지
- 깃
- 행렬
- 컴퓨터 통신
- HackerRank
- 프로그래머스
- ERROR: install is not COMMAND nor fully qualified CLASSNAME.
- 딥러닝 개요
- gpt-api
- 딥러닝 역사
- MySQL
- inner join
- 부스트캠프
- 컴퓨터통신
- 쉽게 배우는 데이터 통신과 컴퓨터 네트워크
- 역전파
- pre-course
- gpt-api에러
- npm install -g yarn 에러
- pandas
- TabNet
- NumPy
- sql
- python
- 코딩테스트
- yarn 설치 에러
목록데이터청년캠퍼스 (9)
최말짱 블로그
데이터 전처리 정의 - 데이터 분석 작업을 하기 전에 데이터를 분석하기 좋은 형태로 만드는 과정을 총칭 데이터 전처리가 필요한 이유 - 실무 데이터는 분석 기법을 바로 적용하기 힘든 형태 - 비어있음(missing value), 잡음(noise), 적합하지 않은 데이터 구조 - 낮은 품질의 데이터로는 좋은 분석결과를 얻기 힘듦 데이터 품질 저하의 원인 - 불완전(incomplete) : 데이터가 비어 있는 경우로 DB 테이블의 속성값이 NULL인 경우 - 잡음(noisy) : 데이터에 오류(error)가 포함된 경우 ex) 나이가 음수인 경우 - 모순된(inconsistent) : 데이터 간의 일관성이 없는 경우. ex) 성별은 남자인데 주민번호 뒷 7자리 중 첫 자리가 2인 경우 고품질 데이터라고 하더..

머신러닝 분석 프로젝트는 어떻게 진행되나? 막막할 땐 잘 정리된 방법론의 절차를 따라 진행하면 쉽게 접근할 수 있을 것이다 ! 오늘은 방법론에 대해 알아보자 ㅎㅎ 1) CRPISP-DM 방법론 - Cross- Industry Standard Process for Data Mining - 분석 프로젝트를 위한 모형 중에 가장 잘 알려진 방법론 - 데이터 마이닝을 위해 만들어 진 방법론이나 예측론, 머신러닝 등 여러 분석적 프로젝트에 이용 될 수 있을 만큼 유연하고 빈틈없다. - 크게 6가지 단계로 이루어 지며, 각 단계별로 하위 3~4과제로 구성 https://the-modeling-agency.com/crisp-dm.pdf 1. 비즈니스 이해 - 분석 프로젝트의 목적을 비즈니스 시각에서 부터 시작하고 그..
빈발항목을 찾는 연관 규칙 3가지 Apriori, Eclat, FP-Growth 연관 규칙 탐사 1단계) 트랜젝션으로 부터 최소 지지도 이상의 빈발항목을 생성하고 (search & counting) 2단계) 빈발 항목의 각 항목집합의 부분 집합을 조합하여 신뢰도나 향상도가 좋은 연관규칙을 탐사하는 과정이다. 1. Apriori 알고리즘 트랜젝션으로 부터 최소 지지도 이상의 빈발항목을 생성하는 알고리즘이다. Apriori 원리를 이용하여 효율적으로 빈발항목을 생성하며, 너비 우선 검색을 한다. 원리 - 빈도가 높은 항목집합(item set) I의 어떤 부분집합도 I보다 같거나 높은빈도(지지도)를 갖는다. {a,b,c}가 5번 나타난다면, {a,b},{b,c},{a,c}는 5번 이상 나타난다. - 마찬가지로..
군집분석이란? - 각 객체의 유사성을 측정하여 비슷한 특성을 가진 그룹을 찾는데 사용되는 분석 방법 - 사람들의 나이와 경제적 수입이 유사한 그룹을 찾아내어 해당 그룹의 공통적인 특성(직업, 거주지역, 근무환경 등)을 분류할 수 있음. ex) 화물 배송 경로 개선 - 고객 위치를 기준으로 유사한 지역 군집하여 더 효율적인 경로가 있는지 - 투입 차량 16대 -> 14대 감소 - 차량 이동거리 감소의 효과 분할 기반 군집분석 클러스터링 : k-means(= k-means++, k-centroid, k-medoid..) 분할 기반은 주로 기법 이름 앞에 k가 붙는다. 다 비슷비슷하다고 생각하면 됨 ! - 데이터들이 있을 때, 임의로 데이터 들을 나눈다. - 반복적으로 수많은 분할을 수행 검토함( 조금씩 군집..
파이썬의 특징 1. 간결하고 가독성 높은 문법 배우기 쉽고, 코드를 이해하기 쉬움. 유지보수성이 뛰어남 협업을 통한 개발시 코드를 이해하는 것이 중요 -> 간결한 문법은 큰 장점이 됨 2. 인터프리터 언어 컴파일 언어와 다르게, 바로 결과를 확인할 수 있다.(속도는 컴파일 언어보다 느리나, 하드웨어 발달로 요즘은 문제X) 3. 다양하고 강력한 외부 라이브러리 풍부 다른 사람들이 만들어 놓은 프로그램(라이브러리) 활용할 수 있음 개발 생산성이 높음. 최근 데이터 분석 및 인공지능 분야에서 활용됨 -> 분석 및 인공지능 분야 개발에 좋음 결과를 표현할 때 웹 프레임 워크 지원 -> 웹과 연동이 쉬워 확장성이 좋음.
1. 지지도 support - 지지도는 발생빈도에 해당, 얼마나 자주 나타나는가를 판단 - 항목집합(item set)이 거래 데이터(transaction)내에서 나타날 확률, 전체 거래 횟수에 대한 해당 항목집합 거래 횟수 비중으로 계산 - 지지도는 확률이므로 값의 범위는 [0,1] ex. 우유의 support - support(x=>y) = Frequency(우유가 나온 횟수)/전체transaction 갯수 N 빈발 항목과 연관 규칙 후보 도출 의미 있는 분석을 위해서, 일정 기준 이상 등장하는 항목집합을 분석, 최소 지지도 minimum support를 기준으로 분석 항목 선정 ex. 최소 지지도 0.3 이상일 때의 연관 규칙 후보 -> 최소 지지도 0.3 이하는 고려하지 않는다. 2. 신뢰도 con..
1. 고객관계 관리 CRM 경영전략 패러다임은 환경의 변화를 수용하며 발전 물물교환시대에는 생산자와 고객의 정보력과 노력으로 직접 거래했다. -> 산업화를 통해 유통, 원가를 관리하는 생산관리의 개념이 도입되었다. -> 자본의 유입으로 경쟁이 심화되고 차별화 하고자 품질 관리 개념이 도입되었다. -> 다양한 판촉활동을 통한 판매관리를 수행하게 되었다. CRM(고객관계관리)이란? - 기업의 다양한 자원과 역량을 활용하여 고객과의 관계획득, 유지, 그리고 강화 등 전체 고객생애주기에 걸쳐서 고객과 기업 상호간의 이익극대화를 추구하기 위한 기업의 모든 경영활동의 기반이 되는 경영전략 또는 패러다임 고객관계 관리를 달성하기 위한 프로세스 고객관계를 관리하는 활동은 신규 고객과의 관계를 확보하고, 이들과의 관계를..
보호되어 있는 글입니다.
4차 산업혁명 디지털 혁명을 기반으로 디지털 기술로 촉발되는 초연결 기반의 초지능화 혁명 모든 기술이 융합하여 물리학, 디지털, 생물학 분야가 상호 교류 4차 산업혁명의 특징 1. 초연결(Hyper Connectivity) : 사물인터넷(loT), 5G의 진화를 통해 인간-인간, 인간-사물, 사물-사물의 네트워크 강화 2. 초융합(Hyper Convergence) : 기술간, 산업간, 사물-인간 간 경계가 사라지는 "대융합" 시대, 새로운 산업 생태계 조성 3. 초지능(Hyper Intelligence) : 빅데이터와 인공지능의 결합 및 연계로 기술 및 산업 구조의 초지능화 강화 = > 모든 것이 상호 연결되고, 지능화된 사회로 변화함. 4차 산업혁명의 핵심 기술 ICBM + A.I. ICBM -> 사물..