본문 바로가기

전체 글

(300)
데이터 파이프라인(Data Pipeline) 데이터 파이프라인(Data Pipeline) 데이터를 차례대로 전달해 나가는 구성된 시스템 데이터를 모으는 데이터 수집부터 시각화까지의 전 과정 데이터 파이프라인은 ETL을 포함하는 광범위한 용어 1️⃣ 데이터 수집 데이터는 여러 시스템에서 생성되고 각각 다른 형태 데이터의 전송 형태 Bulk Type → 이미 존재하는 데이터를 정리해 추출하는 방법. DB와 파일 서버 등 정기적으로 데이터 수집하는 형태 Streaming → 차례차례 생성되는 데이터를 끊임없이 보내는 방법. 2️⃣ 데이터 처리 데이터를 수집하고 저장하기 전에 처리하는 과정이 필요 유용하게 활용되었던 기술은 '배치(batch) 위주의 기술'. 매일 적제되는 데이터 기준, 새벽에 전 날 데이터의 실적 등을 정리하는 형태 배치 프로세스와 실시..
데이터 웨어하우스, 데이터 마트, 데이터 레이크 데이터베이스를 가르키는 3가지 스타일. 빅데이터를 지탱하는 기술이라는 책을 읽어봐야겠다. 1️⃣ 데이터 웨어하우스(Data Warehouse) 대량의 데이터를 장기보존 하는 것에 최적화. 대용량 데이터에 특화. 데이터를 다양한 원천에서 수집하여 주제별로 저장 다양한 원천에서 발생하는 데이터를 소비자에게 전달하기 전에 통합하여 저장하는 공간 2️⃣ 데이터 마트(Data Mart) 데이터를 활용하기 위한 형태 거의 그대로 데이터를 쌓아두는 공간 상세한 단위로 데이터를 저장하고 사용한다 집계성 또는 시각화를 위한 작은 데이터를 만들어주는 과정 → 시각화 툴과 연동되어 사용가능 3️⃣ 데이터 레이크(Data Lake) 하나의 통합된 형태로 정제한 DW와 달리, 다양한 형태 그대로 한 곳에 저장하는 공간 모든 데..
[Publy] 현직자 인터뷰: 데이터 엔지니어, 데이터 사이언티스트, 데이터 분석가 Summary 1️⃣ 데이터 엔지니어 기업 내 데이터 인프라를 구축, 기업 내 데이터 기초 공사 데이터를 어떻게 수집할지, 어떻게 쌓을지, 어떻게 관리할지를 고민해서 회사 내 데이터 흐름 생성 필요한 데이터를 만들어내는 일련의 과정을 만들어내고 자동화 필요 역량 → 파이프 라인 구축, 데이터 가공 💡 TIP! 빅데이터 플랫폼 구성해보기 2️⃣ 데이터 사이언티스트 데이터 관련 새로운 기술을 서비스에 적용하는 역할 새로 나오는 논문을 읽고 해당 논문 내용을 기반으로 주로 서비스를 개선하는 역할 필요 역량 → 데이터 분석 관련 기초 역량, 협업 역량 💡 TIP! 남이 짜 놓은 코드 리뷰하기 : 캐글(Kaggle) 3️⃣ 데이터 분석가 데이터를 분석하는 직무 비즈니스 주요 지표를 정의하고 분석하는 일 데이터 ..
[English] Article English #1 Topic: 2021 not as bad as 2020, says think tank 🔗 Do I have a question about a word in the article? Does code red mean a dangerous signal? It's the affect of climate change. Winter is not as code as before. VOCABULARY WORDS contagious a.전염성의, 전염되는