โ . ๋ฐ์ดํฐ ์จ์ดํ์ฐ์ค
1. ๋ฐ์ดํฐ ํ์ ๋ชฉํ
์ ๋ขฐํ ์ ์๋ ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก ๋ถ๊ฐ๊ฐ์น๋ฅผ ์์ฑ(๋ณธ์ ์ ๋ ์ํ ์ ์๊ฒ ํ๋ ๊ฐ์ ๋งค์ถ) ํ๋ค.
๋๊ฐ์ง ์ธก๋ฉด์ผ๋ก ๋๋์ด์ ์ค๋ช ํ ์ ์๋ค.
1) ๊ณ ํ์ง ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ถ์ผ๋ก ์์ฌ ๊ฒฐ์ ์์๊ฒ ๋์์ ์ค๋ค.(Data science)
๋ฐ์ดํฐ๋ฅผ ๊ณ ๋ คํ ๊ฒฐ์ | ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๊ฒฐ์ |
๋ฐ์ดํฐ๋ฅผ ๊ณ ๋ คํ๋, ๋ฐ์ดํฐ์ ๋ฐฉํฅ์ฑ์ด ๋ฌ๋ผ๋ ์๊ฒฌ์ ๊ณ ์ํ๋ค. |
๋ฐ์ดํฐ์ ๋ฐฉํฅ์ฑ๋๋ก ๊ฒฐ์ ํ๋ค. |
๋ฐ์ดํฐ ๊ธฐ๋ฐ ๊ฒฐ์ ์ ์ด๋ค ์ผ์ ์ต์ ํํ๋๋ฐ ํ์ํ๋ค๋ฉด,
์๋ก์ด ๊ฒฐ์ ์ ํ๊ธฐ ์ํด์๋ ๋ฐ์ดํฐ๋ฅผ ๊ณ ๋ คํ ๊ฒฐ์ ์ด ๋ ์ฌ๋ฐ๋ฅธ ๋ฐฉํฅ์ด๋ค. ๊ฒฐ๊ตญ ๋ฐ์ดํฐ๋ ๊ณผ๊ฑฐ์ ์ฐ๋ฌผ์ด๊ธฐ ๋๋ฌธ์ ํ์ฌ์ํฉ๊ณผ ๋ฏธ๋์ํฉ์ 100% ์ ์ฉํ๊ธฐ๋ ํ๋ค๊ธฐ ๋๋ฌธ์ด๋ค.
์ฌ์ฉ
๋ฐ์ดํฐ ๊ธฐ๋ฐ ์งํ ์ ์, ๋์๋ณด๋์ ๋ฆฌํฌํธ ์์ฑ
2) ๊ณ ํ์ง ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ์ฌ์ฉ์ ๊ฒฝํ ๊ฐ์ ํน์ ํ๋ก์ธ์ค ์ต์ ํ(Product Science)
์ฌ์ฉ
์๊ณ ๋ฆฌ์ฆ์ ํตํด ์ฌ์ฉ์์ ์๋น์ค ๊ฒฝํ์ ๊ฐ์ (๊ฐ์ธํ๋ฅผ ๋ฐํ์ผ๋ก ์ถ์ฒ๊ณผ ๊ฒ์), ๊ณต์ ๊ณผ์ ์ ์ค๋ฅ ์ต์ ํ
๋ณดํต์ ํ์ฌ์์ 1๋ฒ ๊ณผ์ ์ด ์ธ์ ์ ๋ฐ์์ผ 2๋ฒ์ผ๋ก ๋ฐ์ ํ ์ ์๋ค.
2. ๋ฐ์ดํฐ ํ์ ๋ฐ์ ๋จ๊ณ
ํ๋ก๋์ ๋ฐ์ดํฐ๋ฒ ์ด์คOLTP
→ ๋ฐ์ดํฐ ์ธํ๋ผ ๊ตฌ์ถ(๋ฐ์ดํฐ๋ถ์์ฉ ๋ฐ์ดํฐ์จ์ดํ์ฐ์ค OLAP, ์ธ๋ถ์์ ๋ฐ์ดํฐ ์ถ์ถํด์ ์ ์ฌ ETL)
→ ๋ฐ์ดํฐ ๋ถ์(์งํ ์ ์, ์๊ฐํ)
→ ๋ฐ์ดํฐ ๊ณผํ ์ ์ฉ(์ฌ์ฉ์ ๊ฒฝํ ๊ฐ์ )
๋ณดํต ๋ฐ์ดํฐ๊ณผํ์ ์ ์ฉํ๊ธฐ ์ ์ ๋ฐ์ดํฐ ์ธํ๋ผ ๊ตฌ์ถ๊ณผ ๋ฐ์ดํฐ ๋ถ์๊ฐ์ ๊ธฐ๋ฐ์ ๊ฐ์ถฐ ๋๋ ๊ฒ์ด ์ค์ํ๋ฐ,
๋ฐ์ดํฐ ๊ณผํ์ ๋จผ์ ์ ์ฉํ๋ฉด ์ค์ ๋ก ๋์์ด ๋๋์ง ์ฑ๊ณผ์ธก์ ์ด ์ด๋ ต๊ธฐ ๋๋ฌธ์ด๋ค.
1) ๋ฐ์ดํฐ ์ธํ๋ผ ๊ตฌ์ถ
๋ฐ์ดํฐ๊ฐ ๋ง์ด ์์ด๋ฉด ๋ฐ์ดํฐ ์ธํ๋ผ ๊ตฌ์ถ ๋จ๊ณ๋(DataLake → ์ฒ๋ฆฌ(Spark) → ETL → ๋ฐ์ดํฐ ์จ์ดํ์ฐ์ค) ์์๊ฐ ๋๋ค.
๋ฐ์ดํฐ ์จ์ดํ์ฐ์ค
๊ท๋ชจ๊ฐ ํฐ ๋ฐ์ดํฐ๋ฒ ์ด์ค
ํด๋ผ์ฐ๋ : AWS Redshift, Google BigQuery
Snowflake
์คํ์์ค : Hadoop(Hive, Presto), Spark
๋ณดํต AWS Redshift๋ฅผ ์ฌ์ฉํ ๋, ๋ ํฐ ๋ฐ์ดํฐ์ ๋ํด์๋ BigQuery, Snowflake๋ฅผ ์ฌ์ฉ
ETL(Extract, Transform, Load)
ํด๋ผ์ฐ๋ : AWS, Google Cloud
์คํ์์ค : Airflow(๊ฐ์ฅ ๋ณดํธ์ ์ผ๋ก ์ฌ์ฉ)
SAAS : FiveTran, Stitch Data
2) ๋ฐ์ดํฐ ๋ถ์
์งํ์ ์
๋ณดํต ์ค์ ์งํ๋ฅผ ์๊ฐ์ ํ๋ฆ๊ณผ ํจ๊ป ๋ณด์ฌ์ฃผ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ด๋ค.
3A(Accessible - ์๋์ ์ผ๋ก ์ ๋ฐ์ดํธ, Actionable - ์ฆ๊ฐ์ ์๋ฏธ๊ฐ ๋ถ๋ช , Auditable - ์งํ ์ ์์ ๋ํด ์ฝ๊ฒ ํ์ธ)
ex) ๋งค์ถ์ก, ์๊ฐ/์ฃผ๊ฐ Active Users
์๊ฐํ ๋๊ตฌ
Google Cloud Looker
Salesforce Tableau
MS PowerBI
Apache Superchat
3) ๋ฐ์ดํฐ ๊ณผํ(์ธ๊ณต์ง๋ฅ> ๋จธ์ ๋ฌ๋> ๋ฅ๋ฌ๋)
๋จธ์ ๋ฌ๋์ด๋ ํ๋ก๊ทธ๋๋ฐ ์์ด ๋ฐฐ์์ด ๊ฐ๋ฅํ ์๊ณ ๋ฆฌ์ฆ(๋ฐ์ดํฐ๋ก๋ถํฐ ํจํด์ ์ฐพ์ ํ์ต)์ผ๋ก
๋ฐ์ดํฐ์ ํ์ง๊ณผ ํฌ๊ธฐ๊ฐ ์ค์ํ๋ค(๋ฐ์ดํฐ ์๊ณก์ด ๋ฐ์ ๊ฐ๋ฅํ๋ค)
3. ๋ฐ์ดํฐ ํ์ ๊ตฌ์ฑ์
๋ฐ์ดํฐ ์์ง๋์ด(๋ฐ์ดํฐ ์ธํ๋ผ ๊ตฌ์ถ)
๋ฐ์ดํฐ ๋ถ์๊ฐ(๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์งํ๋ฅผ ๋ง๋ค๊ณ ์๊ฐํ)
๋ฐ์ดํฐ ๊ณผํ์(๊ณผ๊ฑฐ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ฏธ๋๋ฅผ ์์ธกํ๋ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ๋ง๋ค์ด ๊ณ ๊ฐ์ ์๋น์ค ๊ฒฝํ์ ๊ฐ์ )
๊ทธ ์ธ) ML์์ง๋์ด, MLOps, ํ๋ผ์ด๋ฒ์ ์์ง๋์ด, ๋ฐ์ดํฐ ๋์ค์ปค๋ฒ๋ฆฌ(์ฃผ๊ธฐ์ ์ธ ํ ์ด๋ธ๊ณผ ๋์๋ณด๋ ํด๋ฆฐ์ ex. ์๋ฌธ์ผ, ๋ฐ์ดํฐํ๋ธ, ์ ๋ ํธ์คํ)
๋ฐ์ดํฐ ์์ง๋์ด ์ทจ์ ์ ์ํด ์์์ผ ํ ๊ธฐ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
SQL
ํ๋ก๊ทธ๋๋ฐ ์ธ์ด(Python, Scala, Java)
๋ฐ์ดํฐ์จ์ดํ์ฐ์ค(Redshift, Snowflake, BigQuery), ETL(Airflow)
๋์ฉ๋ ๋ฐ์ดํฐ ์ฒ๋ฆฌ(Spark, Hadoop YARN)
+alpha
์ปจํ ์ด๋ ๊ธฐ์ (Doker/์ฟ ๋ฒ๋คํฐ์ค)
ํด๋ผ์ฐ๋ ์ปดํจํ (AWS, GCP, Azure)
๊ธฐํ ์ง์(๋จธ์ ๋ฌ๋, A/B ํ ์คํธ, ํต๊ณ)
๋ก๋๋งต
๋ฐ์ดํฐ ๋ถ์๊ฐ๊ฐ ์ทจ์ ์ ์ํด ์์์ผ ํ ๊ธฐ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
SQL
ํ๋ก๊ทธ๋๋ฐ ์ธ์ด(Python, Scala, Java)
๋์๋ณด๋(Looker, Tableu, PowerBI, Superchat)
๋ฐ์ดํฐ๋ชจ๋ธ๋ง
ํต๊ณ์ง์(A/B/ํ ์คํธ ๋ฑ)
๋น์ฆ๋์ค ๋๋ฉ์ธ์ ๊ดํ ์ง์
์ข์ ์งํ๋ฅผ ์ ์ํ๋ ๋ฅ๋ ฅ
4. ๋ฐ์ดํฐ๋ ์ดํฌ์ ๋ฐ์ดํฐ ์จ์ดํ์ฐ์ค, ETL๊ณผ ELT
Redshift๋ ๊ณ ์ ๋น์ฉ ์ต์ ์ด๋ฉฐ, ์กฐ๊ธ ๋ ์์ ๊ท๋ชจ์ ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ๋ค.
BigQuery, snowflake๋ ๊ฐ๋ณ๋น์ฉ ์ต์ ์ด๋ฉฐ ํฐ ๊ท๋ชจ์ ๋ฐ์ดํฐ์ ์ ํฉํ๋ค.
ETL | ELT | |||
๋ก๊ทธ → | ๋ฐ์ดํฐ๋ ์ดํฌ → | ๋ฐ์ดํฐ์จ์ดํ์ฐ์ค | ||
์์ด ๋ง๊ณ ์ฃผ๋ก ๋น๊ตฌ์กฐํ ๋ฐ์ดํฐ๋ก ๊ตฌ์ฑ |
๊ตฌ์กฐํ ๋ฐ์ดํฐ+๋น๊ตฌ์กฐํ ๋ฐ์ดํฐ ๋ณดํต ํด๋ผ์ฐ๋ ์คํ ๋ฆฌ์ง์ ์ ์ฅ(ex. AWS S3) |
๊ตฌ์กฐํ ๋ฐ์ดํฐ(SQL๋ก ์ฒ๋ฆฌ ๊ฐ๋ฅ) |
ETL(Extract, Transform, Load)
๋ฐ๊นฅ์ ๋ค์ํ ๋ฐ์ดํฐ์์ค(ํ๋ก๋์
DB [mysql, postgres], ์ด๋ฉ์ผ ๋ง์ผํ
๋ฐ์ดํฐ[Mailchimp, Hubspot, SendGrid], ํฌ๋ ๋ง์นด๋ ๋งค์ถ ๋ฐ์ดํฐ[Stripe], ์ํฌํธ ํฐ์ผ ๋ฐ์ดํฐ[Kustomer], ์ํฌํธ ์ฝ ๋ฐ์ดํฐ[ChannelTalk, RingCentral, Talkdesk], ์ธ์ผ์ฆ ๋ฐ์ดํฐ[Salesforce], ์ฌ์ฉ์ ์ด๋ฒคํธ ๋ก๊ทธ[Amplitude, MixPanel, ์น ์๋ฒ๋ก๋] ๋ฑ)์์ ๋ฐ์ดํฐ๋ ์ดํฌ, ๋ฐ์ดํฐ ์จ์ดํ์ฐ์ค์ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ธ์ค๋ ๊ฒ์ด๋ค
์ฃผ๋ก Airflow ์ฌ์ฉ
ex) ๋ก๊ทธ → ๋ฐ์ดํฐ๋ ์ดํฌ, ๋ก๊ทธ → ๋ฐ์ดํฐ์จ์ดํ์ฐ์ค
ELT(Extract, Load, Transform)
๋ฐ์ดํฐ๋ ์ดํฌ, ๋ฐ์ดํฐ์จ์ดํ์ฐ์ค ๋ด๋ถ ๋ฐ์ดํฐ๋ฅผ ์กฐ์ํด์ ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ๋ง๋ ๋ค
๋ณดํต ๋ฐ์ดํฐ๋ถ์๊ฐ๊ฐ ๋ง์ด ์ํํ๋ค
Transform ๊ณผ์ ์์ DBT ์ฌ์ฉ
๋ฐ์ดํฐ๋ ์ดํฌ → ๋ฐ์ดํฐ๋ ์ดํฌ, ๋ฐ์ดํฐ๋ ์ดํฌ → ๋ฐ์ดํฐ์จ์ดํ์ฐ์ค, ๋ฐ์ดํฐ์จ์ดํ์ฐ์ค → ๋ฐ์ดํฐ์จ์ดํ์ฐ์ค
๋ณดํต ํด๋น ๊ณผ์ ์์ ๋น ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๊ธฐ์ ์ ์ฌ์ฉํ๋ค
ex) ์ผ๋ณ ๋งค์ถ ํํฉ
5. Airflow(ETL, ELT ์ค์ผ์ค๋ฌ)
๋ค์์ ETL์ด ์กด์ฌํ๋ ๊ฒฝ์ฐ ์ด๋ฅผ ์ค์ผ์ค๋งํด ์ฃผ๊ณ ์์กด๊ด๊ณ๋ฅผ ์ ์
ํน์ ETL์ด ์คํจํ ๊ฒฝ์ฐ ์ด์ ๊ดํ ์๋ฌ๋ฉ์์ง+์ฌ์คํ(Backfill)
๊ตฌ์ฑ) ์ค์ผ์ค๋ฌ, ์น์๋ฒ, ์์ปค
์ง์) AWS, GoogleCloud, Azure
6. ๋น ๋ฐ์ดํฐ ์ฒ๋ฆฌ ํ๋ ์์ํฌ
๋ถ์ฐ ํ๊ฒฝ ๊ธฐ๋ฐ์ผ๋ก 1๊ฐ ์ด์์ ์๋ฒ๋ก ๊ตฌ์ฑ๋๋ค.
์์์ ์๋ฒ๊ฐ ๊ณ ์ฅ ๋๋ ๋์(Falut Tolerance) ํด์ผ ํ๋ฏ๋ก ํ๋์ ๋ฐ์ดํฐ๋ธ๋ก์ ์ฌ๋ฌ ์๋ฒ์ ๋๋์ด ์ ์ฅํ๋ค(๊ธฐ๋ณธ์ 3๊ฐ ์๋ฒ์ ๋๋์ด ์ ์ฅ)
์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํด Scale up, Scale out์ ์ํํ๋ค(Scale up : ์๋ฒ ๊ฐ์ ํ์ฅ์ ์ฉ์ด, Scale up : ๊ธฐ์กด ์๋ฒ์ ์ฌ์ ๋์ด๋ ๊ฒ์ ์ฉ์ด)
์์) ์ ์ผ ์์์ mastnode, ํ์์ ์ฌ๋ฌ slavenode๋ก ๊ตฌ์ฑ
๊ตฌ์ฑ) ๋ถ์ฐ ํ์ผ ์์คํ (์ ์ฅ)๊ณผ ๋ถ์ฐ ์ปดํจํ ์์คํ ์ผ๋ก ๊ตฌ์ฑ
๋ํ์ ์ธ ๋น ๋ฐ์ดํฐ ํ๋ก์ธ์ฑ ์์คํ
์์ ) Hadoop ๊ธฐ๋ฐ์ MapReduce ์์ Hive/Presto(mapreduce์ SQL์ ํ์ฉํ ์ ์๊ฒ ํ๋ ๊ธฐ์ )
ํ์ฌ) Hadoop ๊ธฐ๋ฐ์ Yarn ์์ MepReduce/Spark ๋ฑ๋ฑ
โ ก. ๋ฐ์ดํฐ ์จ์ดํ์ฐ์ค
Iceberg๋ฅผ ์ ์ธํ๊ณ ๋ ๋ชจ๋ SQL์ ์ง์ํ๋ ๋น ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๋ฐ์ดํฐ๋ฒ ์ด์ค
1. AWS Redshift
PB ์ค์ผ์ผ ๋ฐ์ดํฐ ๋ถ์ฐ์ฒ๋ฆฌ
Postgresql๊ณผ ํธํ
๊ณ ์ +๊ฐ๋ณ๋น์ฉ์ต์
๋ค์ํ ๋ฐ์ดํฐ ํฌ๋งท(csv, json, avro, parquet) ์ง์
AWS ๋ด์ ๋ค๋ฅธ ์๋น์ค๋ค๊ณผ ์ฐ๋์ด ์ฌ์
์ฃผ๋ก ๋ฐฐ์น ๋ฐ์ดํฐ ์ค์ฌ์ด์ง๋ง, ์ค์๊ฐ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ์ง์
API๋ฅผ ํตํ ๊ด๋ฆฌ/์ ์ด ๊ฐ๋ฅ
2. Snowflake
ํด๋ผ์ฐ๋ ๊ธฐ๋ฐ ๋ฐ์ดํฐ์จ์ดํ์ฐ์ค
SQL ๊ธฐ๋ฐ์ผ๋ก ์ ์ฅ, ์ฒ๋ฆฌ, ๋ถ์
๊ณ ์ +๊ฐ๋ณ๋น์ฉ์ต์
๋ค์ํ ๋ฐ์ดํฐ ํฌ๋งท(csv, json, avro, parquet) ์ง์
์ฃผ๋ก ๋ฐฐ์น ๋ฐ์ดํฐ ์ค์ฌ์ด์ง๋ง, ์ค์๊ฐ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ์ง์
API๋ฅผ ํตํ ๊ด๋ฆฌ/์ ์ด ๊ฐ๋ฅ
3. Google Cloud BigQuery
๊ตฌ๊ธ ํด๋ผ์ฐ๋์ ๋ฐ์ดํฐ ์จ์ดํ์ฐ์ค ์๋น์ค
Big Query SQL๋ก ์ฒ๋ฆฌ(Nested fields, repeated fields ์ง์ํ์ฌ ๋ณต์กํ ๊ตฌ์กฐ ์ฒ๋ฆฌ ๊ฐ๋ฅ)
๊ณ ์ +๊ฐ๋ณ๋น์ฉ์ต์
๋ค์ํ ๋ฐ์ดํฐ ํฌ๋งท(csv, json, avro, parquet) ์ง์
Google ๋ด์ ๋ค๋ฅธ ์๋น์ค๋ค๊ณผ ์ฐ๋์ด ์ฌ์
์ฃผ๋ก ๋ฐฐ์น ๋ฐ์ดํฐ ์ค์ฌ์ด์ง๋ง, ์ค์๊ฐ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ์ง์
API๋ฅผ ํตํ ๊ด๋ฆฌ/์ ์ด ๊ฐ๋ฅ
4. Apache Hive
Facebook์ด ์์ํ ์ํ์น ์คํ์์ค ํ๋ก์ ํธ
ํ๋ก ๊ธฐ๋ฐ์ผ๋ก ๋์ํ๋ SQL ๊ธฐ๋ฐ ์๋น์ค(1์ธ๋-Mapreduce ์์์ ๋์, 2์ธ๋-Yarn ์์์ Apache Tez๋ฅผ ์ด์ฉํ์ฌ ๋์)
์๋ฐ๋ python์ผ๋ก ๋ณต์กํ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ ์ ์์
๋ค์ํ ๋ฐ์ดํฐ ํฌ๋งท(csv, json, avro, parquet) ์ง์
๋น ๋ฅธ ์ฒ๋ฆฌ X ๋๊ท๋ชจ ์ฒ๋ฆฌ O์ ์ง์ค(๋ฐฐ์น ๋น ๋ฐ์ดํฐ ํ๋ก์ธ์ฑ ์์คํ -๋์คํฌ ๊ธฐ๋ฐ)
์น UI, CLI ์ง์
ํ์ฌ๋ spark์ ๋ฐ๋ฆฌ๋ ์ค
5. Apache Presto
ํ์ด๋ธ์ ์ ์ฌํ์ง๋ง, ๋น ๋ฅธ ์๋ต์๋์ ์ง์ค(๋ฉ๋ชจ๋ฆฌ ๊ธฐ๋ฐ)
6. Apache Iceberg(์คํ ๋ฆฌ์ง)+Spark(์ปดํจํ ์์ง)
Apache Iceberg
Netflix๊ฐ ์์ํ ํ๋ก์ ํธ๋ก ๋์ฉ๋ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃฐ ์ ์๋ ํ ์ด๋ธ ํฌ๋งท
Java, Python API ์ง์
Spark
UC ๋ฒํด๋ฆฌ์์ ์์๋ ์คํ์์ค ํ๋ก์ ํธ
๋น ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๊ด๋ จ(๋ฐฐ์น์ฒ๋ฆฌ-SQL, ์ค์๊ฐ์ฒ๋ฆฌ, ๊ทธ๋ํ์ฒ๋ฆฌ, ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฅ)
๋ถ์ฐ ์ฒ๋ฆฌ ์์คํ ์ง์(Hadoop์ Yarn, K8s, AWS EMR, Google Cloud Dataproc)
๋ค์ํ ๋ฐ์ดํฐ ํฌ๋งท(csv, json, avro, parquet) ์ง์
์๋ฐ๋ python, ์ค์นผ๋ผ, R ๋ฑ์ ์ง์
โ ข. ๋ฐ์ดํฐ ์จ์ดํ์ฐ์ค์ ๋ฏธ๋/ํธ๋ ๋
์ด๊ธฐ)
๋ฐ์ดํฐ์จ์ดํ์ฐ์ค+ETL
(๋ฐ์ดํฐ ๊ท๋ชจ๊ฐ ์ ์ ์ปค์ง๋ค)
๋ฐ์ )
๋ฐ์ดํฐ ๋ ์ดํฌ ๋์ (๋น๊ตฌ์กฐํ/ํฐ ๊ท๋ชจ์ ๋ฐ์ดํฐ๋ฅผ ๊ฒฝ์ ์ ์ผ๋ก ๋ณด๊ด) + ๋น ๋ฐ์ดํฐ ์ฒ๋ฆฌ ํ๋ ์์ํฌ ๋์ (Spark)
(๋ฐ์ดํฐ ํ์ฉ ์ฆ๋)
์ฑ์)
ELT ๊ณ ๋ํ(dbt ๋ฑ์ analytics enginee ๋์ ), MLOPS(๋จธ์ ๋ฌ๋์ ์ฑ๋ฅ+๋ฐฐํฌ+์ค๋ฅ๊ฐ์ง)