Post

2025-07-22 ํ•™์Šต๋…ธํŠธ

2025-07-22 ํ•™์Šต๋…ธํŠธ

๐Ÿ“š ๋ฐ์ดํ„ฐ & ํ”ผ์ฒ˜ ์—”์ง€๋‹ˆ์–ด๋ง


1. ๋ฐ์ดํ„ฐ ์ข…๋ฅ˜

๊ตฌ๋ถ„์„ค๋ช…์˜ˆ์‹œ
์ •ํ˜•(Structured)ํ‘œ์ฒ˜๋Ÿผ ์นธ์ด ๋”ฑ๋”ฑ ๋งž๋Š” ๊ฒƒ์—‘์…€, DB ํ…Œ์ด๋ธ”
๋ฐ˜์ •ํ˜•(Semi-structured)๊ตฌ์กฐ๋Š” ์žˆ์ง€๋งŒ ํ‘œ๋Š” ์•„๋‹˜JSON, XML, ๋กœ๊ทธ
๋น„์ •ํ˜•(Unstructured)์•„๋ฌด ๊ตฌ์กฐ ์—†๋Š” ๊ฒƒ์ด๋ฏธ์ง€, ํ…์ŠคํŠธ, ์Œ์„ฑ

2. ๋ฐ์ดํ„ฐ ํ˜•ํƒœ

๊ตฌ๋ถ„์„ค๋ช…์˜ˆ์‹œ
์ˆ˜์น˜ํ˜•์ˆซ์ž๋กœ ๋œ ๋ฐ์ดํ„ฐํ‚ค, ๋ชธ๋ฌด๊ฒŒ, ๋‚˜์ด
โ”” ์ด์‚ฐํ˜•์…€ ์ˆ˜ ์žˆ๋Š” ์ˆซ์ž์‚ฌ๋žŒ ์ˆ˜, ์ฃผ์‚ฌ์œ„
โ”” ์—ฐ์†ํ˜•๊ณ„์† ์ด์–ด์ง€๋Š” ์ˆซ์žํ‚ค, ์˜จ๋„
๋ฒ”์ฃผํ˜•์ด๋ฆ„์ด๋‚˜ ๊ทธ๋ฃน์„ฑ๋ณ„, ํ˜ˆ์•กํ˜•
โ”” ์ˆœ์„œํ˜•์ˆœ์„œ๊ฐ€ ์žˆ๋Š” ๊ทธ๋ฃนํ•™์ , ๋งŒ์กฑ๋„
โ”” ๋ช…๋ชฉํ˜•์ˆœ์„œ ์—†๋Š” ๊ทธ๋ฃนํ˜ˆ์•กํ˜•, ์ง€์—ญ

3. ์šฉ์–ด

  • ๊ณต๋ถ„์‚ฐ: ๋‘ ๊ฐ’์ด ๊ฐ™์ด ์›€์ง์ด๋Š” ์ •๋„ (ํ‚ค ํฌ๋ฉด ๋ชธ๋ฌด๊ฒŒ๋„ ํฌ๋‹ค)
  • ์ƒ๊ด€๊ณ„์ˆ˜: ๋‘ ๊ฐ’์ด ์–ผ๋งˆ๋‚˜ ๋น„์Šทํ•˜๊ฒŒ ์›€์ง์ด๋Š”์ง€ -1~+1๋กœ ํ‘œ์‹œ
  • ๊ณ ์œ ๋ฒกํ„ฐ/๊ณ ์œ ๊ฐ’: ๋ฐ์ดํ„ฐ๊ฐ€ ๊ฐ€์žฅ ํผ์ง„ ๋ฐฉํ–ฅ๊ณผ ๊ทธ ํฌ๊ธฐ

4. ๊ตฌ๊ธ€ ์ฝ”๋žฉ์—์„œ CSV ๋ถˆ๋Ÿฌ์˜ค๊ธฐ

1
2
3
4
from google.colab import drive
drive.mount('/content/drive')
import pandas as pd
df = pd.read_csv('/content/drive/MyDrive/ํŒŒ์ผ๊ฒฝ๋กœ/ํŒŒ์ผ๋ช….csv')

5. ํ”ผ์ฒ˜ ์—”์ง€๋‹ˆ์–ด๋ง

๋จธ์‹ ๋Ÿฌ๋‹์ด๋‚˜ ๋ฐ์ดํ„ฐ ๋ถ„์„์—์„œ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€๊ณตํ•˜๋Š” ๊ณผ์ •

์šฉ์–ด

  • ํ”ผ์ฒ˜: ์˜ˆ์ธก์— ์“ฐ๋Š” ์ •๋ณด (ํ‚ค, ๋ชธ๋ฌด๊ฒŒ)
  • ํƒ€๊ฒŸ: ์˜ˆ์ธกํ•˜๊ณ  ์‹ถ์€ ๊ฐ’ (์ง‘๊ฐ’, ์ ์ˆ˜)
  • ๋ ˆ์ด๋ธ”: ์˜ˆ์ธกํ•˜๊ณ  ์‹ถ์€ ๊ทธ๋ฃน (์ŠคํŒธ/์ •์ƒ)
  • ํด๋ž˜์Šค: ๋ ˆ์ด๋ธ”์˜ ์ข…๋ฅ˜ (๊ณ ์–‘์ด, ๊ฐ•์•„์ง€)
  • ๋‹ค์ค‘๊ณต์„ ์„ฑ: ์—ฌ๋Ÿฌ ํ”ผ์ฒ˜๊ฐ€ ์„œ๋กœ ๋„ˆ๋ฌด ๋น„์Šทํ•ด์„œ(๊ฐ•ํ•˜๊ฒŒ ์ƒ๊ด€๋˜์–ด์„œ) ๋ชจ๋ธ์ด ๋ถˆ์•ˆ์ •ํ•ด์ง€๋Š” ํ˜„์ƒ
  • ์ž ์žฌ๊ณต๊ฐ„: ๋ฐ์ดํ„ฐ์˜ ์ค‘์š”ํ•œ ํŒจํ„ด๋งŒ ๋ฝ‘์•„๋‚ธ ์ˆจ๊ฒจ์ง„ ๊ณต๊ฐ„ (๋จธ์‹ ๋Ÿฌ๋‹ ๋Œ๋ฆฌ๋‹ค๊ฐ€ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ƒ๊ธฐ๋Š” ๊ณต๊ฐ„)
  • ๊ตฌ๊ฐ„ ๋ถ„ํ• : ์ˆซ์ž๋ฅผ ๋“ฑ๊ธ‰์ด๋‚˜ ๊ทธ๋ฃน์œผ๋กœ ๋‚˜๋ˆ„๊ธฐ (์˜ˆ: ์ ์ˆ˜๋กœ A/B/C/D/F)

ํ”ผ์ฒ˜ ์—”์ง€๋‹ˆ์–ด๋ง ๊ธฐ๋ฒ•

  • Feature Scaling (์Šค์ผ€์ผ๋ง)
  • Encoding (์ธ์ฝ”๋”ฉ)
  • Missing Value Handling (๊ฒฐ์ธก์น˜ ์ฒ˜๋ฆฌ)
  • Feature Creation (ํ”ผ์ฒ˜ ์ƒ์„ฑ)
  • Feature Extraction (ํ”ผ์ฒ˜ ์ถ”์ถœ)
  • Feature Selection (ํ”ผ์ฒ˜ ์„ ํƒ)

5-1. Feature Scaling (์Šค์ผ€์ผ๋ง)

๋ณ€์ˆ˜ ๋‹จ์œ„๋ฅผ ๋งž์ถ”๋Š” ์ž‘์—…

๋ฐฉ๋ฒ•์„ค๋ช…์ ํ•ฉ ์ƒํ™ฉ
Standardization (ํ‘œ์ค€ํ™”)ํ‰๊ท ์„ 0, ํ‘œ์ค€ํŽธ์ฐจ๋ฅผ 1๋กœ ๋ณ€ํ™˜๋ฐ์ดํ„ฐ๊ฐ€ ์ •๊ทœ๋ถ„ํฌ์ผ ๋•Œ
Min-Max Scaling (์ตœ์†Œ-์ตœ๋Œ€ ์Šค์ผ€์ผ๋ง)์ตœ์†Ÿ๊ฐ’์„ 0, ์ตœ๋Œ“๊ฐ’์„ 1๋กœ ๋ณ€ํ™˜ํ•ด [0,1]๋กœ ์กฐ์ •๊ฐ’์˜ ๋ฒ”์œ„๋ฅผ ๋งž์ถ”๊ณ  ์‹ถ์„ ๋•Œ
Robust Scaling (๋กœ๋ฒ„์ŠคํŠธ ์Šค์ผ€์ผ๋ง)์ค‘์•™๊ฐ’ ๊ธฐ์ค€์œผ๋กœ ๋ณ€ํ™˜, ์ด์ƒ์น˜์— ๊ฐ•ํ•จ์ด์ƒ์น˜๊ฐ€ ๋งŽ์„ ๋•Œ
Log Transformation (๋กœ๊ทธ ๋ณ€ํ™˜)ํฐ ๊ฐ’์˜ ์˜ํ–ฅ์„ ์ค„์—ฌ์คŒ์˜ค๋ฅธ์ชฝ์œผ๋กœ ์น˜์šฐ์นœ ๋ถ„ํฌ

5-2. Encoding (์ธ์ฝ”๋”ฉ)

๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์น˜๋กœ ๋ฐ”๊พธ๋Š” ๊ฒƒ

๋ฐฉ๋ฒ•์ ํ•ฉ ์ƒํ™ฉ์˜ˆ์‹œ
Label Encoding (๋ ˆ์ด๋ธ” ์ธ์ฝ”๋”ฉ)์ˆœ์„œ ์žˆ๋Š” ๊ทธ๋ฃนํ•™์ : Aโ†’0, Bโ†’1, โ€ฆ
One-Hot Encoding (์›-ํ•ซ ์ธ์ฝ”๋”ฉ)์ˆœ์„œ ์—†๋Š” ๊ทธ๋ฃน์ƒ‰๊น”: ๋นจ๊ฐ•โ†’[1,0,0] ํŒŒ๋ž‘โ†’[0,1,0]
Target Encoding (ํƒ€๊ฒŸ ์ธ์ฝ”๋”ฉ)๊ทธ๋ฃน์ด ๋„ˆ๋ฌด ๋งŽ์„ ๋•Œ์ง€์—ญ๋ณ„ ํ‰๊ท  ์ง‘๊ฐ’

์ฃผ์˜: ์›-ํ•ซ์€ ๊ทธ๋ฃน ๋งŽ์œผ๋ฉด ๋„ˆ๋ฌด ๋ณต์žก, ํƒ€๊ฒŸ ์ธ์ฝ”๋”ฉ์€ ๊ณผ์ ํ•ฉ ์œ„ํ—˜!


5-3. Missing Value Handling (๊ฒฐ์ธก์น˜ ์ฒ˜๋ฆฌ)

๋น„์–ด์žˆ๋Š” ๊ฐ’์„ ์ ์ ˆํžˆ ์ฑ„์šฐ๊ฑฐ๋‚˜ ์ œ๊ฑฐ

๊ฒฐ์ธก์น˜ ํŒจํ„ด

ํŒจํ„ด์˜๋ฏธ์ฒ˜๋ฆฌ ๋‚œ์ด๋„
MCAR์™„์ „ ๋ฌด์ž‘์œ„ ๊ฒฐ์ธก์‰ฌ์›€
MAR๋‹ค๋ฅธ ๋ณ€์ˆ˜์— ๋”ฐ๋ผ ๊ฒฐ์ธก ๋ฐœ์ƒ์ค‘๊ฐ„
MNAR์ž๊ธฐ ๋ณ€์ˆ˜ ์ž์ฒด๊ฐ€ ๊ฒฐ์ธก ์›์ธ์–ด๋ ค์›€

๊ฒฐ์ธก์น˜ ์ฒ˜๋ฆฌ ์ „๋žต

์ „๋žตํŠน์ง•์ ํ•ฉ ์ƒํ™ฉ
Drop (์‚ญ์ œ)ํ–‰/์—ด ์ œ๊ฑฐ๊ฒฐ์ธก ์ ์„ ๋•Œ
Mean/Median Imputation (ํ‰๊ท /์ค‘์•™๊ฐ’)์ˆ˜์น˜ํ˜• ๋Œ€์ฒด (๋‹จ์ˆœ)๋น ๋ฅด๊ฒŒ ์ฒ˜๋ฆฌํ•  ๋•Œ
Mode Imputation (์ตœ๋นˆ๊ฐ’)๋ฒ”์ฃผํ˜• ๋Œ€์ฒด์นดํ…Œ๊ณ ๋ฆฌํ˜•์ผ ๋•Œ
Interpolation (๋ณด๊ฐ„)์•ž๋’ค ๊ฐ’์œผ๋กœ ์ฑ„์›€ (์‹œ๊ณ„์—ด)์‹œ๊ฐ„ ๋ฐ์ดํ„ฐ
Predictive Imputation (์˜ˆ์ธก ๋Œ€์ฒด)๋ชจ๋ธ๋กœ ์˜ˆ์ธกํ•ด์„œ ์ฑ„์›€์ •ํ™•๋„ ์ค‘์š”ํ•  ๋•Œ
Special Value/Masking (ํŠน์ˆ˜๊ฐ’/๋งˆ์Šคํ‚น)๊ฒฐ์ธก ์ž์ฒด๋„ ์ •๋ณด๋กœ ์‚ฌ์šฉ๊ฒฐ์ธก ์ž์ฒด๋„ ์˜๋ฏธ ์žˆ์„ ๋•Œ

5-4. Feature Creation (ํ”ผ์ฒ˜ ์ƒ์„ฑ)

๋„๋ฉ”์ธ ์ง€์‹์„ ํ™œ์šฉํ•ด์„œ ์ง์ ‘ ์ƒˆ๋กœ์šด ๋ณ€์ˆ˜๋ฅผ ๋งŒ๋“ฆ

์ข…๋ฅ˜์„ค๋ช…์˜ˆ์‹œ
Numeric Combination (์ˆ˜์น˜ํ˜• ์กฐํ•ฉ)์ˆ˜์น˜ ๊ฐ„ ๊ณฑ/ํ•ฉ ๋“ฑ๊ฐ€๊ฒฉ ร— ์ˆ˜๋Ÿ‰ = ์ด์•ก
Categorical Combination (๋ฒ”์ฃผํ˜• ์กฐํ•ฉ)๋ฒ”์ฃผ ๊ฒฐํ•ฉ์„ฑ๋ณ„+์ง€์—ญ
Time Derivation (์‹œ๊ฐ„ ํŒŒ์ƒ)๋‚ ์งœ/์‹œ๊ฐ„ ํ™œ์šฉ์š”์ผ, ์ฃผ๋ง ์—ฌ๋ถ€
Binary Variable (์ด์ง„ ๋ณ€์ˆ˜)์กฐ๊ฑด์œผ๋กœ 0/1 ๊ตฌ๋ถ„์—ฐ๋ด‰ > 5000 โ†’ 1
Group Statistics (๊ทธ๋ฃน ํ†ต๊ณ„)๊ทธ๋ฃน๋ณ„ ํ‰๊ท , ์ตœ๋Œ€๊ฐ’ ๋“ฑ์ง€์—ญ๋ณ„ ํ‰๊ท  ์†Œ๋“

5-5. Feature Extraction (ํ”ผ์ฒ˜ ์ถ”์ถœ)

๊ธฐ์กด ํ”ผ์ฒ˜๋“ค์„ ์กฐํ•ฉํ•ด์„œ ์ƒˆ๋กœ์šด ๋ณ€์ˆ˜๋กœ ๋ฐ”๊พธ๋Š” ๊ฒƒ

๋ฐฉ๋ฒ•์„ค๋ช…์˜ˆ์‹œ
PCA (์ฃผ์„ฑ๋ถ„ ๋ถ„์„, Principal Component Analysis)๋ฐ์ดํ„ฐ์˜ ๋ณ€๋™์„ฑ์„ ๊ฐ€์žฅ ์ž˜ ์„ค๋ช…ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์ถ•์†Œ์ ์ˆ˜ 100๊ฐœ โ†’ ํ•ต์‹ฌ 2๊ฐœ๋กœ ์š”์•ฝ
LDA (Linear Discriminant Analysis, ์„ ํ˜• ํŒ๋ณ„ ๋ถ„์„)ํด๋ž˜์Šค(๊ทธ๋ฃน)๋ฅผ ์ž˜ ๊ตฌ๋ถ„ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์ถ•์†Œ๊ณ ์–‘์ด vs ๊ฐ•์•„์ง€ ์ž˜ ๋‚˜๋‰˜๋Š” ์ถ• ์ฐพ๊ธฐ

5-6. Feature Selection (ํ”ผ์ฒ˜ ์„ ํƒ)

๋งŽ์€ ๋ณ€์ˆ˜๋ฅผ ๋‹ค ์“ฐ๋ฉด ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ์•„์ง€๋‹ˆ๊นŒ ์ค‘์š”ํ•œ ๋ณ€์ˆ˜๋งŒ ๋ฝ‘๋Š” ์ž‘์—…

ํ•„ํ„ฐ ๊ธฐ๋ฒ•

  • ์ƒ๊ด€๊ณ„์ˆ˜: ํƒ€๊ฒŸ๊ณผ ๋น„์Šทํ•˜๊ฒŒ ์›€์ง์ด๋Š” ํ”ผ์ฒ˜๋งŒ ์„ ํƒ
  • ์นด์ด์ œ๊ณฑ: ๋ฒ”์ฃผํ˜•๋ผ๋ฆฌ ์—ฐ๊ด€์„ฑ ์žˆ๋Š” ๊ฒƒ๋งŒ ์„ ํƒ
  • ๋ถ„์‚ฐ ์ž„๊ณ„๊ฐ’: ๊ฐ’์ด ๊ฑฐ์˜ ์•ˆ ๋ฐ”๋€Œ๋Š” ํ”ผ์ฒ˜ ์ œ๊ฑฐ

๋ž˜ํผ ๊ธฐ๋ฒ•

  • ์ˆœ๋ฐฉํ–ฅ ์„ ํƒ: ํ•˜๋‚˜์”ฉ ์ถ”๊ฐ€ํ•ด์„œ ์„ฑ๋Šฅ ์ข‹์•„์ง€๋ฉด ์„ ํƒ
  • ์—ญ๋ฐฉํ–ฅ ์ œ๊ฑฐ: ๋‹ค ๋„ฃ๊ณ  ํ•˜๋‚˜์”ฉ ๋นผ์„œ ์„ฑ๋Šฅ ๋‚˜๋น ์ง€๋ฉด ๋‹ค์‹œ ๋„ฃ์Œ
  • ์žฌ๊ท€์  ์ œ๊ฑฐ(RFE): ์ค‘์š”๋„ ๋‚ฎ์€ ๊ฒƒ๋ถ€ํ„ฐ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ œ๊ฑฐ

์ž„๋ฒ ๋””๋“œ ๊ธฐ๋ฒ•

๋ฐฉ๋ฒ•์„ค๋ช…์žฅ๋‹จ์ ์˜ˆ์‹œ
Lasso (L1)์ค‘์š”๋„ ๋‚ฎ์€ ํ”ผ์ฒ˜ ๊ณ„์ˆ˜ 0์œผ๋กœ ์„ค์ •ํ•ด์„ ์‰ฌ์›€์ง‘๊ฐ’ ์˜ˆ์ธก
Ridge (L2)๋ชจ๋“  ํ”ผ์ฒ˜ ๊ณ„์ˆ˜ ์ž‘๊ฒŒ ์กฐ์ •๋‹ค์ค‘๊ณต์„ ์„ฑ ์™„ํ™”ํšŒ๊ท€๋ชจ๋ธ
Elastic NetL1 + L2 ๊ฒฐํ•ฉ์กฐ์ • ๋ณต์žก์œ ์ „์ž ์˜ˆ์ธก
Random ForestํŠธ๋ฆฌ ๊ธฐ๋ฐ˜ ์ค‘์š”๋„ ํ‰๊ท ๋น„์„ ํ˜• ๋Œ€์‘ ๊ฐ€๋Šฅ๋ณต์žกํ•œ ๋ถ„๋ฅ˜/ํšŒ๊ท€
์ •๊ทœํ™” ์ˆ˜์‹
  • L1: ๊ณ„์ˆ˜ ์ ˆ๋Œ“๊ฐ’ ํ•ฉ ์ œํ•œ
  • L2: ๊ณ„์ˆ˜ ์ œ๊ณฑํ•ฉ ์ œํ•œ

7. ์ƒ˜ํ”Œ๋ง ๊ธฐ๋ฒ• & ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๋ฐฉ์‹

์–ธ๋”์ƒ˜ํ”Œ๋ง ๊ธฐ๋ฒ•

๋ฐฉ๋ฒ•์„ค๋ช…
Random๋งŽ์€ ํด๋ž˜์Šค์—์„œ ์ƒ˜ํ”Œ์„ ๋ฌด์ž‘์œ„๋กœ ์ผ๋ถ€ ์‚ญ์ œ
Tomek Links๊ฐ€๊นŒ์šด ๋‹ค๋ฅธ ํด๋ž˜์Šค ์ƒ˜ํ”Œ ์Œ์„ ์ฐพ์•„ ์ œ๊ฑฐ
OSS (One-Sided Selection)๊ฒน์น˜๋Š” ์• ๋งคํ•œ ์ƒ˜ํ”Œ๋งŒ ๋‚จ๊ธฐ๊ณ  ๋‚˜๋จธ์ง€๋Š” ์‚ญ์ œ
CNN (Condensed NN)๋ถ„๋ฅ˜์— ๊ผญ ํ•„์š”ํ•œ ํ•ต์‹ฌ ์ƒ˜ํ”Œ๋งŒ ๋‚จ๊ธฐ๊ณ  ์••์ถ•

์˜ค๋ฒ„์ƒ˜ํ”Œ๋ง ๊ธฐ๋ฒ•

๋ฐฉ๋ฒ•์„ค๋ช…
Random์†Œ์ˆ˜ ํด๋ž˜์Šค ์ƒ˜ํ”Œ์„ ๋‹จ์ˆœ ๋ณต์ œ
SMOTE๋น„์Šทํ•œ ์ƒ˜ํ”Œ ์‚ฌ์ด์— ์ƒˆ๋กœ์šด ์ƒ˜ํ”Œ์„ ๋งŒ๋“ค์–ด ์ถ”๊ฐ€
ADASYN๊ตฌ๋ถ„์ด ์–ด๋ ค์šด ์ƒ˜ํ”Œ ์ฃผ๋ณ€์— ์ƒˆ ์ƒ˜ํ”Œ์„ ๋” ๋งŽ์ด ์ƒ์„ฑ
Borderline-SMOTE๋‹ค๋ฅธ ํด๋ž˜์Šค์™€ ํ—ท๊ฐˆ๋ฆด ๋งŒํ•œ ์ƒ˜ํ”Œ ์ฃผ๋ณ€์— ์ƒˆ ์ƒ˜ํ”Œ ์ƒ์„ฑ
KMeans-SMOTE๋น„์Šทํ•œ ์ƒ˜ํ”Œ๋ผ๋ฆฌ ๋ฌถ์€ ๊ทธ๋ฃน ์ค‘์‹ฌ์—์„œ ์ƒˆ ์ƒ˜ํ”Œ ์ƒ์„ฑ

๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๋ฐฉ์‹: ETL vs ELT

๋ฐฉ๋ฒ•์ •์˜์ ํ•ฉ ํ™˜๊ฒฝ
ETL (Extract, Transform, Load)์ถ”์ถœ โ†’ ์™ธ๋ถ€์—์„œ ๋ณ€ํ™˜ โ†’ ์ €์žฅ์†Œ์— ๋„ฃ์Œ์ž์ฒด ์„œ๋ฒ„์— ๊ตฌ์ถ•๋œ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค ์‹œ์Šคํ…œ
ELT (Extract, Load, Transform)์ถ”์ถœ โ†’ ์ €์žฅ์†Œ์— ๋„ฃ๊ณ  โ†’ ์ €์žฅ์†Œ ์•ˆ์—์„œ ์ฒ˜๋ฆฌํด๋ผ์šฐ๋“œ ๊ธฐ๋ฐ˜ ์ €์žฅ์†Œ (์˜ˆ: BigQuery, Redshift)
  • Extract: ์›๋ณธ ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”์ถœํ•ด์„œ ๊ฐ€์ ธ์˜ด
  • Transform: ๋ฐ์ดํ„ฐ ์ •์ œ, ํ˜•๋ณ€ํ™˜, ์ง‘๊ณ„ ๋“ฑ ๊ฐ€๊ณต ์ˆ˜ํ–‰
  • Load: ํŒŒ์ผ ๋˜๋Š” ํ…Œ์ด๋ธ”๋กœ ์ €์žฅ
This post is licensed under CC BY 4.0 by the author.