π μ°¨μμ μ μ£Όλ₯Ό ν΄νΉνλ€: λ°μ΄ν° μ΅μ ν κ°μ΄λ
Posted by Dev_Playground | Tagged: #AI #DataScience
π λͺ©μ°¨ (Table of Contents)
1. μλ‘ : λ°μ΄ν°μ νμ μμμ 'λ³Έμ§'λ§ λ¨κΈ°λ κΈ°μ
2025λ μ λμ΄μ μ§κΈ, μ°λ¦¬λ λ¨μν λ°μ΄ν° μμ§μ λμ΄ 'λ°μ΄ν° νλ°(Data Explosion)'μ μλλ₯Ό μ΄κ³ μμ΅λλ€. AI λͺ¨λΈμ΄ νμ΅ν΄μΌ ν Feature(λ³μ)κ° μλ§ κ°λ‘ λμ΄λλ©΄μ, μμ§λμ΄λ€μ 'μ°¨μμ μ μ£Ό(Curse of Dimensionality)'λΌλ κ±°λν μ₯λ²½μ μ§λ©΄νμ΅λλ€.
λ°μ΄ν°κ° λ§λ€κ³ 무쑰건 μ’μ κ²μ μλλλ€. μ°¨μ μΆμ(Dimensionality Reduction)λ λ°μ΄ν° λλ―Έμμ λ Έμ΄μ¦λ₯Ό μ κ±°νκ³ λ°μ΄ν°μ 'μ§μ§ νμ(Manifold)'μ μ°Ύμλ΄λ ν΅μ¬ κΈ°μ μ λλ€. μ΄λ λͺ¨λΈμ νμ΅ μλ(Latency)λ₯Ό κ°μ νκ³ κ³Όμ ν©(Overfitting)μ λ°©μ§νλ μ μΌν μ΄μ μ λλ€.
2. ν΅μ¬ λ©μ»€λμ¦: μ 보λ₯Ό μμΆνλ λ κ°μ§ μ λ΅
μ°¨μ μΆμλ λ°μ΄ν°λ₯Ό λ¨μν μμ νλ κ²μ΄ μλλΌ, κ³ ν΄μλ μ΄λ―Έμ§λ₯Ό zip νμΌλ‘ μμΆνλ κ²κ³Ό μ μ¬ν©λλ€. ν¬κ² λ κ°μ§ μ κ·Ό λ°©μμ΄ μ‘΄μ¬ν©λλ€.
A. νΉμ± μ ν (Feature Selection)
μλ³Έ λ°μ΄ν° μ€ κ°μ₯ μν₯λ ₯ μλ(Dominant) λ³μλ§ λ¨κΈ°λ λ°©μμ λλ€.
- κ°λ : "Best 11μ λ½μλΌ."
- μμ: μ§κ° μμΈ‘ μ 'μ§μ£ΌμΈμ μ΄λ¦'μ λ²λ¦¬κ³ 'νμ'μ 'μμΉ'λ§ μ ν.
- μ₯μ : λ°μ΄ν°μ μλ³Έ μλ―Έκ° μ μ§λλ―λ‘ μ€λͺ κ°λ₯μ±(Explainability)μ΄ λμ΅λλ€.
B. νΉμ± μΆμΆ (Feature Extraction)
κΈ°μ‘΄ λ³μλ€μ μνμ μΌλ‘ μ‘°ν©νμ¬ μ ν μλ‘μ΄ λ³μ(Latent Variable)λ₯Ό μμ±ν©λλ€.
- PCA (μ£Όμ±λΆ λΆμ): λ°μ΄ν° λΆμ°μ΄ κ°μ₯ ν° μΆμ μ°Ύμ μ νμ μΌλ‘ ν¬μν©λλ€.
- t-SNE & UMAP: λ°μ΄ν° κ°μ 거리(μμ)λ₯Ό 보쑴νλ©° κ³ μ°¨μμ μ μ°¨μμΌλ‘ λ§€νν©λλ€. λΉμ ν ꡬ쑰 μκ°νμ νμμ μ λλ€.
3. 2026 νΈλ λ: LLMκ³Ό λ²‘ν° DB μλ
μμ±ν AIμ μλ, μ°¨μ μΆμλ μ νμ΄ μλ νμ μΈνλΌ κΈ°μ μ΄ λμμ΅λλ€. ν μ€νΈμ μ΄λ―Έμ§λ₯Ό μ«μλ‘ λ³νν 'μλ² λ©(Embedding)' μμ²΄κ° μμ² μ°¨μμ 벑ν°μ΄κΈ° λλ¬Έμ λλ€.
νΉν RAG(κ²μ μ¦κ° μμ±) μμ€ν
μμ μλ°±λ§ κ°μ 벑ν°λ₯Ό μ€μκ°μΌλ‘ κ²μνκΈ° μν΄ Quantization(μμν)κ³Ό κ²°ν©λ μ°¨μ μΆμ κΈ°μ μ΄ κ°κ΄λ°κ³ μμ΅λλ€. μ΄μ μ΄ κΈ°μ μ λ¨μν μ μ²λ¦¬λ₯Ό λμ΄, ν΄λΌμ°λ λΉμ©μ μ κ°νλ λΉμ¦λμ€ μ λ΅μ
λλ€.
4. μ€λ¬΄ μ μ©: μ΄λμ μ¨λ¨ΉμκΉ?
μ μ‘° 곡μ μΌμ λ°μ΄ν°μ μ°¨μμ μΆμνλ©΄, μ μ λΆν¬μμ λ²μ΄λ 'Outlier'λ₯Ό μ½κ² μλ³ν μ μμ΅λλ€.
μ¬μ©μμ μ·¨ν₯μ μ μ°¨μ 벑ν°λ‘ μμΆνμ¬ μ μ¬ν μ½ν μΈ λ₯Ό μ€μκ°μΌλ‘ κ³μ°ν©λλ€ (μ: Netflix, YouTube).
100μ°¨μμ λ°μ΄ν°λ₯Ό 2D/3Dλ‘ μκ°ννμ¬ "ꡬ맀λ ₯ λμ κ³ κ° κ΅°μ§" κ°μ μΈμ¬μ΄νΈλ₯Ό μ§κ΄μ μΌλ‘ λμΆν©λλ€.
π‘ Tech Leader's Advice
"무쑰건 μ€μ΄λ κ² λ΅μ μλλλ€."
μ°¨μμ κ³Όλνκ² μΆμνλ©΄ Information Loss(μ 보 μμ€)κ° λ°μνμ¬ λͺ¨λΈ μ±λ₯μ΄ μ νλ μ μμ΅λλ€. μ€λ¬΄μμλ Explained Variance Ratio(μ€λͺ
λ λΆμ° λΉμ¨)λ₯Ό λ°λμ νμΈνμΈμ.
Golden Rule: μλ³Έ λ°μ΄ν° μ 보μ 95% μ΄μμ 보쑴νλ μ§μ κΉμ§λ§ μΆμνλ κ²μ΄ μΌλ°μ μ
λλ€. μκ°ν λͺ©μ μ΄λΌλ©΄ μ΅κ·Όμλ UMAPμ΄ t-SNEλ³΄λ€ μλμ κΈλ‘λ² κ΅¬μ‘° 보쑴 μΈ‘λ©΄μμ λ μ νΈλ©λλ€.
κ²°λ‘ : 볡μ‘μ±μ ν΅μ νλ ν
μ°¨μ μΆμλ νλ €ν AI μλΉμ€ λ€μ μ¨κ²¨μ§ 'Invisible Hero'μ λλ€. λ°μ΄ν°μ μλ³΄λ€ μ§μ΄ μ€μν΄μ§λ μμ μμ, κ³ μ°¨μ λ°μ΄ν°λ₯Ό νΈλ€λ§νλ λ₯λ ₯μ μμ§λμ΄μ ν΅μ¬ μλμ΄ λ κ²μ λλ€. μ§κΈ λΉμ μ λ°μ΄ν° νμ΄νλΌμΈμ μ κ²ν΄λ³΄μΈμ. λΆνμν μ°¨μμ κ±·μ΄λ΄λ μκ°, λ°μ΄ν°μ λ³Έμ§μ΄ λ³΄μΌ κ²μ λλ€.