๐ ๋ชฉ์ฐจ (Table of Contents)
1. ์๋ก : ๋ฐ์ดํฐ ์ ์จ์ ๊ตฌ์กฐ๋ฅผ ํํค์น๋ ๊ณ์ธต์ ํด๋ฌ์คํฐ๋ง
๊ธฐ์ ๊ณผ ์ฐ๊ตฌ๊ธฐ๊ด์ด ๋งค์ผ ์์ฐํ๋ ์์ญ ํ ๋ผ๋ฐ์ดํธ์ ๋ฐ์ดํฐ, "์ด๋ป๊ฒ ํ์ฉํ ๊ฒ์ธ๊ฐ?"์ ๋ํ ๊ฐ์ฅ ์ง๊ด์ ์ธ ๋ต์ ๋ฐ์ดํฐ ์์ฒด๊ฐ ํ๊ณ ์๋ ๊ด๊ณ๋ฅผ ์๊ฐํํ๋ ๊ฒ์ ๋๋ค.
์ฌ์ ๋ผ๋ฒจ(Label)์ด ์๋ ๋น์ง๋ ํ์ต ์ํฉ์์๋ ๊ณ์ธต์ ํด๋ฌ์คํฐ๋ง(Hierarchical Clustering)์ "๋ฐ์ดํฐ๊ฐ ์ด๋ป๊ฒ ๋จ๊ณ์ ์ผ๋ก ๋ฌถ์ด๊ณ ๋ ๊ฐ๋ผ์ง๋์ง"๋ฅผ ๋ด๋๋ก๊ทธ๋จ(Dendrogram) ํํ๋ก ํ ๋์ ๋ณด์ฌ์ค๋๋ค.
2. ํต์ฌ ๊ฐ๋ & ์๊ณ ๋ฆฌ์ฆ ๋ฉ์ปค๋์ฆ
1๏ธโฃ Bottom-Up(๋ณํฉ) vs. Top-Down(๋ถํ )
- ๋ณํฉ(Agglomerative): ๊ฐ๊ฐ์ 1๊ฐ ํด๋ฌ์คํฐ๋ก ์์ํด ๊ฐ์ฅ ๊ฐ๊น์ด ๋ ํด๋ฌ์คํฐ๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ํฉ์นฉ๋๋ค. ๊ฐ์ฅ ๋๋ฆฌ ์ฐ์ ๋๋ค.
- ๋ถํ (Divisive): ์ ์ฒด๋ฅผ ํ๋์ ํด๋ฌ์คํฐ๋ก ๋ณด๊ณ ์ ์ฐจ ์ชผ๊ฐ ๋๊ฐ๋๋ค. ๊ณ์ฐ ๋น์ฉ์ด ๋์ง๋ง ํฐ ๊ตฌ์กฐ ํ์ ์ ์ ๋ฆฌํฉ๋๋ค.
2๏ธโฃ ๊ฑฐ๋ฆฌยท์ ์ฌ๋ ์ธก์ (Distance Metric)
| ์ธก์ ๋ฒ | ํน์ง ๋ฐ ํ์ฉ ํฌ์ธํธ |
|---|---|
| ์ ํด๋ฆฌ๋ (Euclidean) | ๋ฌผ๋ฆฌ์ ์ง์ ๊ฑฐ๋ฆฌ. ์ค์ผ์ผ์ ๋ฏผ๊ฐํ์ฌ ์ ๊ทํ(Normalization) ํ์. |
| ๋งจํดํผ (Manhattan) | ๊ฒฉ์ ๊ฒฝ๋ก ๊ฑฐ๋ฆฌ. ์ด์์น(Outlier)์ ์ํฅ์ ๋ ๋ฐ์ผ๋ฉฐ ํฌ์ ๋ฐ์ดํฐ์ ๊ฐํจ. |
| ์ฝ์ฌ์ธ (Cosine) | ํฌ๊ธฐ๋ณด๋ค ๋ฐฉํฅ์ฑ ์ค์. ํ ์คํธ ์๋ฒ ๋ฉ, ์ถ์ฒ ์์คํ ์ ํ์ค. |
3๏ธโฃ ์ฐ๊ฒฐ ๋ฐฉ์ (Linkage)
- Single (์ต๋จ):
min(d(a,b)). ๊ธธ๊ฒ ๋์ด์ง๋ '์ฒด์ธ ํจ๊ณผ' ๋ฐ์ ๊ฐ๋ฅ. - Complete (์ต์ฅ):
max(d(a,b)). ๊ตฐ์ง์ ๋ณด์์ ์ด๊ณ ๋ฅ๊ธ๊ฒ ํ์ฑ. - Ward: ๋ถ์ฐ(Variance) ์ฆ๊ฐ๋์ ์ต์ํํ์ฌ ๊ฐ์ฅ ๊ท ์ผํ ํฌ๊ธฐ์ ๊ตฐ์ง์ ์์ฑ. (๊ธฐ๋ณธ๊ฐ ์ถ์ฒ)
3. 2025๋ ํ์ฌ, ๊ณ์ธต์ ํด๋ฌ์คํฐ๋ง์ ์งํ
HDBSCAN โ Agglomerative ํ์ดํ๋ผ์ธ์ ๊ตฌ์ถํด ํ ํฝ ํธ๋ฆฌ๋ฅผ ์๋ ์์ฑํฉ๋๋ค.
shap-dendrogram ๋ฑ์ ํ์ฉํด ๊ฐ ํด๋ฌ์คํฐ ํ์ฑ์ ๊ธฐ์ฌํ ํน์ง์ ์๊ฐํํ์ฌ ํฌ๋ช
์ฑ์ ๋์
๋๋ค.
4. ์ค๋ฌด์์ ๋ฐ๋ก ์จ๋จน๋ 3๊ฐ์ง ์๋๋ฆฌ์ค
โ ๊ณ ๊ฐ ์ธ๋ถํ (Customer Segmentation)
๊ตฌ๋งค ์ด๋ ฅ๊ณผ ํ๋ ๋ฐ์ดํฐ๋ฅผ ํ์คํ(Z-score)ํ ํ ์ฝ์ฌ์ธ ์ ์ฌ๋๋ก ๊ตฐ์งํ. ๋ด๋๋ก๊ทธ๋จ์์ ์์ฐ์ค๋ฌ์ด 5~7๊ฐ ๊ทธ๋ฃน์ ์ ํํด LTV(์์ ๊ฐ์น)๊ฐ ๋์ ๊ทธ๋ฃน์ ํ๋ฆฌ๋ฏธ์ ํํ ์ ๊ณต.
โก ํ๊ฒฝยท์ธํ๋ผ ์ํฅ ํ๊ฐ
์งํยท์์งยท์๋ฌผ๋ค์์ฑ ๋ฐ์ดํฐ๋ฅผ PCA๋ก ์ถ์ ํ Ward Linkage ์ ์ฉ. "์ํ๊ณ ์ ์ฌ ๊ตฌ์ญ"์ ๋์ถํ์ฌ ๋ ๊ฑด์ค ์ ํ๊ฒฝ ํ๊ดด๋ฅผ 30% ์ด์ ์ต์ .
โข ์ฝ๋ ์ค๋ณต ์ ๊ฑฐ (Refactoring)
์๋ง ๊ฐ์ ์ฝ๋ ์ค๋ํซ์ CodeBERT๋ก ์๋ฒ ๋ฉ. Single Linkage๋ก ์ ์ฌ ํจํด์ ์ฐพ์๋ด์ด ์ค๋ณต ๋ชจ๋ 12% ์ ๊ฐ ๋ฐ ์ฌ์ฌ์ฉ์ฑ 1.8๋ฐฐ ํฅ์.
5. ์ ๋ฌธ๊ฐ ์ธ์ฌ์ดํธ (Tip & Roadmap)
๐ก Technical Tip: ๋ฉ๋ชจ๋ฆฌ ์ต์ ํ
๋ฐ์ดํฐ๊ฐ 10k๋ฅผ ๋์ด๊ฐ๋ฉด ๊ฑฐ๋ฆฌ ํ๋ ฌ(Distance Matrix)์ด ๋ฉ๋ชจ๋ฆฌ ๋ณ๋ชฉ์ ์ผ์ผํต๋๋ค. scipy.spatial.distance.pdist์ ๋ฉ๋ชจ๋ฆฌ ๋งคํ(mmap) ๋ฐฉ์์ ํ์ฉํ๊ฑฐ๋, SLINK ์๊ณ ๋ฆฌ์ฆ์ ๊ณ ๋ คํ์ธ์.
๐ฎ Future Roadmap (3~5๋ )
Hybrid Deep-Hierarchical ๋ชจ๋ธ(Autoencoder + Agglomerative)๊ณผ GPU ๊ฐ์์ด ํ์ค์ด ๋ ๊ฒ์ ๋๋ค. XAI ์๊ตฌ ํ๋์ ๋ฐ๋ผ "๋จ๊ณ๋ณ Feature Importance"๋ฅผ ์ ๊ณตํ๋ ํ๋ ์์ํฌ๊ฐ ํ์ํ๋ ์ ๋ง์ ๋๋ค.
6. ๊ฒฐ๋ก : ๋ฐ์ดํฐ ์๋์ ํํ ์ง๋
๊ณ์ธต์ ํด๋ฌ์คํฐ๋ง์ ๋จ์ํ ๋ฐ์ดํฐ๋ฅผ ๋ฌถ๋ ๊ฒ์ ๋์ด, "๋ฐ์ดํฐ ๊ฐ์ ๊ด๊ณ์ ๊ตฌ์กฐ"๋ฅผ ์๊ฐ์ ์ผ๋ก ํํํ ์ ์๋ ์ง๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
์ต์ NLP ํ์ดํ๋ผ์ธ ๋ฐ XAI์ ๊ฒฐํฉํ๋ฉด ๋จ์ ๊ตฐ์ง์ ๋์ด ์ ๋ต์ ์์ฌ๊ฒฐ์ ์ธ์ฌ์ดํธ๋ฅผ ์์ฐํ ์ ์์ต๋๋ค. ์ง๊ธ ๋ฐ๋ก ์ฌ๋ฌ๋ถ์ ๋ฐ์ดํฐ์ ๋ด๋๋ก๊ทธ๋จ์ ๊ทธ๋ ค๋ณด์ธ์. ๋ฐ์ดํฐ๊ฐ ์จ๊ธฐ๊ณ ์๋ ์ด์ผ๊ธฐ๊ฐ ๋๋ฌ๋ ๊ฒ์ ๋๋ค.