AI/ML 2026๋…„ 1์›” 8์ผ

๐Ÿ”Ž ์ง€๊ธˆ ๋ฐ”๋กœ Jaccard Index๋ฅผ ๋งˆ์Šคํ„ฐํ•˜๊ณ  ๋ฐ์ดํ„ฐ ๊ฒฝ์Ÿ์—์„œ ์Šน๋ฆฌํ•˜๋ผ! ๐Ÿš€

๐Ÿ“Œ ์š”์•ฝ

์ž์นด๋“œ ๊ณ„์ˆ˜์˜ ํ•ต์‹ฌ ์›๋ฆฌ๋ถ€ํ„ฐ ์ตœ์‹  ๋™ํ–ฅ, ์‹ค๋ฌด ์ ์šฉ ๋ฐฉ์•ˆ๊นŒ์ง€! ์‹œํ—˜ ๋Œ€๋น„๋Š” ๋ฌผ๋ก , AI ์ „๋ฌธ๊ฐ€๋ฅผ ๊ฟˆ๊พธ๋Š” ๋‹น์‹ ์„ ์œ„ํ•œ ์™„๋ฒฝ ๊ฐ€์ด๋“œ. 2025๋…„ ๋ฏธ๋ž˜ ์ „๋ง๊ณผ ์ „๋ฌธ๊ฐ€ ์ œ์–ธ๊นŒ์ง€ ๋‹ด์•˜์Šต๋‹ˆ๋‹ค.

์™œ Jaccard Index๋ฅผ ์•Œ์•„์•ผ ํ• ๊นŒ?

๋ฐ์ดํ„ฐ๊ฐ€ ํญ๋ฐœ์ ์œผ๋กœ ๋Š˜์–ด๋‚˜๋ฉด์„œ โ€˜๋‚ด๊ฐ€ ์ฐพ๋Š” ๊ฒƒ๊ณผ ์ด๊ฒƒ์ด ์–ผ๋งˆ๋‚˜ ๋น„์Šทํ•œ๊ฐ€?โ€™๋ฅผ 0.1์ดˆ ์•ˆ์— ํŒ๋‹จํ•ด์•ผ ํ•˜๋Š” ์ƒํ™ฉ์ด ์ผ์ƒํ™”๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์‹œํ—˜ ๋ฌธ์ œ ์€ํ–‰์—์„œ ์ค‘๋ณต ๋ฌธ์ œ๋ฅผ ๊ฒ€์ถœํ•˜๋“ , ์ด์ปค๋จธ์Šค์—์„œ "์ด ๊ณ ๊ฐ๊ณผ ๊ตฌ๋งค ์„ฑํ–ฅ์ด ๋น„์Šทํ•œ ์‚ฌ๋žŒ์€?"์„ ๋ฌป๋“ , Jaccard Index(์ž์นด๋“œ ์ง€์ˆ˜)๋Š” ์ง‘ํ•ฉ ๊ธฐ๋ฐ˜ ์œ ์‚ฌ๋„๋ฅผ ๊ฐ€์žฅ ์ง๊ด€์ ์ด๊ณ  ๋น ๋ฅด๊ฒŒ ์ œ๊ณตํ•˜๋Š” ๊ฐ•๋ ฅํ•œ ๋„๊ตฌ์ž…๋‹ˆ๋‹ค.

๋ฐ์ดํ„ฐ์˜ ๊ต์ฐจ์ ๊ณผ ์œ ์‚ฌ์„ฑ์„ ๋ถ„์„ํ•˜๋Š” ์ถ”์ƒ์ ์ธ ์ด๋ฏธ์ง€
๋ฐ์ดํ„ฐ์˜ ๋ฐ”๋‹ค์—์„œ ์œ ์‚ฌํ•œ ํŒจํ„ด์„ ์ฐพ์•„๋‚ด๋Š” ๊ฒƒ์€ ํ˜„๋Œ€ IT์˜ ํ•ต์‹ฌ์ž…๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ๊ฐœ๋…๊ณผ ์ˆ˜์‹

Jaccard Index์˜ ์›๋ฆฌ๋Š” ์•„์ฃผ ๋‹จ์ˆœํ•ฉ๋‹ˆ๋‹ค. ๋‘ ์ง‘ํ•ฉ A์™€ B๊ฐ€ ์žˆ์„ ๋•Œ, "๋‘˜์˜ ๊ต์ง‘ํ•ฉ ํฌ๊ธฐ๋ฅผ ํ•ฉ์ง‘ํ•ฉ ํฌ๊ธฐ๋กœ ๋‚˜๋ˆˆ ๊ฐ’"์ž…๋‹ˆ๋‹ค.

๐Ÿ“ ์ˆ˜์‹ ์ •์˜

J(A, B) = |A โˆฉ B| รท |A โˆช B|

๐Ÿ“ ์‰ฌ์šด ์˜ˆ์‹œ

๋‘ ์‚ฌ์šฉ์ž์˜ ๊ตฌ๋งค ๋ชฉ๋ก์ด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค๊ณ  ๊ฐ€์ •ํ•ด ๋ด…์‹œ๋‹ค.

  • ๐Ÿ…ฐ๏ธ ์‚ฌ์šฉ์ž A: { ์‚ฌ๊ณผ, ๋ฐฐ, ํฌ๋„, ์ˆ˜๋ฐ• }
  • ๐Ÿ…ฑ๏ธ ์‚ฌ์šฉ์ž B: { ํฌ๋„, ์ˆ˜๋ฐ•, ๋”ธ๊ธฐ }
  • ๊ต์ง‘ํ•ฉ(๊ณตํ†ต): { ํฌ๋„, ์ˆ˜๋ฐ• } โ†’ 2๊ฐœ
  • ํ•ฉ์ง‘ํ•ฉ(์ „์ฒด): { ์‚ฌ๊ณผ, ๋ฐฐ, ํฌ๋„, ์ˆ˜๋ฐ•, ๋”ธ๊ธฐ } โ†’ 5๊ฐœ
  • Jaccard Index: 2 / 5 = 0.4 (40% ์œ ์‚ฌํ•จ)

์ด ๊ฐ’์€ 0๊ณผ 1 ์‚ฌ์ด์ด๋ฉฐ, 1์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ๋‘ ์ง‘ํ•ฉ์ด ์™„๋ฒฝํ•˜๊ฒŒ ์ผ์น˜ํ•จ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

AI์™€ Jaccard์˜ ์ตœ์‹  ์œตํ•ฉ

์ „ํ†ต์ ์ธ ๋ฐฉ์‹์€ ๋ฐ์ดํ„ฐ๊ฐ€ ์ˆ˜๋ฐฑ๋งŒ ๊ฑด์ด ๋„˜์–ด๊ฐ€๋ฉด ๊ณ„์‚ฐ ์†๋„๊ฐ€ ๋А๋ ค์ง‘๋‹ˆ๋‹ค(O(|A|+|B|)). ํ•˜์ง€๋งŒ ์ตœ์‹  AI ํŒŒ์ดํ”„๋ผ์ธ์—์„œ๋Š” ์ด๋ฅผ ํš๊ธฐ์ ์œผ๋กœ ๊ฐœ์„ ํ•˜์—ฌ ์‚ฌ์šฉ ์ค‘์ž…๋‹ˆ๋‹ค.

1๏ธโƒฃ MinHash + LSH (์ดˆ๊ณ ์† ํ•„ํ„ฐ๋ง)

๊ตฌ๊ธ€์ด๋‚˜ ๋„ทํ”Œ๋ฆญ์Šค ๊ฐ™์€ ๊ณณ์—์„œ๋Š” ์›๋ณธ ์ง‘ํ•ฉ์„ ์ง์ ‘ ๋น„๊ตํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. MinHash ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ†ตํ•ด ์ง‘ํ•ฉ์„ ์ž‘์€ '์„œ๋ช…(Signature)'์œผ๋กœ ์••์ถ•ํ•œ ๋’ค, LSH(Locality Sensitive Hashing)๋กœ ์œ ์‚ฌํ•  ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์€ ํ›„๋ณด๊ตฐ๋งŒ 0.01์ดˆ ๋งŒ์— ์ถ”๋ ค๋ƒ…๋‹ˆ๋‹ค.

2๏ธโƒฃ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์œ ์‚ฌ๋„ (Hybrid Similarity)

๋‹จ์–ด์˜ ์ฒ ์ž๋งŒ ๋น„๊ตํ•˜๋Š” Jaccard์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด, ๋”ฅ๋Ÿฌ๋‹(Embedding) ๊ธฐ๋ฐ˜์˜ Cosine Similarity์™€ ๊ฒฐํ•ฉํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘‰ "์˜๋ฏธ์  ์œ ์‚ฌ๋„(๋”ฅ๋Ÿฌ๋‹) + ํ‚ค์›Œ๋“œ ์ผ์น˜๋„(Jaccard)"๋ฅผ ๋™์‹œ์— ๊ณ ๋ คํ•˜์—ฌ ๊ฒ€์ƒ‰ ํ’ˆ์งˆ์„ 12% ์ด์ƒ ๋†’์ž…๋‹ˆ๋‹ค.

๋ณต์žกํ•œ ์‹ ๊ฒฝ๋ง๊ณผ ๋ฐ์ดํ„ฐ ๋…ธ๋“œ ์—ฐ๊ฒฐ ์‹œ๊ฐํ™”
๋‹จ์ˆœ ์ง‘ํ•ฉ ์—ฐ์‚ฐ์„ ๋„˜์–ด ์ธ๊ณต์ง€๋Šฅ ๋ชจ๋ธ ๋‚ด๋ถ€์˜ ํ•„ํ„ฐ๋ง ๋กœ์ง์œผ๋กœ ์ง„ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค.

์‹ค๋ฌด ์ ์šฉ ์‚ฌ๋ก€ 5์„ 

๐Ÿ›๏ธ ๊ฒ€์ƒ‰์–ด ์ž๋™์™„์„ฑ

์‚ฌ์šฉ์ž๊ฐ€ ์˜คํƒ€๋ฅผ ๋‚ด๋”๋ผ๋„, ๊ณผ๊ฑฐ ์ธ๊ธฐ ๊ฒ€์ƒ‰์–ด ์ง‘ํ•ฉ๊ณผ Jaccard ์œ ์‚ฌ๋„ 0.3 ์ด์ƒ์ธ ํ‚ค์›Œ๋“œ๋ฅผ ์ฐพ์•„ "์ด๊ฒƒ์„ ์ฐพ์œผ์…จ๋‚˜์š”?"๋ผ๊ณ  ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ“š ํ‘œ์ ˆ ๋ฐ ์ค‘๋ณต ๊ฒ€์‚ฌ

๋ฌธ์„œ๋ฅผ 3๋‹จ์–ด์”ฉ ์ž๋ฅธ(3-gram) ์ง‘ํ•ฉ์„ ๋งŒ๋“  ๋’ค ๋น„๊ตํ•ฉ๋‹ˆ๋‹ค. Jaccard Index๊ฐ€ 0.6 ์ด์ƒ์ด๋ฉด 'ํ‘œ์ ˆ ์˜์‹ฌ' ํ”Œ๋ž˜๊ทธ๋ฅผ ๋„์›Œ ๊ต์œก ๋ฐ ์ถœํŒ ๋ถ„์•ผ์—์„œ ํ•„์ˆ˜์ ์œผ๋กœ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

๐ŸŽฌ ์ทจํ–ฅ ํด๋Ÿฌ์Šคํ„ฐ๋ง

Spotify๋‚˜ Netflix๋Š” ์‹œ์ฒญ ๋ชฉ๋ก์„ ์ง‘ํ•ฉ์œผ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ, ์ทจํ–ฅ์ด ๊ฒน์น˜๋Š” ์œ ์ €๋“ค์„ ๋ฌถ์Šต๋‹ˆ๋‹ค(Clustering). ์ด ๊ทธ๋ฃน ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ "๋‹น์‹ ์ด ์ข‹์•„ํ•  ๋งŒํ•œ ์ฝ˜ํ…์ธ "๋ฅผ ์ถ”์ฒœํ•ฉ๋‹ˆ๋‹ค.

๐Ÿงฌ ์œ ์ „์ž ์„œ์—ด ๋ถ„์„

Bio-Informatics ๋ถ„์•ผ์—์„œ DNA ์—ผ๊ธฐ์„œ์—ด(k-mer ์ง‘ํ•ฉ) ๊ฐ„์˜ ์œ ์‚ฌ๋„๋ฅผ ์ดˆ๊ณ ์†์œผ๋กœ ๊ณ„์‚ฐํ•˜์—ฌ, ๋ณ€์ด ๋ฐ”์ด๋Ÿฌ์Šค๋‚˜ ์œ ์‚ฌ ์œ ์ „์ž๋ฅผ ํƒ์ƒ‰ํ•˜๋Š” ๋ฐ ์“ฐ์ž…๋‹ˆ๋‹ค.

์ „๋ฌธ๊ฐ€ ์ธ์‚ฌ์ดํŠธ

๐Ÿ’ก Technical Insight

๋ฐ์ดํ„ฐ ํ”„๋ผ์ด๋ฒ„์‹œ ์ฃผ์˜:
Jaccard ๊ณ„์‚ฐ์„ ์œ„ํ•ด ์›๋ณธ ์ง‘ํ•ฉ ๋ฐ์ดํ„ฐ๋ฅผ ๊ทธ๋Œ€๋กœ ์„œ๋ฒ„์— ์ €์žฅํ•˜๋ฉด ๊ฐœ์ธ์ •๋ณด ์œ ์ถœ ์œ„ํ—˜์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ตœ๊ทผ์—๋Š” Homomorphic Encryption(๋™ํ˜• ์•”ํ˜ธ) ๊ธฐ์ˆ ์„ ์ ์šฉํ•ด, ๋ฐ์ดํ„ฐ๊ฐ€ ์•”ํ˜ธํ™”๋œ ์ƒํƒœ์—์„œ ๊ต์ง‘ํ•ฉ ๊ฐœ์ˆ˜๋งŒ ์‚ฐ์ถœํ•˜๋Š” ๋ณด์•ˆ ๊ธฐ์ˆ ์ด ๋„์ž…๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.


๋ฏธ๋ž˜ ์ „๋ง (Next 3-5 Years):
๋‹จ์ˆœ ์ •์  ๋ฐ์ดํ„ฐ๊ฐ€ ์•„๋‹Œ, '์‹œ๊ณ„์—ด ๊ทธ๋ž˜ํ”„ + Jaccard'์˜ ๊ฒฐํ•ฉ์ด ์ฃผ๋ชฉ๋ฐ›๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๋ณ€ํ•˜๋Š” ์ง‘ํ•ฉ(๋™์  ๊ทธ๋ž˜ํ”„)์˜ ๋ณ€ํ™”๋Ÿ‰์„ ์ถ”์ ํ•ด ๊ธˆ์œต ์ด์ƒ ๊ฑฐ๋ž˜ ํƒ์ง€(FDS)์˜ ํ‘œ์ค€์ด ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๊ฒฐ๋ก  ๋ฐ ์ „๋ง

2025๋…„ ์ดํ›„, ์šฐ๋ฆฌ๋Š” โ€˜Jaccard-centric AIโ€™์˜ ํ๋ฆ„์„ ๋ชฉ๊ฒฉํ•˜๊ฒŒ ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํ…์ŠคํŠธ, ์ด๋ฏธ์ง€, ์˜ค๋””์˜ค ๋“ฑ ์„œ๋กœ ๋‹ค๋ฅธ ํ˜•ํƒœ์˜ ๋ฐ์ดํ„ฐ(Multi-modal)๋ฅผ ์ง‘ํ•ฉ์œผ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ํ†ตํ•ฉ ์œ ์‚ฌ๋„๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๊ธฐ์ˆ ์ด ๋ณดํŽธํ™”๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋ฏธ๋ž˜์ง€ํ–ฅ์  ๊ธฐ์ˆ ๊ณผ ์ธ๊ณต์ง€๋Šฅ ์นฉ์…‹
๊ฐ€์žฅ ๊ธฐ์ดˆ์ ์ธ ์ˆ˜ํ•™ ์›๋ฆฌ๊ฐ€ ๊ฐ€์žฅ ์ง„๋ณด๋œ AI์˜ ํ† ๋Œ€๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.

์ง€๊ธˆ ๋ฐ”๋กœ ์—ฌ๋Ÿฌ๋ถ„์˜ ๋ฐ์ดํ„ฐ ํŒŒ์ดํ”„๋ผ์ธ์— Jaccard Index๋ฅผ ์ ์šฉํ•ด ๋ณด์„ธ์š”. ๋ณต์žกํ•œ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์„ ๋Œ๋ฆฌ๊ธฐ ์ „, ์ด ๊ฐ„๋‹จํ•œ ์ˆ˜์‹ ํ•˜๋‚˜๊ฐ€ ๋น„์šฉ์€ 90% ์ ˆ๊ฐํ•˜๊ณ  ์†๋„๋Š” 10๋ฐฐ ๋†’์ด๋Š” ํ•ต์‹ฌ ํ‚ค(Key)๊ฐ€ ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๐Ÿท๏ธ ํƒœ๊ทธ
#AI #์ž์นด๋“œ ๊ณ„์ˆ˜ #๋ฐ์ดํ„ฐ ๋ถ„์„ #์‹œํ—˜ ๋Œ€๋น„ #์ธ๊ณต์ง€๋Šฅ
โ† AI/ML ๋ชฉ๋ก์œผ๋กœ