diff --git a/README.md b/README.md index e69de29..b4be4b4 100644 --- a/README.md +++ b/README.md @@ -0,0 +1,80 @@ +# ๐Ÿ“„ ํ”„๋กœ์ ํŠธ ์†Œ๊ฐœ + +ํ•˜๋ฃจ์—๋„ ์ˆ˜๋ฐฑ, ์ˆ˜์ฒœ ๊ฐœ์˜ ๊ฒฝ์ œ ๋‰ด์Šค๊ฐ€ ๋ฐœ๊ฐ„๋˜์–ด ๊ธฐ์—…์˜ ๊ฒฝ์ œ ํ™œ๋™์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์–‘์ด ์ง€๋‚˜์น˜๊ฒŒ ๋ฐฉ๋Œ€ํ•˜์—ฌ ๊ฐœ์ธ์ด ์ „๋ถ€ ์ฝ์€ ๋’ค ์ฃผ์‹ ํˆฌ์ž์— ํ™œ์šฉ ํ•˜๊ธฐ์—๋Š” ์–ด๋ ค์›€์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ €ํฌ๋Š” ๊ธฐ์‚ฌ ์š”์•ฝ, ํ‚ค์›Œ๋“œ ์ถ”์ถœ, ํ‚ค์›Œ๋“œ์™€ ๊ธฐ์‚ฌ์— ๋Œ€ํ•œ ๊ธ/๋ถ€์ • ๋ถ„๋ฅ˜๋ฅผ ํ†ตํ•ด ์ฃผ์‹์‹œ์žฅ์˜ ํ๋ฆ„์„ ๊ฐ€๋…์„ฑ์ด ๋†’์€ ํ˜•ํƒœ๋กœ ์ œ๊ณตํ•˜๋ ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. + +# ๐Ÿ—“๏ธ ๊ฐœ๋ฐœ ๊ธฐ๊ฐ„ + +23.07.03 - 23.07.28(์ด 26์ผ) + +# ๐Ÿ‘จโ€๐Ÿ‘จโ€๐Ÿ‘งโ€๐Ÿ‘ง ๋ฉค๋ฒ„ ๊ตฌ์„ฑ ๋ฐ ์—ญํ•  + +| [๊ณฝ๋ฏผ์„](https://github.com/kms7530) | [์ด์ธ๊ท ](https://github.com/lig96) | [์ž„ํ•˜๋ฆผ](https://github.com/halimx2) | [์ตœํœ˜๋ฏผ](https://github.com/ChoiHwimin) | [ํ™ฉ์œค๊ธฐ](https://github.com/dbsrlskfdk) | +|---|---|---|---| --- | +| | | | | | + +- **๊ณฝ๋ฏผ์„** + - ์š”์•ฝ ๋ชจ๋ธ + - ๋ฐ์ดํ„ฐ์…‹ ์ˆ˜์ง‘ + - ๋ชจ๋ธ ์„ฑ๋Šฅ ์‹คํ—˜ + - ์š”์•ฝ ๋ชจ๋ธ API ์„ค๊ณ„ + - ๊ธฐ์‚ฌ ๊ธ๋ถ€์ • ๋ถ„๋ฅ˜ ๋ฐ์ดํ„ฐ์…‹ + - LLM์„ ์ด์šฉํ•œ ๋ฐ์ดํ„ฐ์…‹ ๋ผ๋ฒจ๋ง + - Backend + - Frontend +- **์ด์ธ๊ท ** + - ๋‰ด์Šค ๊ธ๋ถ€์ • ๋ถ„๋ฅ˜ + - ์ตœ์‹  Model ํƒ์ƒ‰ + - ์ž์ฒด Model ์„ค๊ณ„ +- **์ž„ํ•˜๋ฆผ** + - ์„œ๊ธฐ + - ๋‰ด์Šค ๊ธ๋ถ€์ • ๋ถ„๋ฅ˜ + - ์ž์ฒด Model ์„ค๊ณ„ + - ๋ชจ๋ธ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ ์„ค๊ณ„ + - ๋‰ด์Šค ๊ธ๋ถ€์ • api ์„ค๊ณ„ + - chat gpt ๋ผ๋ฒจ๋ง + - ๊ธฐ์‚ฌ ์ „์ฒ˜๋ฆฌ +- **์ตœํœ˜๋ฏผ** + - ํ‚ค์›Œ๋“œ ์ถ”์ถœ + - ์ž์ฒด Model ์„ค๊ณ„ ๋ฐ ์‹คํ—˜ + - ํ‚ค์›Œ๋“œ ์ถ”์ถœ API ์„ค๊ณ„ + - ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ +- **ํ™ฉ์œค๊ธฐ** + - ํ”„๋กœ์ ํŠธ ๋ฆฌ๋” + - ๋„ค์ด๋ฒ„ ๋‰ด์Šค ํฌ๋กค๋ง + - Airflow + - Crawling Scheduling + - Serving Scheduling + - ํ‚ค์›Œ๋“œ ์ถ”์ถœ + - KeyBERT ๊ธฐ๋ฐ˜ Model + +# โš’๏ธ ๊ธฐ๋Šฅ + +## ํ‚ค์›Œ๋“œ ์ถ”์ถœ + +- ์ฃผ์–ด์ง„ ๊ธฐ์‚ฌ ๋‚ด์—์„œ ์ค‘์š”ํ•œ ํ‚ค์›Œ๋“œ๋ฅผ ์ถ”์ถœํ•˜๊ธฐ ์œ„ํ•œ ์ž‘์—…์„ ์‹œํ–‰ํ•ฉ๋‹ˆ๋‹ค. +- ๊ธฐ์‚ฌ ์ „์ฒด์—์„œ ๋‹จ์–ด์˜ ๊ฐ€์ค‘์น˜๋ฅผ ๊ณ„์‚ฐํ•˜๊ณ , ํ•ด๋‹น ๊ฐ€์ค‘์น˜๋ฅผ ์ด์šฉํ•œ ์ฃผ์š” ๋‹จ์–ด ํ›„๋ณด๋ฅผ ์„ ์ •ํ•ฉ๋‹ˆ๋‹ค. +- ํ•œ๊ตญ์–ด ํ‚ค์›Œ๋“œ ์ถ”์ถœ์˜ ์„ฑ๋Šฅ์„ ์ธก์ •ํ•˜๊ธฐ ์œ„ํ•œ ๋ฐ์ดํ„ฐ์…‹์ด ์กด์žฌํ•˜์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์— 50๊ฐœ์˜ ์ž์ฒด ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค. + +## ๊ธฐ์‚ฌ ๊ธ๋ถ€์ • ๋ถ„๋ฅ˜ + +- ์ถ”์ถœ๋œ ํ‚ค์›Œ๋“œ๊ฐ€ ๊ธฐ์—…์˜ ์ข‹์€ ์ƒํ™ฉ์„ ๋‚˜ํƒ€๋‚ด๋Š” ๋‹จ์–ด์ธ์ง€, ๋‚˜์œ ์ƒํ™ฉ์„ ๋‚˜ํƒ€๋‚ด๋Š” ๋‹จ์–ด์ธ์ง€ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•˜๊ธฐ ์œ„ํ•ด ๊ธ๋ถ€์ • ๋ถ„๋ฅ˜ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์‚ฌ ์ „์ฒด๋ฅผ ๊ฐ์„ฑ ๋ถ„์„ํ•œ ๋’ค์— ํ‚ค์›Œ๋“œ์˜ ๋Œ€์šฉ ์ง€ํ‘œ๋กœ ์ฑ„ํƒํ•ฉ๋‹ˆ๋‹ค. +- ์ด ํ•™์Šต ๋ฐ์ดํ„ฐ๋Š” ๊ธฐ์‚ฌ ๊ธ๋ถ€์ • ๋ถ„๋ฅ˜์—๋Š” 30๊ฐœ์˜ ๊ธฐ์—…์˜ ์ด 9000๊ฐœ์˜ ๊ธฐ์‚ฌ๋ฅผ chat gpt API๋ฅผ ํ™œ์šฉํ•ด ๊ธ๋ถ€์ • labeling์„ ์ง„ํ–‰ํ–ˆ๊ณ , train set, dev set์„ 8:2๋กœ ๋‚˜๋ˆ„์–ด์„œ ํ•™์Šต์„ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. + +## ๊ธฐ์‚ฌ ์š”์•ฝ + +- IT / ๊ฒฝ์ œ๋ถ„์•ผ ๋‰ด์Šค๋ฅผ ์ด์šฉํ•˜์—ฌ ํ•™์Šตํ•œ ๋ชจ๋ธ(T5, polyglot-ko)์„ ์ด์šฉํ•˜์—ฌ ๋‰ด์Šค๋ฅผ ์š”์•ฝ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. +- T5 ๋ชจ๋ธ์„ ์ด์šฉํ•˜์—ฌ ํ•œ์ค„ ์š”์•ฝ์„ ๋งŒ๋“ค์–ด๋‚ด๊ณ , ์ดํ›„ ์ž์„ธํ•œ ๋‚ด์šฉ์€ polyglot-ko ๋ชจ๋ธ์„ ์ด์šฉํ•˜์—ฌ ์ƒ๋Œ€์ ์œผ๋กœ ๊ธด ์š”์•ฝ ๋‚ด์šฉ์„ ์ถ”๊ฐ€ํ•ด ์ค๋‹ˆ๋‹ค. +- ๋ชจ๋ธ์„ ์ด์šฉํ•˜์—ฌ ์ƒ์„ฑ๋œ ๊ฒฐ๊ณผ๋Š” ์œ ์˜๋ฏธํ•œ ๋ฌธ์žฅ๋งŒ์„ ๊ฐ€์ ธ์™€ ํ›„์ฒ˜๋ฆฌํ•˜์—ฌ ๋ฐ˜ํ™˜ํ•ฉ๋‹ˆ๋‹ค. + +--- + +# ๐Ÿ‘จโ€๐Ÿ”ฌ ๋ชจ๋ธ ์—ฐ๊ตฌ + +## ํ‚ค์›Œ๋“œ ์ถ”์ถœ + +- ์ฃผ์š” ๋‹จ์–ด ํ›„๋ณด์™€ ๊ธฐ์‚ฌ๋ฅผ ํ•œ๊ตญ์–ด๋กœ ๊ธฐํ•™์Šต๋œ `Sentence-Transformer`๋ฅผ ์ด์šฉํ•ด์„œ Embedding์„ ๊ณ„์‚ฐํ•œ ํ›„, ์œ ์‚ฌ๋„๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ ๋†’์€ ์ ์ˆ˜๋ฅผ ๋‚ธ ๋‹จ์–ด๋ฅผ ํ•ด๋‹น ๊ธฐ์‚ฌ์˜ ์ฃผ์š” ํ‚ค์›Œ๋“œ๋กœ ์„ ์ •ํ•˜์˜€์Šต๋‹ˆ๋‹ค. +- ์„ ์ •๋œ ํ‚ค์›Œ๋“œ๋“ค์„ ํ‚ค์›Œ๋“œ์˜ ํ˜•ํƒœ(๋ช…์‚ฌํ˜• ์–ด๊ตฌ)๋กœ ํ‘œ์‹œํ•˜๊ณ ์ž, ์ถ”์ถœ๋œ ํ‚ค์›Œ๋“œ์— ๋Œ€ํ•ด ํ›„์ฒ˜๋ฆฌ๋ฅผ ์ง„ํ–‰ํ•˜์˜€์Šต๋‹ˆ๋‹ค. + +## ๋‰ด์Šค ๊ธ๋ถ€์ • ๋ถ„๋ฅ˜ + +## ๊ธฐ์‚ฌ ์š”์•ฝ \ No newline at end of file