Parallel hisoblash va Apache Spark asosida katta hajmdagi matnlarni punktuatsion tahlil qilish
Maqsud Siddiqovich SHARIPOV texnika fanlari nomzodi Urganch davlat universiteti Urganch, O‘zbekiston maqsbek72@gmail.com Xushnudbek Saylboyevich ADINAYEV ўқитувчи Urganch davlat universiteti Urganch, O‘zbekiston hushnudbek.adinaev@gmail.com
Annotatsiya
Zamonaviy tabiiy tilni qayta ishlash (NLP) vazifalaridan biri – matnni punktuatsion tahlil qilish bo‘lib, katta hajmli matnlar bilan ishlashda samarali hisoblash usullariga ehtiyoj yuqori. Ushbu tadqiqotda punktuatsion tahlil dasturini turli hisoblash arxitekturalarida – oddiy ketma-ket (Sequential, 1 CPU), parallel (CPU + GPU) va taqsimlangan (Spark klasteri) holda bajarib, ularning unumdorligi taqqoslangan. Tajribalar shuni ko‘rsatadiki, Spark klaster muhitida ma’lumotlarni qayta ishlash tezligi oddiy ketma-ket (sequential) hisoblashga nisbatan bir necha baravar yuqori bo‘lib, ayniqsa ma’lumot hajmi oshganda samaradorlik sezilarli darajada ortadi.
Tayanch so‘zlar: parallel hisoblash, Apache Spark, punktuatsiya, NLP, Big Data.