What computational resources were necessary for this project?

First of all we have to make a dicision which NLP tasks we need to go on the start, let say

  • Tokenization
  • Machine Translation
  • Speech Recognition
  • Language Modeling

Computational Resource

  • NLP task မိူၼ်ၼင်ႇ Machine Translation (NLLB, Madlad), Speech to Text, Text to Speech (TTSMMS) ၸိူဝ်းၼႆႉမီးၶွမ်ႇပၼီႇယႂ်ႇလူင်မိူၼ် Google လႄႈ Meta (Facebook) ၶဝ်သႂ်ႇၶဝ်ႈပႃးလိၵ်ႈတႆးမႃးၵမ်ၽွင်ႈယဝ်ႉ။
  • ၵူၺ်းၵႃႈ ၶေႃႈမုၼ်းလိၵ်ႈတႆးဢၼ်ၶဝ်ၸႂ်ႉ pre-trained ၼၼ်ႉ 90% ပဵၼ်ၶေႃႈမုၼ်းလိၵ်ႈဢၼ်တႅမ်ႈဝႆႉၶၢဝ်းယၢမ်းႁိုင်ယဝ်ႉ ( ဢွၼ်တၢင်း မ ႁႃႈတူဝ်) လႄႈ ၶေႃႈၵႂၢမ်း၊ ထွႆႈၵႂၢမ်း လႄႈတူဝ်လိၵ်ႈမၢင်တူဝ်လႆႈတူၵ်းႁၢႆဝႆႉ သဵင်ဢွၵ်ႇၵေႃႈဢမ်ႇပႆႇပေႃးထုၵ်ႇမႅၼ်ႈ။
  • ၵူၺ်းၵႃႈဝႃႈပဵၼ်လွင်ႈလီၸူမ်းသိူဝ်း ဢၼ်ၶဝ် pre-trained မႃးပၼ်ၵမ်ႈၽွင်ႈလႄႈ ႁဝ်းၸၢင်ႈဢဝ်ၶေႃႈမုၼ်းႁဝ်းသေ fine-tune သိုပ်ႇတေႃႇၵႂႃႇလႆႈငၢႆႈလူဝ်သေတႄႇမႂ်ႇႁင်းၵူၺ်း။

ႁဵတ်းသင်လႄႈဢမ်ႇတေႇမႂ်ႇႁင်းၵူၺ်း

  • “According to OpenAI, the training process of Chat GPT-3 required 3.2 million USD in computing resources alone. This cost was incurred from running the model on 285,000 processor cores and 10,000 graphics cards, equivalent to about 800 petaflops of processing power. This is a massive amount of processing power and is approximately equivalent to the computing power of the 20 most powerful supercomputers in the world combined.”
It would take 355 years to train GPT-3 on a single NVIDIA Tesla V100 GPU.
  • ၵွပ်ႈၼၼ်လႄႈ Fine-Tuning process တေၸႂ်ႉတိုဝ်း computing resource ဢေႇလိူဝ်ၼၼ်ႉတင်းၼမ် ဢိင်ၼိူဝ်တၢင်းယႂ်ႇၶေႃႈမုၼ်းဢၼ်ႁဝ်းမီး။

NLP Task and Computing Resource

  • Machine Translation
  • Speech Recognition
  • Language Modeling

Need Of Financial Support

  • Data storage: တႃႇၵဵပ်းၶေႃႈမုၼ်းႁဝ်းလီၵဵပ်းၶေႃႈမုၼ်းၸိူင်ႉႁိုဝ်။

  • Open Data? : Cloud Storage ၵဵပ်းဝႆႉၼိူဝ် cloud သေ ပိုၼ်ၽႄႈပဵၼ် open-source ႁိုဝ်?

  • Local Data? : HDD, SSD ၵဵပ်းဝႆႉတီႈၶိူင်ႈ computer တွၼ်ႈတႃႇလဵပ်ႈႁဵၼ်းၵူၺ်ႁိုဝ်?

  • သင်ဝႃႈၵဵပ်းၼိူဝ် cloud တႃႇတေပိုတ်ႇပဵၼ် open-source ၼၼ်ႉ တေမီးၵႃႈၸႂ်ႉၸၢႆႇ Subscription cost။ သင်ဝႃႈၵဵပ်းဝႆႉၼႂ်း Local computer တေမီးၵႃႈၸႂ်ႉၸၢႆႇ Onetime cost။

Web hosting

တႃႇၵဵပ်းၶေႃႈမုၼ်းလူၺ်ႈလွၵ်းလၢႆး Crown Sourcing ႁႂ်ႈၵူၼ်းတင်းၼမ်ၸွႆႈၵၼ်ထႅမ်ၶေႃႈမုၼ်း မီးၵႃႈၸႂ်ႉၸၢႆႇတႃႇ website hosting လႄႈ cloud storage

ModelParameterGPU Memory
NLLB MachineTranslation15 GB
Llama7B84 GB
Llama7B float8 with QLoRA16 GB
GPT-2174M20 GB
TTSMMS20 GB

ၼႂ်း NLP Task 3 ဢၼ်ၼႆႉ (Machine Translation, Speech Recognition, Language Modeling) တွၼ်ႈတႃႇတေ fine-tuning ၸႂ်ႉ GPU memory ယူႇ 16GB – 20GB GPU options ဢၼ်ၵႃႈၶၼ်ၵိုင်ႇငၢမ်ႇတင်းဢၼ်ႁဝ်းပဵၼ်လႆႈၼၼ်ႉ။ RTX 4090 24GB: 78,000 ~ 83,000 bath RTX 4080 super 16GB: 48,000 ~ 52,000 bath RTX 3090 24GB: out of stock တေလႆႈႁႃ second hand

ၵွပ်ႈသင်လႄႈဢမ်ႇၸႂ်ႉ Cloud GPU?

Why cloud GPU not fit for us?

  • Google Colab Pro: 343.47 bath per month (100 compute units)

  • Google Colab Pro Plus: 1,677.76 bath per month (400 compute units)

  • ဢၼ်ယၢမ်ႈၸၢမ်းမႃး google colab ၼႆႉၵိုင်ႈၵႃႈၵိုင်ႇၶၼ်တွၼ်ႈတႃႇ train ပဵၼ်ပွၵ်ႈပဵၼ်ၵမ်း ၼိုင်ႈၵမ်းဢမ်ႇပူၼ်ႉလႆႈ 12 - 24 ၸူဝ်ႈမွင်း ပေႃး train 20 compute unites ၼႆတေလႆႈမွၵ်ႈ 5 ၵမ်းၸိူဝ်းၼႆႉၵူၺ်း။

  • Vast.ai rents RTX4090 0.557$ per hour: တႃႇၼိုင်ႈပီတေတူၵ်း 4,812$ = 170,922.24 bath

  • AWS EC2 g4dn.2xlarge 32GB $0.752 per hour: တႃႇၼိုင်ႈပီတေတူၵ်း 6,497.28$ = 230,718.41 bath

  • ၸိူဝ်းၼႆႉ ယင်းပႆႇပႃးဢွင်ႈတီႈတႃႇၸႂ်ႉၵဵပ်းလႄႈ preprocessing ၶေႃႈမုၼ်းလူးၵွၼ်ႇ။

  • တႃႈၵၢၼ် Research & Development ၼႆၸိုင်လူဝ်ႁဵတ်းလူဝ်ႇၸၢမ်း လူဝ်ႇၵဵပ်းလႄႈ process ၶေႃႈမုၼ်းၸိုင်လႆႈဝႃႈၵႃႈၶၼ်သုင်ပူၼ်ႉလႄႈဢမ်ႇၵိုင်ႇၵႃႈၵိုင်ႇၶၼ်။

Conclusion ( ၶွတ်ႇယွတ်ႈ )

တၢင်းယိူင်းဢၢၼ်းလႄႈယိူင်းမၢႆႁဝ်းၶႃႈသေ တႃႇလႆႈလဵပ်ႈႁဵၼ်းလႄႈသိုပ်ႇပွင်သၢင်ႈလွင်ႈလိၵ်ႈလၢႆးလႄႈ IT ၵႂႃႇမိူဝ်းၼႃႈၼၼ်ႉ ႁဝ်းၶႃႈယွၼ်းလွင်ႈသၢၼ်မိုဝ်းလႄႈလွင်ႈၸွႆႈထႅမ်ႁဝ်းၶႃႈ

  • ယွၼ်းၸွႆႈၵဵပ်းႁွမ်ၶေႃႈမုၼ်းလိၵ်ႈလၢႆးတႆးၵူႈၸိူဝ်းၸိူဝ်း ဢၼ်ပဵၼ် digital format ယဝ်ႉၼၼ်ႉ လႄႈယွၼ်းၶႂၢင်ႉၸႂ်ႉတိုဝ်းၶေႃႈမုၼ်းဢၼ်ၸဝ်ႈၶဝ်လႆႈၵဵပ်းႁွမ်တွမ်ၸူႉဝႆႉၸိူဝ်းၼၼ်ႉ ႁႂ်ႈပဵၼ်ဢမူၺ်ႇတႃႇတႆးႁဝ်းၵူႈၵေႃႉ။
  • ယွၼ်းၸွႆႈပၼ်တၢင်းႁၼ်ထိုင်လႄႈဢုပ်ႇၵုမ်ၵၼ် တွၼ်ႈတႃႇၵၢၼ်ၸႂ်ႉတိုဝ်းလိၵ်ႈလၢႆးႁႂ်ႈထုၵ်ႇမႅၼ်။
  • ယွၼ်းလွင်ႈတၢင်းၸွႆႈထႅမ်ၶူဝ်းၶွင်ၶိူင်ႈယိပ်း Computer Resource ဢမ်ႇၼၼ်ငိုၼ်းတိုၼ်းၼင်ႇၵႃႈပဵၼ်လႆႈၼၼ်ႉ ႁႂ်ႈလႆႈပဵၼ်ၵႃႈၼမ်ႉၾႆး ၵႃႈၵေႃႇၾီႇပၼ်ႁႅင်းႁဝ်းၶႃႈ။

Hao Haa (ႁဝ်းႁႃး)

info@haohaa.com