AI দিয়ে Bangla Audio থেকে Text — সম্পূর্ণ Transcription গাইড
Roni Khan একজন BUET PhD candidate — Bangla phonetics এবং socio-linguistics নিয়ে research। তাঁর dissertation-এ ১২০-জন rural Bangladesh-এর native speaker interview ছিল, প্রতি interview 45-90 মিনিট। মোট ১২৩ ঘণ্টার audio। ২০২৪-এর জানুয়ারিতে তিনি manual transcription quote পেয়েছিলেন: ৳২.৫-৪ লাখ + ৪ মাস time। তিনি WhisperX (Whisper Large-v3) deploy করলেন নিজের laptop-এ, plus ChatGPT cleanup pass। মোট cost: ৳০ (electricity ছাড়া)। Time: ১৪ দিন। Accuracy: ৮৯-৯৩% (manual cleanup-এ ৯৮%+)। তাঁর thesis defense-এ supervisor বলেছিলেন: "Most comprehensive dataset of rural Bangla speech ever produced from a PhD candidate।" ২০২৬-এ Roni নিজের BD academic transcription service শুরু করেছেন — মাসিক ৳৬০-৮০K side income, ৮ active client (NGO researcher, journalist, oral history project)।
এই article BD Bangla audio transcription-এর জন্য AI workflow + 5 tool comparison + dialect/accent reality + 4টা use case + 3টা mistake।
৳২.৫L+ → ৳০Roni's PhD transcription cost
৪ মাস → ১৪ দিনTime reduction
৮৯-৯৩%Raw Whisper accuracy
৳৬০-৮০K MRRSide service income
২০২৬-এ Bangla Audio Transcription Tools
- OpenAI Whisper Large-v3: Free open-source, runs locally (GPU recommended)। Bangla 92-95% accuracy clean audio।
- WhisperX: Whisper + diarization (multi-speaker)। Best for interview।
- ElevenLabs Scribe: 2026 release, multi-language including Bangla, very accurate।
- Otter.ai (Bangla beta): Cloud, mobile-friendly, daily limit free tier।
- Google Cloud Speech-to-Text: Bangla supported, pay-per-minute ($0.024/min)।
- Microsoft Azure Speech: Similar pricing।
- AssemblyAI: Strong English, Bangla improving।
Roni-র 4-Step Workflow per Audio
Step 1: Audio preparation (5 min)
- WAV/MP3 format (Whisper accepts both)।
- Noise reduction (Audacity free, AI background noise removal Krisp-style)।
- Split if >2 hours (faster processing)।
Step 2: Run Whisper transcription
Local Mac/Linux command:
whisper interview-01.wav --model large-v3 --language bn --output_format srt
For multi-speaker:
whisperx interview-01.wav --hf_token YOUR_TOKEN --diarize --language bn
1-hour audio → 8-15 min processing on M2 Mac, or 25-40 min on Windows + GPU।
Step 3: Cleanup pass (ChatGPT/Claude, 10 min)
"নিচের raw Whisper Bangla transcription। Cleanup:
(১) Spelling correction (Whisper sometimes phonetic-misspell),
(২) Speaker identification preserve (if WhisperX),
(৩) Pause/filler word ('আচ্ছা', 'হ্যাঁ') keep but mark,
(৪) Punctuation logical,
(৫) Cultural reference accuracy (place name, person name)।"
Step 4: Manual verification (1 hour per 1-hour audio)
Critical sections (quotes for publication, legal evidence) — listen + verify। 95% time saved overall।
Dialect + Accent Reality
- Standard Dhaka Bangla: ৯২-৯৫% accuracy।
- Chittagong dialect: ৭০-৭৮% (significant variation)।
- Sylhet/Nagri: ৬০-৭০% (different phonemes)।
- Rangpur/Rajshahi rural: ৭৫-৮৫%।
- Mixed Bangla-English: 88-92% (Whisper handles code-switching well)।
- Background music/noise: -10 to -15% accuracy। Audio cleanup essential।
4 BD Use Cases
- Academic research: PhD/MS thesis interview transcription (Roni-এর use case)।
- Journalism: Source interview, press conference, podcast transcribe।
- NGO field research: Beneficiary interview, focus group discussion।
- Oral history project: Liberation War (1971) veteran narrative, family history।
- Court reporting (sensitive): Local AI mandatory for confidentiality।
- Podcast/YouTube creator: Caption + searchable transcript।
৩টা Common Mistake
- 1. Cloud upload sensitive audio: OpenAI/Google may store + train। Local Whisper for confidential।
- 2. Skip manual verify on quote-able material: 5-10% error rate = costly mistake in published quote।
- 3. Generic-model on dialect-heavy audio: Standard Dhaka Bangla-trained models struggle on Sylheti/Chittagonian। Pre-process or manual transcribe।
উপসংহার — আপনার আজকের পদক্ষেপ
Roni বলেন: "Bangla audio transcription ২০২৪ পর্যন্ত expensive + slow ছিল। Whisper open-source এনেছে democratization। আমার PhD যা পেয়েছে — অন্য researcher-রাও এখন পেতে পারেন। নিজের laptop, free model, 2-week effort।" আজই করুন: যদি আপনার unprocessed audio file আছে — laptop-এ Whisper install (5-min process, free Python package), একটা 30-min sample audio transcribe try করুন। আগামী সপ্তাহে আপনি বুঝবেন কেন এটা BD researcher/journalist-এর জন্য game-changer।
প্রাসঙ্গিক টুলস ও গাইড
AI আপডেট পেতে চান?
প্রতি সপ্তাহে নতুন AI টুলস ও টিউটোরিয়াল বাংলায় পান।
ফ্রি নিউজলেটার। যেকোনো সময় আনসাবস্ক্রাইব করতে পারবেন।