একবিংশ শতাব্দীর শুরু থেকেই নতুন প্রজন্মসহ দেশের সব বয়সী মানুষ বিভিন্নভাবে প্রযুক্তিনির্ভর হয়ে উঠেছে। ডিজিটাল হয়ে উঠছে প্রত্যন্ত অঞ্চল থেকে মহাবিশ্বের প্রায় সবকিছু। এ ক্ষেত্রে ইংরেজির পাশাপাশি বাংলা ভাষা ব্যবহার হচ্ছে। মোবাইল ফোন, কম্পিউটার-কিবোর্ড অহরহ ব্যবহার হলেও বাংলা ভাষা ব্যবহারে প্রায়ই নানা জটিলতায় পড়তে হয়। এ জন্য প্রধানত বাংলা ভাষার নির্দিষ্ট ফন্ট না থাকা এবং ফন্টের বিভিন্ন আকৃতি ও যুক্তাক্ষরকে দায়ী করা হয়। এমন পরিস্থিতিতে ২০১৬ সালে বাংলা ভাষাকে প্রযুক্তিবান্ধব করা ও অনলাইন (ইন্টারনেট) মাধ্যমে সংযুক্ত করার উদ্যোগ নেয় সরকার। গ্রহণ করা হয় ‘গবেষণা ও উন্নয়নের মাধ্যমে তথ্যপ্রযুক্তিতে বাংলা ভাষা সমৃদ্ধকরণ’ প্রকল্প।
তথ্যপ্রযুক্তি মন্ত্রণালয়ের গৃহীত প্রকল্পের আওতায় ইন্টারনেট ও প্রযুক্তি ডিভাইসে ব্যবহারযোগ্য ১৬টি সফটওয়্যার, টুল বা উপাদান উন্নয়ন করার কথা। ১৫৯ কোটি টাকার এই প্রকল্পের মেয়াদ ধরা হয় ২০১৯ সাল পর্যন্ত। কিন্তু তিন দফা মেয়াদ বাড়ানোর পর এবার প্রকল্পের মেয়াদ ধরা হয়েছে ২০২৬ সালের জুন পর্যন্ত। গত ৯ বছরে ১৬টি সফটওয়্যার ও টুলের মধ্যে উন্মোচিত হয়েছে মাত্র পাঁচটি। এসব সফটওয়্যার বা টুল সাধারণ মানুষের ব্যবহারের জন্য উন্মোচিত হলেও তা কাগজে-কলমে। কারণ, প্রচার না থাকায় তথ্যপ্রযুক্তি ব্যবহারকারীদের কাছে এর সুফল এখনও পৌঁছেনি। প্রকল্পের সুফল কবে তথ্যপ্রযুক্তি ব্যবহারকারীদের কাছে পৌঁছাবে, তা নিয়ে প্রশ্ন উঠেছে।
সরকারের তথ্য ও যোগাযোগ প্রযুক্তি (আইসিটি) বিভাগের এক প্রতিবেদনে বলা হয়েছে, দুঃখজনক হলেও সত্য, বাংলা ভাষাকে প্রযুক্তিবান্ধব করার ক্ষেত্রে প্রয়োজনীয় ভিত্তি দেশে এখনও তৈরি হয়নি। বিশেষ করে কম্পিউটিংয়ে বাংলা ভাষাকে অভিযোজিত করার ক্ষেত্র তৈরিতে বাংলাদেশ অনেক পিছিয়ে। তবে সরকার বিশ্বের প্রায় ৩৫ কোটি বাংলাভাষীর কথা চিন্তা করে তথ্যপ্রযুক্তিতে বাংলা ভাষাকে অভিযোজিত করার জন্য প্রচেষ্টা চালিয়ে যাচ্ছে। আন্তর্জাতিক পরিসরে নেতৃস্থানীয় ভাষা হিসেবে বাংলাকে প্রতিষ্ঠা করাই এর লক্ষ্য। তবে প্রকল্পের কার্যপত্র পর্যালোচনায় দেখা গেছে, সরকারের বাংলা ভাষা প্রকল্প চলছে শম্বুকগতিতে।
জাতীয় কবি কাজী নজরুল ইসলাম বিশ্ববিদ্যালয়ের প্রাক্তন উপাচার্য ভাষাবিজ্ঞানী ড. সৌমিত্র শেখর বলেন, ‘বাংলা একটি জীবন্ত ভাষা। বাংলা ব্যবহারকারীর সংখ্যা বিশ্বে প্রায় ২৭ কোটি। এ পরিপ্রেক্ষিতে তথ্যপ্রযুক্তিতে বাংলা ভাষার ব্যবহারকে আরও বেশি সহজীকরণ করা প্রয়োজন। এ জন্য বাংলা ভাষার জন্য নতুন অ্যাপ তৈরির পাশাপাশি আধুনিক প্রযুক্তিতে বাংলা লেখায় প্রতিবন্ধকতাগুলো চিহ্নিত করে সমাধান বের করতে হবে। কৃত্রিম বুদ্ধিমত্তার সঙ্গে যোগসূত্র স্থাপন করার লক্ষ্যে বাংলা ভাষায় অনেক বেশি তথ্যের আধার প্রযুক্তির জগতে সঞ্চিত করে রাখাও সময়ের দাবি। সেদিক থেকে তথ্যপ্রযুক্তি মন্ত্রণালয় ও সংস্কৃতিবিষয়ক মন্ত্রণালয়ের মধ্যে সমন্বিত উদ্যোগ জরুরি।’
তাঁর মতে, বানানের ভুল সংশোধন ও প্লেজারিজম, অর্থাৎ চৌর্যবৃত্তি রোধের জন্য সফটওয়্যার তৈরি করতে হবে। তথ্যপ্রযুক্তিতে বাংলা ভাষার সর্বজনীনতা নিশ্চিত করতে না পারলে ভবিষ্যৎ প্রজন্ম বাংলাকে গ্রহণ করবে না। তারা দ্বিধান্বিত থাকবে, যা জাতির জন্য দুর্গতি বয়ে আনবে।
প্রকল্পের বর্তমান অবস্থা
তথ্যপ্রযুক্তি মন্ত্রণালয়ের আওতায় আইসিটি বিভাগ ও বাংলাদেশ কম্পিউটার কাউন্সিল (বিসিসি) বাংলা ভাষা সমৃদ্ধকরণ প্রকল্পটি বাস্তবায়ন করছে। এই প্রকল্পের আওতায় ১৬টি সফটওয়্যার ও টুল উন্নয়ন করা হচ্ছে। এর জন্য পৃথক বাজেট বরাদ্দ করা হয়েছে। প্রকল্পের আওতায় ইতোমধ্যে বাংলা ওসিআর (টাইপ করা ও হাতের লেখা স্বয়ংক্রিয় শনাক্তকরণ ও কম্পোজ), কথা থেকে লেখা ও লেখা থেকে কথায় রূপান্তর সফটওয়্যার টেক্সট টু স্পিচ (টিটিএস), বাংলা ফন্ট রূপান্তর ইঞ্জিন (রূপান্তর), বাংলা বানান ও ব্যাকরণ সংশোধক (সঠিক) এবং অনুভূতি তথা ‘জনমত’ বিশ্লেষণ সফটওয়্যার জনসাধরণের জন্য উন্মুক্ত করা হয়েছে। তবে এর ব্যবহার তেমন নেই বললেই চলে। প্রচারণা না থাকায় জনসাধারণ সফটওয়্যারের তথ্য বা সুবিধা সম্পর্কে অবহিত নন। যদিও প্রকল্প সংশ্লিষ্টদের দাবি, কয়েকটি বিশ্ববিদ্যালয়ের শিক্ষার্থীরা সফটওয়্যারগুলো ব্যবহার করছেন।
প্রক্রিয়াধীন সফটওয়্যার ও টুল
প্রকল্পের আওতায় তথ্যপ্রযুক্তিতে বাংলা ভাষার ব্যবহার বাড়াতে বাংলাদেশ ন্যাশনাল করপাস (বিডিএনসি), অর্থাৎ বাংলা ভাষার ইলেকট্রনিক শব্দভান্ডার তৈরির কাজ ২০২১ সালে শুরু হয়েছে। এটি প্রকল্পের সবচেয়ে গুরুত্বপূর্ণ অধিক্ষেত্র। ‘ব্রিটিশ ন্যাশনাল করপাস’, ‘অ্যামেরিকান ন্যাশনাল করপাসে’র মতো এই করপাস তৈরির কাজ চলছে। করপাসের আওতায় ৪০ জিবি ডেটাবেজে প্রায় ৩ বিলিয়ন বাংলা শব্দ অন্তর্ভুক্ত হবে। ইতোমধ্যে বাংলা শব্দ ও বাক্যে বানান ভুল ও শনাক্তের জন্য স্পেলচেকারের আওতায় প্রায় ৯ লাখ শব্দ ও এর নানারূপ করপাসে যুক্ত করা হয়েছে। ১৯ কোটি ২২ লাখ টাকা ব্যয়ে গৃহীত প্রকল্পের সার্বিক অগ্রগতি ৬০ শতাংশ।
প্রকল্প-সংশ্লিষ্টরা বলছেন, করপাসে লিখিত বাংলা ভাষার প্রায় সব ধরনের নমুনা থাকবে। যত বেশি পরিমাণে তথ্য থাকবে, এর মাধ্যমে তৈরি সফটওয়্যার তত কার্যকরী হবে। প্রাথমিকভাবে জনপরিসরে প্রকাশযোগ্য বিভিন্ন ধরনের টেক্সট সংগ্রহ করার পরিকল্পনা রয়েছে। এ ছাড়া জাতীয় করপাসে বিভিন্ন ডোমেইন অর্থাৎ সরকারি ডকুমেন্ট, চলমান ঘটনাপ্রবাহ ও সংবাদের নমুনা, বিভিন্ন ধরনের সাহিত্যিক ও সৃজনশীল টেক্সট, বিভিন্ন ধরনের বুদ্ধিবৃত্তিক ও তথ্যমূলক টেক্সট, নিয়মাবদ্ধ বা স্ট্রাকচারড টেক্সটের নমুনা অর্থাৎ বিভিন্ন ধরনের অভিধান, নাগরিক ডেটাবেজ, সামাজিক নেটওয়ার্ক সাইটের পোস্ট ও তথ্যগুলো, প্রাতিষ্ঠানিক ও নিয়ন্ত্রিত কথ্য ভাষার (ফরমাল ওরাপ স্পিচ) নমুনা, অপ্রাতিষ্ঠানিক স্বতঃস্ফূর্ত কথ্য ভাষার নমুনা থাকবে।
প্রকল্পের আওতায় ২০২১ সালে ক্ষুদ্র নৃগোষ্ঠীর ভাষাসহ দেশের সব ভাষা সংরক্ষণে ভাষাবিষয়ক ডিজিটাল রিসোর্স রিপোজিটরি তৈরির কাজ শুরু করা হয়। এতে ব্যয় ধরা হয়েছে ৪ কোটি ৯৭ লাখ টাকা। এই রিপোজিটরিতে বাংলাদেশের ৪১টি ভাষার অ্যানোটেটেড নমুনা সংরক্ষণ করা হয়েছে। ক্ষুদ্র নৃগোষ্ঠীগুলোর ভাষা সংরক্ষণের জন্য মাঠ পর্যায়ে রাজশাহী, দিনাজপুর, রাঙামাটি, বান্দরবান, শ্রীমঙ্গল, সিলেট, ময়মনসিংহ ও ঢাকা অঞ্চলে পৃথক জরিপ করা হয়েছে। এর মাধ্যমে ৪০টি ভাষার ২১৪ জন বক্তা বা ভাষাভাষীর ১২ হাজার ৬৪২ মিনিট কথা ডিজিটাল আর্কাইভ করা হয়েছে। এটি মাল্টিলিংগুয়াল ক্লাউড নামে পরিচিত পেয়েছে। সম্প্রতি প্ল্যাটফর্মটির কমিউনিটি রিলিজ সম্পন্ন হয়েছে।
উন্নত তথ্যপ্রযুক্তির মাধ্যমে প্রতিবন্ধীদের প্রতিবন্ধকতা অনেকাংশে দূর করা সম্ভব। এ লক্ষ্যে ডিজিটাল-সেবা প্রতিবন্ধী শিশুসহ এ ধরনের ব্যক্তিদের ব্যবহারের উপযোগী করতে প্রকল্পের আওতায় কয়েকটি টুল উন্নয়নের পদক্ষেপ গ্রহণ করা হয়েছে। এর মধ্যে বাংলা সাইন ল্যাঙ্গুয়েজ রিকগনিশন (এসএলআর) সিস্টেম, সাড়ে ১২ লাখ পৃষ্ঠার ব্রেইল বই প্রকাশ, ইশারা ভাষা চ্যাট কমিউনিকেটর, বাংলা ‘টেক্সট টু সাইন পাপেট (সবার সঙ্গে যোগাযোগের মাধ্যম)’, ৫ লাখ বাক্যের ভিডিও ডেটাসেট, বাংলা ব্রেইল কনভার্টার উল্লেখযোগ্য। ২০২১ সালের ডিসেম্বরে গৃহীত এই প্রকল্পের ব্যয় ধরা হয়েছে ১১ কোটি ৪৩ লাখ টাকা। সার্বিক অগ্রগতি ৬০ শতাংশ।
প্রকল্পের আওতায় আরও তৈরি হচ্ছে ‘ব্যানব্রেইন: বাংলা ল্যাঙ্গুয়েজ মডেল’। এর মাধ্যমে তথ্যপ্রযুক্তি ব্যবহারে একটি বাক্য দিলে তার পরবর্তী বাক্য কৃত্রিম বুদ্ধিমত্তার মাধ্যমে পরামর্শ দেবে। প্যারাফ্রেইজ আইডেনটিফিকেশন অর্থাৎ কোনো লেখার মধ্যে অন্য লেখা থেকে নকল বা প্রভাব রয়েছে কিনা– তা পরীক্ষা করে দিতে পারবে। সিমানটিক সিমিলারিটি অর্থাৎ এর আওতায় একটি বাক্যের সমার্থক বাক্য তৈরি করে দেবে এই প্রযুক্তি। কোয়েশ্চেন আনসারিং অর্থাৎ এর আওতায় সিস্টেমকে কোনো প্রশ্ন করলে প্রযুক্তি তার উত্তর বের করবে। আরও রয়েছে বাংলা ডেটা ড্রাইভেন অভিধান, বাংলা ট্রিব্যাংক: অ্যানোটেটেড করপাস, বাংলা সার্চ ইঞ্জিন সমুদ্র তৈরির কার্যক্রম। এসব সফটওয়্যার ও টুল উন্নয়নের কাজ ৩০ থেকে ৫০ শতাংশ পর্যন্ত সম্পন্ন হয়েছে।
সরকারি উদ্যোগের পাশাপাশি দেশে বাংলা ভাষা চর্চায় এশিয়াটিক সোসাইটিসহ বিভিন্ন বিশ্ববিদ্যালয়ের বিভাগ ও শিক্ষক এবং অনলাইন বিভিন্ন গ্রুপ নানামুখী কাজ করছে। এগুলো এখনও সমন্বিতভাবে দৃশ্যমান হয়নি।
সংকটও অনেক
তথ্যপ্রযুক্তি-সংশ্লিষ্ট গবেষকরা বাংলা ভাষা ব্যবহারের সংকট প্রসঙ্গে বলছেন, বাংলা ভাষাভাষীদের দ্বিতীয় ভাষা শিক্ষার লক্ষ্যে বেশ কিছু শিক্ষা উপকরণ থাকলেও এর বাইরে মেশিন ট্রান্সলেট কাজটির ডেটাসেট তৈরির গভীরতা ও ব্যাপ্তি বোঝার জন্য যথেষ্ট রিসোর্স নেই। এর উপাত্তগুলো বিশ্লেষণ করলে দেখা যায়, বাংলা বিভিন্ন ফন্ট বিভিন্ন সংখ্যক গিলফ (ক্যারেক্টার) সহযোগে তৈরি হয়েছে। কোনো ফন্টের গিলফের সংখ্যা বেশি, কোনোটায় কম। ফলে শব্দের বানান কোনো ফন্ট দিয়ে লেখা যায় না। এক ফন্ট থেকে অন্য ফন্টে কনভার্ট করার সময়ও ভেঙে যায়। আবার ভিজ্যুয়াল দিক থেকে বাংলা ফন্টগুলোর সমস্যা প্রকট। বিশেষ করে চন্দ্রবিন্দুর অবস্থান নিয়ে বিতর্ক রয়েছে। চন্দ্রবিন্দু কি কারের ওপর বসবে নাকি বর্ণের ওপরে বসবে– এ বিষয়ে দুই রকম ব্যবহার দেখতে পাওয়া যায়। বাংলা প্যারাগ্রাফ ফন্টগুলোর মধ্যে সমন্বয় নেই। কোনো ফন্টের বার সাইজ অন্য ফন্টের বার সাইজ থেকে ভিন্ন। আবার ইন্টার-লাইন স্পেসিং বা দুই লাইনের মাঝে ফাঁক থাকার পরিমাণের বিভিন্ন রূপ দেখতে পাওয়া যায়। লাতিন, অ্যারাবিক ও ইন্ডিক স্ক্রিপ্টের সঙ্গে বাংলা ফন্টের আকৃতিরও অসামঞ্জস্য রয়েছে। কেবল মুদ্রণের সৌন্দর্য নয়, মুদ্রণের ফর্মার হিসাবও এই বিষয়গুলোর সঙ্গে সম্পর্কযুক্ত। কোন ফন্টে কোন আকৃতিতে এবং কোন মার্জিনে একটি বই, আর্টিক্যাল বা পত্রিকার নিবন্ধ ছাপার প্রয়োজন হলে তা কত ফর্মা হবে– এমন প্রাক্কলন করা যায় না। এসব কারণে বাংলা ভাষার সমন্বিত কাঠামো প্রয়োজন।
জানতে চাইলে প্রকল্প পরিচালক মো. মাহবুব করিম বলেন, বাংলা ভাষাকে তথ্যপ্রযুক্তিবান্ধব করার ক্ষেত্রে দক্ষ জনবলের ঘাটতি রয়েছে। তা ছাড়া প্রতিনিয়ত পরিবর্তনশীল তথ্যপ্রযুক্তির এ যুগে বাংলা ভাষাকে প্রযুক্তিবান্ধব করার বিষয়টিও একটি চলমান প্রক্রিয়া। এটি চ্যালেঞ্জেরও। নির্ধারিত সময়ের মধ্যে এ প্রকল্পের কার্যক্রম সীমাবদ্ধ রাখা সম্ভব নয়। বাংলা ভাষাকে প্রতিনিয়ত তথ্যপ্রযুক্তির সঙ্গে সমন্বয় রেখেই চলতে হবে।
এ প্রসঙ্গে ঢাকা বিশ্ববিদ্যালয়ে তথ্যপ্রযুক্তি ইনস্টিটিউটের পরিচালক অধ্যাপক ড. বি এম মইনুল হোসেন বলেন, বাংলা ভাষাকে প্রযুক্তিবান্ধব করতে প্রকল্পটি ছিল প্রশংসনীয়। গুগলসহ বিদেশি প্রতিষ্ঠানের অনেক টুল বাংলা ভাষার জন্য দেশে ব্যবহৃত হচ্ছে; কিন্তু তাতে বাংলাদেশের নিয়ন্ত্রণ নেই। তাই নিজস্ব সক্ষমতার জন্যও প্রকল্পটি গুরুত্বপূর্ণ। কিন্তু প্রকল্পের আওতায় শুধু গবেষণা ও উন্নয়ন করলেই হবে না, এর ব্যবহারিক দিকগুলো (টুল বা সফটওয়্যার) জনসাধারণের কাছে পৌঁছাতে হবে। এ জন্য প্রচার প্রয়োজন।
তিনি আরও বলেন, ‘মাইক্রোসফট ও গুগলের নিজস্ব ব্রাউজার রয়েছে। কিন্তু বিশ্বব্যাপী গুগল ক্রোম ব্রাউজার জনপ্রিয়। তাই গবেষণা করে কিছু করলেই হবে না, সেটা জনসাধারণকে ব্যবহার করতে হবে। নয়তো সেই গবেষণার সার্থকতা নেই। বাংলা ভাষা প্রকল্পের আওতায় যেসব টুল তৈরি হয়েছে বা তৈরি হচ্ছে, সেগুলোকে মানুষের কাছে পৌঁছে দিতে হবে। তাহলে এর সীমাবদ্ধতাগুলো চিহ্নিত হবে এবং সমাধানের পথও বের হয়ে আসবে। এ জন্য বিশেষায়িত এমন প্রকল্পকে সময়সীমা দিয়ে বেঁধে রাখলে হবে না, বাংলা ভাষার আধুনিকায়নের সঙ্গে সমন্বয় রেখে প্রযুক্তিতে বাংলা ভাষা ব্যবহারকে সহজীকরণ করার কার্যক্রম অব্যাহত রাখা প্রয়োজন। (শেষ)