IIIT-H ने भाषण डेटा एकत्र करने के लिए पायलट लॉन्च किया

0
127
एनआईटीके जैव अपशिष्ट रीसाइक्लिंग प्लांट स्थापित करता है

Ashburn में लोग इस खबर को बहुत ज्यादा पढ़ रहे हैं

अंग्रेजी और हिंदी बोलने वाले गैजेट उपयोगकर्ताओं के लिए, सिरी, एलेक्सा और Google सहायक जैसे उपकरण काम में आते हैं। फ़ोन नंबर निकालने, कॉल करने और खोज प्रश्नों के उत्तर प्राप्त करने से लेकर, ये कृत्रिम बुद्धि-आधारित समाधान आभासी सचिवों के रूप में उभरे हैं।

क्षेत्रीय भाषाओं के उपयोगकर्ताओं के साथ ऐसा नहीं है। मूल समस्या डेटाबेस में ध्वनि डेटा नमूनों की कमी है। “आपको बोलने वाले डेटासेट होना आवश्यक है। इस चुनौती को दूर करने के लिए, हमने उपयोगकर्ताओं के एक समूह के साथ एक पायलट लॉन्च किया है, “अंतर्राष्ट्रीय सूचना प्रौद्योगिकी संस्थान (IIIT-H) के एक कार्यकारी ने कहा।

टीम अगले एक साल में आंध्र प्रदेश और तेलंगाना में अकादमिक संस्थानों के साथ कम से कम 2,000 घंटे की बोली लगाने के लिए काम करेगी।

टीम तेलुगु विकिपीडिया समुदाय और उद्योग भागीदारों जैसे कि ओजोनटेल और पैक्टेरा एज के साथ भी काम करेगी ताकि अपने नेटवर्क से डेटा का लाभ उठाया जा सके।

केंद्रीय इलेक्ट्रॉनिक्स और सूचना प्रौद्योगिकी मंत्रालय के अनौपचारिक रूप से ‘बहू भाषिक’ के रूप में जानी जाने वाली भारतीय भाषाओं के लिए प्रौद्योगिकी विकास (टीडीआईएल) पहल, सभी भाषाओं में सूचना और संचार प्रौद्योगिकियों के प्रसार की सुविधा के लिए भाषा बाधाओं पर काबू पा रही है।

“इसमें स्वचालित भाषण मान्यता, भाषण से भाषण अनुवाद और भाषण से पाठ अनुवाद शामिल है,” कार्यकारी ने कहा।

IIIT-H भारतीय भाषाओं के अनुवाद के लिए एक स्वचालित भाषण मान्यता (ASR) मॉड्यूल विकसित करने के लिए सरकार के साथ काम कर रहा है।

प्रकाश याला, हेड (टेक्नोलॉजी ट्रांसफर ऑफिस) और अनिल कुमार वुप्पला, स्पीच प्रोसेसिंग सेंटर में एसोसिएट प्रोफेसर हैं।

“एआई-सक्षम स्वचालित भाषण मान्यता प्रणालियों का निर्माण करने के लिए, हमें प्रत्येक भाषा के लिए एक ही के लिखित पाठ के साथ, हजारों और हजारों घंटे के भाषण डेटा की आवश्यकता होती है।”

“हमारी प्रयोगशाला में, हम पिछले 10 वर्षों से भाषण मान्यता प्रौद्योगिकी पर काम कर रहे हैं और डेटा भी एकत्र किया है। लेकिन यह 50-60 घंटे के क्रम का है। अब हमें हजारों घंटे के डेटा की जरूरत है।

“यहाँ मुख्य चुनौती केवल ऑडियो या भाषण फ़ाइल तक सीमित नहीं है। महत्वपूर्ण बात भाषण फ़ाइलों को खंडित कर रही है, और उन्हें पाठ के रूप में लिख रही है। यह एक बहुत ही श्रमसाध्य प्रक्रिया है, ”उन्होंने संस्थान के ब्लॉग में कहा।

तेलुगु भाषण डेटा के प्रारंभिक संग्रह से सभी भारतीय भाषाओं के लिए डेटा के क्राउड सोर्सिंग के लिए प्रोटोकॉल और सिस्टम की स्थापना की उम्मीद है।

“अगर सब कुछ काम करता है, तो यह एक राष्ट्रव्यापी डेटा संग्रह अभ्यास बन जाएगा, शायद सबसे बड़ा और हम इसे आम जनता के लिए मुफ्त में उपलब्ध कराएंगे,” प्रकाश याला ने कहा।

Ashburn यह भी पढ़ रहे हैं

JET Joint Employment Test Calendar (Officer jobs)
placementskill.com/jet-exam-calendar/

TSSE Teaching Staff Selection Exam (Teaching jobs)
placementskill.com/tsse-exam-calendar/

SPSE Security Personnel Selection Exam (Defense jobs)
placementskill.com/spse-exam-calendar/

MPSE (Medical personnel Selection Exam (Medical/Nurse/Lab Assistant jobs)
placementskill.com/mpse-exam-calendar/

अपना अखबार खरीदें

Download Android App