Դեպքի ուսումնասիրություն. Խոսակցական AI

Ավելի քան 3 հազար ժամ հավաքագրված, հատվածավորված և տառադարձված տվյալներ 8 հնդկական լեզուներով ASR-ի ստեղծման համար

Ասույթների հավաքածու
Կառավարությունը նպատակ ունի իր քաղաքացիներին հնարավորություն տալ օգտվել ինտերնետից և թվային ծառայություններից իրենց մայրենի լեզվով Բհաշինի նախագծի միջոցով:

BHASHINI-ն՝ Հնդկաստանի AI-ի վրա հիմնված լեզվի թարգմանության հարթակը, Digital India նախաձեռնության կարևոր մասն է:

Նախագծված Արհեստական ​​ինտելեկտի (AI) և բնական լեզվի մշակման (NLP) գործիքներ տրամադրելու համար ՓՄՁ-ներին, ստարտափներին և անկախ նորարարներին՝ Bhashini հարթակը ծառայում է որպես հանրային ռեսուրս: Դրա նպատակն է խթանել թվային ընդգրկումը` հնարավորություն տալով Հնդկաստանի քաղաքացիներին շփվել երկրի թվային նախաձեռնությունների հետ իրենց մայրենի լեզուներով:

Բացի այդ, այն նպատակ ունի զգալիորեն ընդլայնել հնդկական լեզուներով ինտերնետային բովանդակության հասանելիությունը: Սա հատկապես ուղղված է հանրային հետաքրքրություն ներկայացնող ոլորտներին, ինչպիսիք են կառավարումը և քաղաքականությունը, գիտությունն ու տեխնոլոգիաները և այլն: Հետևաբար, սա կխրախուսի քաղաքացիներին օգտվել ինտերնետից իրենց լեզվով` խթանելով նրանց ակտիվ մասնակցությունը:

Օգտագործեք NLP-ն՝ հնարավորություն ընձեռելու ներդրողների, գործընկեր կազմակերպությունների և քաղաքացիների բազմազան էկոհամակարգին՝ լեզվական խոչընդոտները հաղթահարելու նպատակով՝ դրանով իսկ ապահովելով թվային ներառում և հզորացում:

Իրական աշխարհի լուծում

Տվյալների միջոցով տեղայնացման ուժի սանձազերծում

Հնդկաստանին անհրաժեշտ էր հարթակ, որը կկենտրոնանա բազմալեզու տվյալների հավաքածուների և AI-ի վրա հիմնված լեզվական տեխնոլոգիական լուծումների ստեղծման վրա՝ հնդկական լեզուներով թվային ծառայություններ մատուցելու համար: Այս նախաձեռնությունը մեկնարկելու համար Մադրասի Հնդկական տեխնոլոգիական ինստիտուտը (IIT Madras) համագործակցեց Shaip-ի հետ՝ հավաքելու, հատվածավորելու և արտագրելու հնդկական լեզվով տվյալների բազաները՝ բազմալեզու խոսքի մոդելներ ստեղծելու համար:

Խնդիրները

Հաճախորդին հնդկական լեզուների Խոսքի տեխնոլոգիաների խոսքի ճանապարհային քարտեզի հարցում օգնելու համար թիմին անհրաժեշտ էր ձեռք բերել, հատվածավորել և արտագրել ուսուցման մեծ ծավալի տվյալներ՝ արհեստական ​​ինտելեկտի մոդել ստեղծելու համար: Հաճախորդի կրիտիկական պահանջներն էին.

Տվյալների հավաքագրումը

  • Ձեռք բերեք 3000 ժամ ուսուցման տվյալներ 8 հնդկական լեզուներով՝ յուրաքանչյուր լեզվով 4 բարբառով:
  • Յուրաքանչյուր լեզվի համար մատակարարը կհավաքի Extempore Speech և
    Խոսակցական ելույթ 18-60 տարեկան տարիքային խմբերից
  • Ապահովեք խոսողների բազմազան խառնուրդ՝ ըստ տարիքի, սեռի, կրթության և բարբառների
  • Ապահովեք ձայնագրման միջավայրերի բազմազան խառնուրդ՝ ըստ Տեխնիկական պայմանների:
  • Յուրաքանչյուր աուդիո ձայնագրությունը պետք է լինի առնվազն 16 կՀց, բայց նախընտրելի է 44 կՀց

Տվյալների սեգմենտացիան

  • Ստեղծեք 15 վայրկյան տևողությամբ խոսքի հատվածներ և ձայնագրեք ձայնը միլիվայրկյաններով յուրաքանչյուր տվյալ բարձրախոսի համար, ձայնի տեսակը (խոսք, բամբասանք, երաժշտություն, աղմուկ), շրջադարձեր, արտասանություններ և արտահայտություններ խոսակցության մեջ:
  • Ստեղծեք յուրաքանչյուր հատված իր թիրախային ձայնային ազդանշանի համար՝ սկզբում և վերջում 200-400 միլիվայրկյան լցոնով:
  • Բոլոր սեգմենտների համար պետք է լրացվեն հետևյալ օբյեկտները, օրինակ՝ մեկնարկի ժամանակը, ավարտի ժամանակը, հատվածի ID-ն, բարձրության մակարդակը, ձայնի տեսակը, լեզվի կոդը, բարձրախոսի ID-ն և այլն:

Տվյալների տառադարձում

  • Հետևեք գրանշանների և հատուկ նշանների, ուղղագրության և քերականության, մեծատառերի, հապավումների, կրճատումների, առանձին խոսակցական տառերի, թվերի, կետադրական նշանների, հապավումների, անհասկանալի խոսքի, ոչ նպատակային լեզուների, ոչ խոսքի և այլնի վերաբերյալ մանրամասների տառադարձման ուղեցույցներին:

Որակի ստուգում և հետադարձ կապ

  • Բոլոր ձայնագրությունները պետք է ենթարկվեն որակի գնահատման և վավերացման, միայն վավերացված ելույթը պետք է մատուցվի

լուծում

Խոսակցական AI-ի մեր խորը ըմբռնմամբ՝ մենք օգնեցինք հաճախորդին հավաքել, հատվածավորել և արտագրել տվյալները փորձագետ հավաքողների, լեզվաբանների և ծանոթագրողների թիմի հետ՝ 8 հնդկական լեզուներով աուդիո տվյալների բազա ստեղծելու համար:

Shaip-ի աշխատանքի շրջանակը ներառում էր, բայց չէր սահմանափակվում մեծ ծավալի աուդիո ուսուցման տվյալների ձեռքբերմամբ, աուդիո ձայնագրությունների մի քանի հատվածով բաժանելով, տվյալների արտագրում և համապատասխան JSON ֆայլերի առաքում, որոնք պարունակում են մետատվյալներ [SpeakerID, Age, Gender, Language, Dialect,
Մայրենի լեզուն, որակավորումը, զբաղմունքը, տիրույթը, ֆայլի ձևաչափը, հաճախականությունը, ալիքը, ձայնի տեսակը, խոսողների թիվը, օտար լեզուների թիվը, օգտագործված կարգավորումը, նեղ կամ լայնաշերտ ձայնը և այլն]: 

Shaip-ը հավաքել է 3000 ժամ ձայնային տվյալներ մասշտաբով՝ պահպանելով որակի ցանկալի մակարդակները, որոնք անհրաժեշտ են բարդ նախագծերի համար խոսքի տեխնոլոգիան մարզելու համար: Մասնակիցներից յուրաքանչյուրից վերցվել է հստակ համաձայնության ձև:

1. Տվյալների հավաքագրումը