Starea de recunoaștere vocală Linux

by Gary Newell

Introducere

Mă duc mult timp la cercetarea articolelor și destul de des mă gândesc la subiectul unui articol în timp ce merg la gară sau când în general și în general.

Într-o seară, în timp ce m-am plimbat de la o treime la stația de lucru, m-am gândit că "nu ar fi bine dacă aș putea să înregistrez ce vroiam să spun și apoi să-l transcriu automat într-un fișier text pe care l-aș putea edita și format mai târziu" .

Am petrecut multe ore îndelungate privind diferitele opțiuni disponibile pentru recunoașterea vocală și dictare, inclusiv înregistrarea directă printr-un microfon folosind software-ul de dictare în Linux, înregistrarea fișierului în format MP3 sau WAV și convertirea acestuia prin linia de comandă, precum și prin utilizarea Chrome și aplicații Android.

Acest articol evidențiază constatările mele după zile de muncă grea.

Opțiuni Linux

Încercarea de a găsi software-ul de dictare și recunoaștere a vocii în Linux nu este la fel de ușor precum ar putea fi și opțiunile disponibile nu sunt atât de inteligente.

Această pagină wikipedia conține o listă de opțiuni potențiale, inclusiv CMF Sfinx, Julius și Simon.

Folosesc SparkyLinux care se bazează pe Debian Testing în acest moment și vă pot spune că singurul pachet de recunoaștere vocală disponibil în depozit este Sphinx.

Programele native Linux pe care am încercat-o au fost PocketSphinx, pe care am folosit pentru a converti fișierele WAV în text și Freespeech-VR, o aplicație python care vă permite să înregistrați direct de pe un microfon.

Am încercat, de asemenea, câteva aplicații Chrome, inclusiv VoiceNote II și Dictanote.

În cele din urmă am încercat aplicațiile Android "Dictation and Email" și "Dictation Talk And Talk".

Freespeech-VR

Freespeech-VR nu este disponibil în depozitele standard. Am descarcat fisierele de aici.

După descărcarea și extragerea conținutului fișierului zip, am deschis un terminal și am navigat la dosarul în care au fost extrase fișierele.

Am tastat următoarea comandă pentru a deschide freespeech-vr.

sudo python freespeech-vr

Am o pereche de căști cu un microfon destul de decent și un accent destul de limpede la sudul englezesc.

Următorul text a apărut în fereastra freespeech-vr:

Bine ati venit la unitatile de caini de rezultatul Astazi Sa va asigurati cum sa administrati testele Trebuie sa testati Cand sa folositi textul Folosind modul in care vorbim Ia La fiecare unul a fost Numai intr-o Speranta de a ramane Si la mijlocul unui pui de aur ca sistem Ea atunci când numele meu următoarea telefon apelează telefonul Acest fișier Destul de curând un telefon pentru cazuri în Hands-Space sphinx Going Acesta nu este un telefon vor fi partajate Un instruit și și unelte Utilizați vorbind Când ați terminat Spuneți Un fișier utilizat Ultimul povestea A Și folosirea unei soluții Când este foarte mult succes Acest Linux a fost ca și cum eviți este

Aș vrea să spun acum că acesta nu este site-ul Unității de Câini și în nici un moment nu am menționat nimic de a face cu puii de Aur. Încercam de fapt să descriu procesul de utilizare a software-ului de recunoaștere vocală.

Am încercat software-ul de câteva ori, incluzând pitch și viteză diferite, dar precizia era slabă.

PocketSphinx

PocketSphinx poate prelua un fișier WAV și îl poate converti în text folosind linia de comandă.

PocketSphinx este disponibil prin depozitele Debian și ar trebui să fie disponibil pentru majoritatea distribuțiilor.

Principala problemă pe care am găsit-o cu PocketSphinx este că aveți nevoie de o diplomă în conceptele de recunoaștere vocală, fișiere lingvistice, dicționare și cum să instruiți sistemul.

După instalarea PocketSphinx, ar trebui să mergeți la site-ul web CMF Sphinx și să citiți cât mai multe informații posibil. De asemenea, trebuie să descărcați următorul fișier model.

Modelul american de limba engleza generica

(Dacă nu sunteți un vorbitor nativ englez, alegeți modelul de limbă care este potrivit pentru dvs.).

Documentația pentru PocketSphinx și Sphinx în general este dificil de înțeles pentru persoana laică, dar din cele pe care le pot face fișierele dicționarului sunt folosite pentru a oferi o listă de cuvinte posibile și modelele de limbă au o listă cu pronunții posibile.

Pentru a testa PocketSphinx am folosit o înregistrare a vocii mele, un fragment de la Al Pacino în "The Devils Advocate" și un fragment din "Morgan Freeman". Scopul a fost de a încerca diferite voci și pentru mine nu există nimeni care să poată spune o poveste atât de clar ca Morgan Freeman și nimeni nu oferă o linie ca Al Pacino.

Pentru ca PocketSphinx să funcționeze, are nevoie de un fișier WAV și trebuie să fie într-un anumit format. Dacă fișierul este în format MP3, utilizați comanda ffmpeg pentru ao converti în format WAV:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

Pentru a rula PocketSphinx, utilizați următoarea comandă:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/ro/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-ro-us.lm 2> voice2.log

pocketsphinx_continuous ia un fișier WAV și îl convertește în text.

În comanda de deasupra pocketsphinx i se spune să folosească un fișier dictionar numit "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" cu modelul de limbă "cmusphinx-5.0-en-us.lm". Fișierul care este convertit în text se numește voice2.wav (care este o înregistrare pe care am făcut-o cu vocea mea). În cele din urmă, 2> localizează toate ieșirile verbose pe care nu le aveți nevoie neapărat într-un fișier numit voice2.log. Rezultatele reale ale testului sunt afișate în fereastra terminalului.

Rezultatele folosind vocea mea sunt după cum urmează:

bun venit la următoarea despre bine nici în această săptămână subiect despre care software-ul de recunoaștere într-un minut

Rezultatele nu sunt la fel de îngrozitoare ca și în cazul freespeech-vr, dar încă nu pot fi utilizate. Apoi am încercat să folosesc PocketSphinx împreună cu Al Pacino, dar acest lucru nu a returnat deloc rezultate.

În cele din urmă am încercat să folosesc vocea lui Morgan Freeman din filmul "Bruce Almighty" și aici sunt rezultatele:

000000000: Vom fi pe ea
000000001: sunt toate atât de dure da în ziua în care acum chiar da asta e cel mai mult pe care am trăit eu sunt parte de fierbinte
000000002: în lift, care este cheia dintr-un pic de baseball sau știu ce să facă în viață
000000003: Care sunt cele care se vor recupera
000000004: nu l-au scris
000000005: au la mine imediat
000000006: trebuie să fii reguli
000000007: Te-am așteptat
000000008: și el a învățat aici că a fost o ilustrare este petrecerea de Crăciun ucigaș
000000009: se dovedește unul dintre modurile de a scrie o. M-am gandit ca putini purta mereu unul
000000010: cum ar fi problema unită nu va da el binele eu sunt estimat ei în acel moment când nu am tot ce credeți că sunt în lume va case și am văzut că
000000011: un tată care îl are
000000012: Ce multe despre asta
000000013: face asta
000000014: tot ceea ce voi nu cad prea mult
000000015: chiar în toamnă
000000016: Păstrează-te doar pentru mine
000000017: este un nefericit dacă mă gândesc prea că ei vor avea un astfel de faptul că toate cele care s-au căsătorit pe un a fost nu ne-am place îmi place spre deosebire de modul

Testul meu nu poate fi considerat științific, iar dezvoltatorii PocketSphinx pot spune că nu utilizez software-ul corect. Există, de asemenea, o tehnică numită formare vocală care poate fi utilizată pentru a crea dictionare și fișiere lingvistice mai bune.

Punctul meu de vedere este însă că este prea greu pentru utilizarea de zi cu zi.

VoiceNote II

VoiceNote II este o aplicație Chrome care utilizează API-ul de recunoaștere Google Voice.

Dacă utilizați browserele Chrome sau Chromium, puteți instala VoiceNote II prin Magazinul Web .

Pictogramele de pe VoiceNote II sunt prezentate în mod ciudat, deoarece trebuie să configurați limba în partea de jos a ferestrei, iar butonul de editare este de asemenea în partea inferioară, însă butonul de înregistrare se află în poziția din dreapta sus.

Primul lucru pe care trebuie să-l faceți este să selectați o limbă și acest lucru se poate realiza făcând clic pe pictograma mondială.

Pentru a începe înregistrarea, faceți clic pe pictograma microfon și începeți să vorbiți în microfon. Pentru cele mai bune rezultate am constatat că vorbirea încet a fost cheia, astfel încât software-ul ar avea șansa de a ține pasul.

Rezultatele nu au fost minunate, după cum se poate vedea mai jos:

Bună ziua și bun venit pentru a vă conecta. About.com Articole de astăzi despre voce la conversia de text dunelm farrell recesiune 2008 ca conversii și a spus bine sprijinit cel mai bun mod am găsit text de voce addon pentru a arăta 2014debian sau rpm pachet deschideți-l de tip de voce pentru a vorbi la text deschide-l dacă doriți să alegeți vs a ales în edinburgh franceză germană a vă lua timp în united kingdomstart la mare microphonewhat ați terminat de scris textul dvs. ca un fișier text la succesul ei, care este foarte accent de limba engleză de la sud de england cel mai bine pentru ea, dar am de gând să textvia acest torrentalong cu documentul real și puteți vedea pentru greșelile care te fac să asculți prietenii

Dictanote

Dictanote este o altă aplicație Chrome care poate fi utilizată în scopuri de dictare și a fost întâlnită ca fiind mai intuitivă, dar rezultatele nu au fost mai bune decât VoiceNote II.

Am folosit doar versiunea demo a Dictanote care vă împiedică să creați documente noi, dar vă permite să vorbiți peste textul care este deja în editor. Am reușit să testez recunoașterea vocii, dar rezultatele nu au fost mai bune decât VoiceNote II și așa că nu am semnat pentru versiunea pro.

Dictare și poștă

"Dictare și poștă electronică" este o aplicație Android care utilizează API-ul nativ Google pentru recunoașterea vocii.

Rezultatele din "Dictare și poștă" au fost mult mai bune decât oricare alt program încercat până acum.

salut bun venit la Linux despre, astăzi vorbim despre conversia sunetului în text

Trucul cu "Dictare și poștă" este de a vorbi încet și de a pronunța, precum și cu un accent uniform.

După ce ați terminat de vorbit puteți trimite rezultatele prin e-mail.

Discuție despre vorbe și vorbire

Cealalta aplicatie Android pe care am incercat-o a fost "Dictatura Talk And Talk".

Interfața pentru această aplicație a fost cea mai bună dintre mulțimi, iar recunoașterea vocii a funcționat foarte bine într-adevăr. După înregistrarea dictaturii, am reușit să împărtășesc rezultatele în diverse moduri, inclusiv prin e-mail.

bun venit la linux about.com astăzi vorbim despre conversia discursului în text

După cum puteți vedea textul de mai sus este la fel de clar pe cât se poate aștepta să se obțină. Vorbind lent este cheia.

rezumat

Linux nativ are un mod de a merge în ceea ce privește recunoașterea vocii și dictarea în mod specific. Există câteva aplicații care utilizează API-ul Google Voice, dar acestea nu sunt încă listate în depozite.

Aplicațiile ChromeOS sunt puțin mai bune, dar cele mai bune rezultate au fost obținute cu ajutorul telefonului meu Android. Poate că telefonul are un microfon mai bun și, prin urmare, software-ul de recunoaștere a vocii are șanse mai mari de conversie.

Pentru ca recunoașterea vocii să devină cu adevărat utilizabilă, trebuie să fie mai intuitivă, cu mai puține setări necesare. Nu trebuie să vă faceți probleme cu modelele și dicționarele lingvistice, pentru a le face inteligibile.

Apreciez totuși că întreaga artă a recunoașterii vocii este foarte provocatoare pentru că toată lumea are o voce diferită și există atât de multe dialecte din regiune în regiune într-o țară, fără să fie îngrijorătoare despre sutele de limbi folosite în întreaga lume.

Analiza mea, prin urmare, este că software-ul de recunoaștere vocală este în continuare în desfășurare.