Cum să utilizați instrumentul "Ngram Viewer" în Google Cărți

Un Ngram, denumit și N-gram, este o analiză statistică a conținutului de text sau de vorbire pentru a găsi n (un număr) de un fel de element în text. Ar putea fi tot felul de lucruri, cum ar fi foneme, prefixe, fraze sau litere. Deși N-gramul este oarecum obscur în afara cercetătorului, acesta este de fapt folosit într-o varietate de domenii și are multe implicații pentru oamenii care fac programe de calculator care înțeleg și răspund cu limbaj natural vorbit. Aceasta, pe scurt, ar fi interesul Google pentru această idee.

În cazul programului Google Books Ngram Viewer, textul care urmează să fie analizat provine din cantitatea vastă de cărți pe care Google le-a scanat din bibliotecile publice pentru a popula motorul de căutare Google Cărți . Pentru programul Google Books Ngram Viewer, acestea se referă la textul pe care îl veți căuta drept "corpus". Căpitanul din Viewer-ul Ngram este împărțit în funcție de limbă, deși poți să analizezi separat engleza britanică și cea americană sau să le strângeți împreună. Se termină cu a fi foarte interesant să se schimbe de la folosirea termenilor britanici la americani și să se vadă schimbarea hărților.

Cum funcționează Ngram

  1. Accesați Ngram Viewer Google Books la books.google.com/ngrams.
  2. Elementele sunt sensibile la litere mari și mici, spre deosebire de căutările de pe Google Web, deci asigurați-vă că folosiți substantivul propriu-zis.
  3. Introduceți orice expresie sau fraze pe care doriți să le analizați. Asigurați-vă că separați fiecare frază cu o virgulă. Google sugerează, "Albert Einstein, Sherlock Holmes, Frankenstein" pentru a vă începe.
  4. Apoi tastați un interval de date. Valoarea implicită este de la 1800 la 2000, dar există cărți mai recente (2011 a fost cea mai recentă listată în documentația Google, dar s-a schimbat.)
  5. Alegeți un corpus. Puteți căuta texte în limbile străine sau engleză și, în plus față de alegerile standard, puteți observa lucruri precum "Engleză (2009) sau engleză americană (2009)" în partea de jos. Acestea sunt corporații mai vechi pe care Google le-a actualizat de atunci, dar este posibil să aveți un motiv pentru a face comparațiile împotriva seturilor de date vechi. Majoritatea utilizatorilor le pot ignora și se pot concentra pe cele mai recente corporații.
  6. Stabiliți nivelul de netezire. Netezimea se referă la cât de netedă este graficul la sfârșit. Cea mai precisă reprezentare ar fi un nivel de netezire de 0, dar poate fi dificil de citit. Valoarea implicită este setată la 3. În majoritatea cazurilor, nu este necesar să ajustați acest lucru.
  1. Apăsați butonul Căutați loturi de cărți . (Puteți, de asemenea, să apăsați pe tasta Enter la promptul de căutare.)

Ce este Ngram afișat?

Google Books Ngram Viewer va scoate un grafic care reprezintă utilizarea unei anumite fraze în cărți în timp. Dacă ați introdus mai mult de un cuvânt sau o expresie, veți vedea linii colorate pentru a contrasta diferiți termeni de căutare. Acest lucru este destul de similar cu Google Trends , numai căutarea se referă la o perioadă mai lungă de timp.

Iată un exemplu din viața reală. Am fost curioși recent despre plăcile de oțet. Sunt menționați în Casa Micului lui Laura Ingalls din seria Prairie , dar nu am auzit niciodată de așa ceva. Am folosit mai întâi căutarea Google pe Web pentru a afla mai multe despre plăcile de oțet. Aparent, ele sunt considerate parte din bucătăria sudică americană și sunt într-adevăr făcute din oțet. Aceștia ascultă în momentele în care nu toată lumea avea acces la produse proaspete în orice moment al anului. Aceasta este întreaga poveste?

Am căutat Google Ngram Viewer și există unele mențiuni despre plăcintă atât la începutul, cât și la sfârșitul anilor 1800, numeroase mențiuni în anii 1940 și un număr din ce în ce mai mare de mențiuni în ultima vreme (poate o nostalgie de plăcintă.) Ei bine, problema cu datele la un nivel de netezire de 3. Există un platou asupra mențiunilor din anii 1800. Cu siguranță, nu a existat un număr egal de mențiuni pentru o singură plăcintă în fiecare an timp de cinci ani? Ceea ce se întâmplă este că, pentru că nu există o mulțime de cărți publicate în acel moment, și pentru că datele noastre sunt setate să netezească, aceasta distorsionează imaginea. Probabil a existat o carte care menționa placinta de oțet, și tocmai a obținut o medie pentru a evita un vârf. Dacă setăm netezirea la 0, putem vedea că acesta este exact cazul. Centurile de vârf din 1869, iar în 1897 și 1900 există un alt vârf.

Nimeni nu vorbea despre plăcări de oțet în restul timpului? Probabil au vorbit despre plăcinte. Există probabil rețete plutitoare peste tot. Pur și simplu nu au scris despre ele în cărți, și asta eo limitare a căutărilor de la Ngram.

Căutare avansată Ngram

Amintiți-vă cum am spus că Ngrams ar putea consta în tot felul de căutări diferite de text? Google vă permite să faceți o treabă destul de mică cu Ngram Viewer. Dacă doriți să căutați pește verbul în loc de pește substantiv, puteți face acest lucru prin utilizarea de etichete. În acest caz, ați căuta "fish_VERB"

Google oferă o listă completă de comenzi pe care le puteți utiliza și alte documentații avansate pe site-ul lor web.