2.1 Internetové vyhledávače

Internetové vyhledávače

Množství informací dostupných přes internet narůstá obrovským tempem. Cenzurovat to, co se na internet dostane, jde jen omezeně. Na tematiku přístupu k internetu a informacím vás může naladit dokument Internetový chlapec: Příběh Aarona Swartze nebo seriál Mr. Robot. Mezi výhody internetu tedy patří dostupnost informací, které po připojení můžete hledat kdykoli a odkudkoli, a omezené filtrování, které můžete zaznamenat třeba v některých tradičních médiích. Pozitivní je také snadná aktualizace informací. Internetové vyhledávání má ale také nevýhody – především požadavky na hodnocení informací před jejich použitím jsou vyšší, a vyhledaná informace může v průběhu aktualizací zmizet.

Pro omezení nevýhod internetu vznikají specializované služby jako Google Scholar, který je otevřený a zdarma. Tvorba a zpracování odborných textů jsou ale finančně náročné záležitosti, proto mnohé databáze odborných textů takto otevřeny nejsou. Zato nabízejí služby, které vyhledávání odborných publikací usnadňují. I přes rozvoj digitalizace není možné mít všechny informace dostupné elektronicky, příkladem ze světa akademického psaní jsou odborné monografie.

Internetové vyhledávače jsou platným pomocníkem, pokud dokážete vhodnými slovy vyjádřit, o co přesně máte zájem. Vyhledávač je systém, který na základě zadaného klíčového slova vrací výsledky, jež se k němu hodí. Jako příklad lze uvést Google. Při vyhledávání tedy hraje důležitou roli klíčové slovo, neboť právě jím se snažíte co nejpřesněji vyjádřit, které informace vás zajímají. Čím lépe klíčová slova formulujete, tím větší máte šanci na úspěch. Protože vyhledávač často pokrývá velké množství stránek, pomáhá nejlépe při vyhledávání úzce zaměřeného tématu, třeba s neobvyklými termíny.

Vyzkoušejte si vyhledávání s různými klíčovými slovy (synonymy, anglicismy apod.) na totéž téma. Jak se počet a pořadí vyhledaných stránek mění?

>> Vyhledávače vrací záznamy podle indexu, tedy seznamu slov, která se v daném dokumentu nachází. Tyto indexy vytvářejí automaticky roboti, kteří prohledávají webové stránky a přes odkazy postupují na další stránky. Aby upravili indexy podle aktualizovaných změn, pravidelně se vrací. Frekvence je různá, a to nejen mezi vyhledávači, ale i mezi stránkami, které zpracovávají. Může se tak stát, že vyhledáte stránku, která ale již sledovanou informaci neobsahuje. Někdy ji můžete zobrazit tak, jak byla zachycena, pomocí tzv. cache. Vzhledem k datové náročnosti neobsahují tyto archivní verze obrázky, zobrazuje se jen text, který se na stránce nacházel. <<

Automatizované zpracování webů vede k tomu, že některé stránky nebo dokumenty nemohou být zařazeny do seznamu, ze kterého se berou výsledky vyhledávání. Důvodem může být například to, že se nachází na webu, který se generuje podle zájmu uživatele, nebo jsou dostupné až po přihlášení do systému. Takovým materiálům, které jsou pro roboty neviditelné, se říká neviditelný nebo hluboký web a jedná se o velkou část informací dostupnou přes internet. Proto se nemůžete spoléhat na to, že vše, co vám internet nabízí, vyhledáte přes Google. Zřejmě používáte sloveso „vygooglit“ jako synonymum pro spojení „vyhledat něco na internetu“. My také. Myslete ale od teď na to, že je to trochu zavádějící a někdy je vhodné využít jiných zdrojů, např. elektronických databází.

modul_2_1

>> Manuální zpracování výsledků (proti automatizovanému ve vyhledávačích) využívají předmětové katalogy. Můžete se nechat vést kategoriemi a podkategoriemi a nechat si doporučit všechny zpracované weby, kde se relevantní informace nachází. Manuální zpracování je ale časově náročné, proto katalogy pokrývají ve srovnání s vyhledávači výrazně méně zdrojů. Hledání v katalogu oproti vyhledávači je také časově náročnější. Zařazení do kategorií nemusí být vždy správné a aktualizace trvá dlouho. To vše vedlo k tomu, že katalogy téměř zmizely. Jedním z mála funkčních webových katalogů je DMOZ. Přestože tedy je možné takové katalogy najít, častější je jejich využití pro konkrétní tematickou oblast, ve které napomáhají navigaci a současně jsou úplnější. Typickým příkladem jsou různé srovnávače cen, řemeslníků, lékařů apod. Katalogový přístup je běžnější v databázích, kde je omezený počet dokumentů dostatečně označených metadaty pro automatizaci zpracování. <<

Oblíbenost Google je do velké míry dána množstvím stránek, které zpracovává, ale také jeho funkcemi, jako je omezování výsledků v rozšířeném vyhledávání, podporované operátory, nebo filtrování výsledků podle jejich formy či obsahu. Google disponuje také funkcionalitou omezení výsledků vyhledávání jen na obrázky, zprávy, nákupy (zboží), videa, mapy, aplikace a knihy.

Vyzkoušejte si, jak dobře umíte vyhledávat na Google, pomocí online hry.

2-1

Při tvorbě odborné práce může být přínosnou cestou využití právě Google Books, tedy vyhledávání knih. Google vytváří rozsáhlou knihovnu zdigitalizovaných knih, a to i velmi aktuálních. Digitalizovány jsou především knihy v angličtině, najdete zde ale i české publikace. Vzhledem k autorským právům není možné zpřístupnit celý jejich obsah, pouze omezené množství stránek. Pokud nepotřebujete číst celou knihu, poslouží vám jako zdroj informací i to, co Google dovolí. V obsahu knihy můžete vyhledávat žádaná slova, která jsou zvýrazněna, což hodně pomůže při hledání konkrétního tématu.2-1_1
Jiným vhodným specializovaným nástrojem Google při hledání odborných publikací je vyhledávač
Google Scholar. Zpracovává plné texty nebo informace o odborných publikacích. Pokrývá recenzované online akademické časopisy, knihy (včetně těch zařazených do Google Books), diplomové práce, weby vzdělávacích institucí (jejich adresa končí “.edu”) a podobně. Přes Google Scholar se můžete proklikat k plným textům, pokud jsou v otevřených zdrojích, může vás ale také zavést do databáze, kde získáte plný text až po přihlášení pod univerzitou či knihovnou.

2-1_2

Zkuste vyhledat v Google Scholar odborné články k tématu, o kterém píšete seminární práci. Podívejte se, odkud jsou dostupné plné texty.

Scholar nabízí také zdroje ve formátu citace, což znamená, že zobrazí jen informace o publikaci, ale neodkazuje na žádný dokument ani webovou stránku. U každého vyhledaného záznamu se zobrazí počet citací, což vám může sloužit jako nápověda kvality odborného textu (ukazuje, kolik lidí jej považovalo za zajímavý a odkazovalo na něj). Přesto je vhodné, abyste před použitím text ještě sami zhodnotili a údaj o citaci použili jen jako dílčí kritérium.

Scholar dále umožňuje zobrazení souvisejících článků v případě, že se vám podaří najít takový článek, který považujete za stěžejní pro vámi hledané téma. Mohou se vám hodit také funkce citačního manažeru, tedy uložení textu do vlastní knihovny zdrojů a vygenerování citace podle normy MLA, APA a ISO 690. Když budete generovat citace v Google Scholar, dávejte si pozor na kvalitu záznamu, protože formát navržený Google Scholar je často nesprávný. Za zmínku stojí také možnost vytvořit si vlastní publikační odborný profil. Ukázku takového profilu ilustruje stránka Petra Sojky.

>> Nejpoužívanější vyhledávače se liší dle zemí. Nejvýraznější odlišnost je u Ruska (preferován Yandex) a Číny (upřednostňuje Baidu), kde svou roli sehrává politický režim. V Česku je populární fulltextový vyhledávač Seznam.cz.

Vyhledávače často sledují aktivitu uživatele a upravují výsledky podle informací, které o něm mají. Může tak dojít k omezení přístupu k některým informacím, ale také k prodeji údajů o uživateli. Mezi nejznámější vyhledávače, které staví na tom, že uživatele nesledují, patří DuckDuckGo. <<

Vyzkoušejte si použít v různých vyhledávačích stejná klíčová slova a podívejte se, jak se liší výsledky vyhledávání.

Jiným typem vyhledávače je WolframAlpha. Jeho odlišnost spočívá v tom, že na zadaný dotaz nevypíše seznam webů, kde informaci najdete, ale rovnou informace, které vás zajímají. Základem celého systému je obsáhlá báze dat, ve které se snaží WolframAlpha najít odpověď. WolframAlpha obsahuje informace z oblasti ekonomie, kultury, astronomie, počasí, matematiky a mnoha dalších. Zadáte-li například jméno Emil Zátopek, dozvíte se, jaké medaile získal i jakých časů dosáhl. Problémem je, že pokud daná informace v databázi není, nenajdete ani žádnou související, jako při práci s Googlem. Problém může být také ve zdrojích, ze kterých čerpá. Jedním z nich je i Wikipedie, kam může přispět kdokoli, proto není možné posoudit důvěryhodnost ani trvalost informace. Nevýhodou je také cena za použití plné verze. S ohledem na to, jak tento vyhledávač pracuje, ho využijte k získání orientace v tématu, nalezenou informaci byste si však měli ověřit v odborném zdroji.

WolframAlpha je jedním z nástrojů, které využívá mobilní aplikace Siri od Apple. Při vyhledávání pomocí Siri používáte klíčová slova nebo otázku, která ale není napsaná, nýbrž namluvená. Podobnými hlasovými asistenty jsou Google Now (ten navíc automaticky nabízí uživateli informace, které by pro něj mohly být zajímavé) nebo Cortana od Microsoftu.

Vyhledávání hlasem, nikoli písmem, umožňuje také Google v Chrome nebo v mobilních zařízeních pracujících s operačním systémem Android. Podobné nástroje jsou stále ve vývoji, pro sofistikovanější dotazy tedy nejsou ideální, ukazují ale možný směr vývoje vyhledávačů. Jejich výhodou je vyhledání slov, která neumíte správně napsat, možnost položit delší dotazy nebo třeba vyhledávání ve chvíli, kdy děláte něco jiného, třeba řídíte auto. Naopak mezi problémy patří omezené množství podporovaných jazykyů. Pokud tedy máte problémy s angličtinou, moc vám neposlouží. Při vyhledávání je třeba mít připojení k internetu, protože nástroje si nevytváří databázi odpovědí.

Vyzkoušejte si, jak na stejný dotaz odpoví hlasový vyhledávač a jak vyhledávač textový.

modul_2_7

>> Žádný vyhledávač nepokrývá celý internet. Způsoby indexování dokumentů jsou různé. Proto existují tzv. metavyhledávače, které umožňují vyhledávat současně ve více než jednom vyhledávači. Mezi nejpoužívanější patří DogpileWebCrawler, oba úspěšně spolupracují s nejrozšířenějšími vyhledávači Google, Yahoo! nebo Yandex. Jejich výhodou je, že uživatel pracuje jen s jedním rozhraním a zadává jeden dotaz. Ve výsledcích se neobjevují duplicity, jako by tomu bylo v případě vyhledávání v jednotlivých nástrojích. Každý vyhledávač ale funguje trochu jinak, proto je efektivní hledávání pomocí klíčových slov, ale jen omezené (pokud vůbec možné) je pokročilé vyhledávání nebo použití operátorů. Vyhledávání může být pomalé, protože metavyhledávač čeká na odpovědi ze všech vyhledávačů, a počet zobrazených záznamů z jednoho vyhledávače je limitovaný. Proto se metavyhledávače příliš nerozšířily. <<

.
Řazení výsledků

Google uvádí, že při řazení výsledků zhodnocuje více než 200 faktorů, které se časem mění, aby se tyto výsledky optimalizovaly a vyhledávání tak bylo pro uživatele efektivnější. I když v postupech řazení výsledků se jednotlivé vyhledávače liší, obvykle posouvají stránky na vyšší místo v seznamu výsledků například tyto faktory:

  • Stránka vyhovuje technickým standardům (správný zápis HTML nebo XHTML), např. ve zdrojovém kódu jsou uvedena klíčová slova, nadpisy jsou označeny pomocí odpovídajících tagů, jsou popsány titulky objektů (obrázků, tabulek apod.).
  • Na stránku vede více odkazů a stránka také odkazuje na další weby.
  • Stránka je často aktualizovaná a navštěvovaná.

Uvedené faktory se tvůrci stránek snaží brát vážně. Při použití korektních způsobů je vše v pořádku, někdy jsou však zneužívány, např. zakoupením si zpětných odkazů, tzn. že na tematicky nesouvisejícím webu je umístěn odkaz jen proto, aby se zvedl počet odkazů, a tím hodnocení stránky vyhledávačem.

Vedle právě uvedených faktorů má na pořadí výsledků samozřejmě vliv i samotný dotaz. Stránka získá lepší pořadí mezi výsledky například tehdy, pokud se vyhledávaná slova nachází v nadpisu. Vliv má také to, jak často se slovo na stránce nachází.

Pokud napíšete dotaz do vyhledávače úplně stejně jako váš kamarád nebo kolega, mohou se každému z vás zobrazit odlišné výsledky. Pokročilejší metody řazení výsledků zohledňují nejen to, co jste zadali jako klíčová slova, ale také to, co už o vás vyhledávač ví, ať už se jedná o vaše předchozí dotazy nebo informace získané z internetového prohlížeče. Pokud například zadáte do Google “kino”, mezi prvními výsledky nabídne – díky informacím z prohlížeče – kina v okolí místa, kde se fyzicky nacházíte. Stejným způsobem dochází k filtrování výsledků, které (většinou kvůli právním důvodům) uživatelům v některých zemích dostupné jsou, zatímco v jiných zemích ne. Pokud chcete tento filtr odstranit, využijte například již zmíněný vyhledávač DuckDuckGo.

Domluvte se s kamarádem a zkuste každý na svém počítači (nejlépe pokud jste každý fyzicky na jiném místě) položit vyhledávači stejný dotaz – porovnejte výsledky.

modul_2_8



Internetové vyhledávače / Vyhledávání netextových materiálů /
Pokročilé možnosti vyhledávání / Efektivní vyhledávání / To-do



Diskuze: