Xenu, pomocník pro technické SEO

V následujících několika článcích předvedu komplexní SEO analýzu webu Kasa.cz. Předem avizuji, že pro Kasu nepracuji a nemám s nimi nic společného. Jedná se o obrovský e-shop, proto se soustředím primárně na sekci Televize audio video.

V dnešní části seriálu se zaměřím výhradně na technický rozbor webu pomocí Xenu.

Příprava dat

Nástroj Xenu Link Sleuth spouštím jako první při SEO analýze nového webu. Pomůže odhalit především:

  • Duplicitní stránky webu,
  • stránky s nevhodnými nebo chybějícími titulky,
  • nevhodná přesměrování a neexistující stránky.

Analýzu spouštím se zapnutými volbami:

  • Check external links – Zkontrolujte si, jestli neodkazujete na neexistující stránky.
  • Treat redirections as errors – Pomůže tak odhalit nevhodná přesměrování na webu.

Po spuštění začne Xenu procházet všechny stránky analyzovaného webu. Analýza může v závislosti na počtu stránek webu trvat i několik hodin. Pokud stáhne více než 80 000 stránek, je vhodné ho ručně zastavit. Při větším množství stránek totiž většinou nic nového nezjistíte, jen vám bude zpracování dat trvat mnohem déle.

Po dokončení si seznam stránek z Xenu vyexportujeme do csv (File -> Export to TAB separated file). Následně jej naimportujeme do Excelu pomocí Data -> Z textu (verze 2007). Nyní začneme s filtrováním stránek. Vybereme názvy sloupečků a přidáme filtrovátka pomocí Data -> Filtr.

Neexistující stránky a přesměrování

Pomocí filtru vybereme stránky se statusem jiným než 200.

Projdeme stránky podivnými status kódy (např. 12017, 12030). Většinou v nich nic důležitého není, takže je odstraníme.

Nyní zkontrolujeme všechny neexistují nebo jinak problematické stránky (status 404, 403). Objevíme tak nefungující sitemapu na http://www.kasa.cz/sitemap/ a několik dalších neexistujících stránek, na které vedou interní odkazy. Po kontrole je opět smažeme.

Nezapomeňme na přesměrované stránky (status 301/302). Pokud by jich na webu bylo větší množství, je asi něco špatně. Interní odkazy na webu by měly vést v ideálním případě vždy na nové URL, ne na staré, které se přesměrovává. Po kontrole mažeme.

Soustřeďme se teď pouze na klasické HTML stránky (type = text/html). Všechny ostatní pomocí filtru opět smažeme. Více jak 80 000 stránek na začátku jsme tak omezili na „rozumnějších“ 37 000.

Hledáme další chyby

Stránky si seřadíme abecedně podle titulku a hledáme podobnosti. Vyzkoušejte také zvýraznění duplicitních titulků pomocí Domů -> Podmíněné formátování -> Zvýraznit pravidla buněk -> Duplicitní hodnoty.

Zjistíme například následující:

Kasa má speciální stránky pro fotografie (např. http://www.kasa.cz/display-photo/1007000.jpg). I když je přípona souboru .jpg, jedná se o HTML stránku. Ta je zcela zbytečná a nutí návštěvníka odcházet z hlavní stránky produktu.

Titulek kategorie LCD Televizory -> Finlux -> 15-22″ by měl být např. LCD Televizory Finlux 15-22 | Kasa.cz. Ne Finlux – 15-22 – LCD televizory | Televizory, DVD přehrávače, Panasonic Sony Pioneer Hyundai LG Thomson na splátky | KASA.cz. Proč jsou v titulku DVD přehrávače a ostatní nerelevantní slova? Jeho délka by navíc měla být maximálně poloviční, jinak nebude ve výsledcích vyhledávání zobrazen celý.

Jedna stránka je k dispozici na více URL, ale má stále stejný obsah:

  • http://www.kasa.cz/televize-audio-video/obchod/10164/15-22/?view=0&sort=1&page=0
  • http://www.kasa.cz/televize-audio-video/obchod/10164/15-22/?view=0&sort=2&page=0
  • http://www.kasa.cz/televize-audio-video/obchod/10164/15-22/?view=1&sort=1&page=0

Tento problém by v ideálním případě měl být vyřešen pomocí Canonical.

URL http://www.kasa.cz/televize-audio-video (bez lomítka na konci) se nepřesměrovává na http://www.kasa.cz/televize-audio-video/, takže opět mohou vznikat duplicity a síla zpětných odkazů se může tříštit mezi obě stránky.

Mnoho stránek na webu je duplicitních díky parametru session, což je přímo školácká chyba.

Pokračování příště

Xenu je bezesporu výborným nástrojem pro technickou analýzu webu nejen pro účely SEO. Pokud jste ho doposud neznali, určitě ho vyzkoušejte.

V příštím díle budu analyzovat další technické aspekty webu Kasa.cz jako soubor robots.txt, chybové stránky nebo sitemapu. Pokud se vám dnešní článek líbil, pošlete ho na Twitter nebo Facebook pomocí odkazů níže.