Xenu, pomocník pro technické SEO

V následujících několika článcích předvedu komplexní SEO analýzu webu Kasa.cz. Předem avizuji, že pro Kasu nepracuji a nemám s nimi nic společného. Jedná se o obrovský e-shop, proto se soustředím primárně na sekci Televize audio video.

V dnešní části seriálu se zaměřím výhradně na technický rozbor webu pomocí Xenu.

Příprava dat

Nástroj Xenu Link Sleuth spouštím jako první při SEO analýze nového webu. Pomůže odhalit především:

  • Duplicitní stránky webu,
  • stránky s nevhodnými nebo chybějícími titulky,
  • nevhodná přesměrování a neexistující stránky.

Analýzu spouštím se zapnutými volbami:

  • Check external links – Zkontrolujte si, jestli neodkazujete na neexistující stránky.
  • Treat redirections as errors – Pomůže tak odhalit nevhodná přesměrování na webu.

Po spuštění začne Xenu procházet všechny stránky analyzovaného webu. Analýza může v závislosti na počtu stránek webu trvat i několik hodin. Pokud stáhne více než 80 000 stránek, je vhodné ho ručně zastavit. Při větším množství stránek totiž většinou nic nového nezjistíte, jen vám bude zpracování dat trvat mnohem déle.

Po dokončení si seznam stránek z Xenu vyexportujeme do csv (File -> Export to TAB separated file). Následně jej naimportujeme do Excelu pomocí Data -> Z textu (verze 2007). Nyní začneme s filtrováním stránek. Vybereme názvy sloupečků a přidáme filtrovátka pomocí Data -> Filtr.

Neexistující stránky a přesměrování

Pomocí filtru vybereme stránky se statusem jiným než 200.

Projdeme stránky podivnými status kódy (např. 12017, 12030). Většinou v nich nic důležitého není, takže je odstraníme.

Nyní zkontrolujeme všechny neexistují nebo jinak problematické stránky (status 404, 403). Objevíme tak nefungující sitemapu na http://www.kasa.cz/sitemap/ a několik dalších neexistujících stránek, na které vedou interní odkazy. Po kontrole je opět smažeme.

Nezapomeňme na přesměrované stránky (status 301/302). Pokud by jich na webu bylo větší množství, je asi něco špatně. Interní odkazy na webu by měly vést v ideálním případě vždy na nové URL, ne na staré, které se přesměrovává. Po kontrole mažeme.

Soustřeďme se teď pouze na klasické HTML stránky (type = text/html). Všechny ostatní pomocí filtru opět smažeme. Více jak 80 000 stránek na začátku jsme tak omezili na „rozumnějších“ 37 000.

Hledáme další chyby

Stránky si seřadíme abecedně podle titulku a hledáme podobnosti. Vyzkoušejte také zvýraznění duplicitních titulků pomocí Domů -> Podmíněné formátování -> Zvýraznit pravidla buněk -> Duplicitní hodnoty.

Zjistíme například následující:

Kasa má speciální stránky pro fotografie (např. http://www.kasa.cz/display-photo/1007000.jpg). I když je přípona souboru .jpg, jedná se o HTML stránku. Ta je zcela zbytečná a nutí návštěvníka odcházet z hlavní stránky produktu.

Titulek kategorie LCD Televizory -> Finlux -> 15-22″ by měl být např. LCD Televizory Finlux 15-22 | Kasa.cz. Ne Finlux – 15-22 – LCD televizory | Televizory, DVD přehrávače, Panasonic Sony Pioneer Hyundai LG Thomson na splátky | KASA.cz. Proč jsou v titulku DVD přehrávače a ostatní nerelevantní slova? Jeho délka by navíc měla být maximálně poloviční, jinak nebude ve výsledcích vyhledávání zobrazen celý.

Jedna stránka je k dispozici na více URL, ale má stále stejný obsah:

  • http://www.kasa.cz/televize-audio-video/obchod/10164/15-22/?view=0&sort=1&page=0
  • http://www.kasa.cz/televize-audio-video/obchod/10164/15-22/?view=0&sort=2&page=0
  • http://www.kasa.cz/televize-audio-video/obchod/10164/15-22/?view=1&sort=1&page=0

Tento problém by v ideálním případě měl být vyřešen pomocí Canonical.

URL http://www.kasa.cz/televize-audio-video (bez lomítka na konci) se nepřesměrovává na http://www.kasa.cz/televize-audio-video/, takže opět mohou vznikat duplicity a síla zpětných odkazů se může tříštit mezi obě stránky.

Mnoho stránek na webu je duplicitních díky parametru session, což je přímo školácká chyba.

Pokračování příště

Xenu je bezesporu výborným nástrojem pro technickou analýzu webu nejen pro účely SEO. Pokud jste ho doposud neznali, určitě ho vyzkoušejte.

V příštím díle budu analyzovat další technické aspekty webu Kasa.cz jako soubor robots.txt, chybové stránky nebo sitemapu. Pokud se vám dnešní článek líbil, pošlete ho na Twitter nebo Facebook pomocí odkazů níže.

14 thoughts on “Xenu, pomocník pro technické SEO

  1. Díky za skvělý tip, už mám proskenovaný první web a třídím chyby v excelu.

    Chtěl bych se zeptat, neznáte nějaký fígl, jak dostat do textového reportu „odkazující stránky“ – adresy, na kterých se chybné odkazy nacházejí?

    Děkuji, M.K.

  2. Zdravím Martine,

    díky za komentář. Ty odkazující stránky z Xenu AFAIK dávkově dostat nejdou. Můžete si jen u každého odkazu kliknout pravým tlačítkem a v podrobnostech se odkazující stránka zobrazí.

    Jinak odkazy na neexistující stránky lze zjistit také v Google Webmaster Tools v sekci Diagnostika -> Chyby procházení.

  3. Zdarvím, zdá se mi to nebo to samé umí Webmaster tools s tím rozdílem, že u WMtools nemusím používat ještě excell?!!

  4. Zdravím, Tomáši,

    částečně se to suplovat dá, je zde ale několik ale.

    Často je problematické/zdlouhavé získat přístup do Webmaster Tools klienta. Když děláte krátký rozbor, bude dle mých zkušeností nejrychlejší udělat to pomocí Xenu.

    Přiznám se, že především z tohoto důvodu jsem analýzu pomocí Webmaster Tools dělal opravdu jen zřídka. Co si pamatuji, tak exporty z Webmaster Tools mi v mnohém nevyhovovaly. Když jsem je potřeboval v Excelu dál analyzovat, musel jsem je složitě upravovat.

    Pomocí Webmaster Tools AFAIK nezkontroluji přesměrování, správné MIME typy stránek, duplicitu podle datové velikosti stránky a možná i některé další věci.

    Ideální je samozřejmě oba nástroje kombinovat, pokud na to máte čas a především chuť 😉

  5. K tomu mému prvnímu dotazu, našel jsem řešení: „File“ -> „Report“ vytvoří HTML report, ve kterém jsou dohledatelné chybné url adresy i stránky, na kterých se vadné odkazy vyskytují. (dialog „Remote Orphan Check“ se dá přeskočit)

    HTML report přikládám webmasterům k žádosti o opravu odkazů.

  6. Poraďte, jak v htaccess přesměruji adresy bez lomítek na ty s lomítky? Marně googlím. Díky!

  7. Dobrý den pane Koutný,

    článek je dobrý a už jsem podle něj něco zkoušel.

    Píšete „Pokračování příště“
    – můžete prozradit o Xenu ještě něco dalšího?

    Děkuji

  8. Dobrý den, Jiří,

    článek, který komentujete, je více než 3 roky starý.

    V dnešní době je automatická kanonizace URL ze strany vyhledávače pravděpodobně již na mnohem lepší úrovni, než byla v roce 2010.

    Přes to všechno bych stále doporučoval, aby adresy webu shodně končily lomítkem http://www.kasa.cz/televize-audio-video/ nebo bez lomítka http://www.kasa.cz/televize-audio-video s tím, že nepreferovaná varianta je vždy přesměrována na preferovanou.

    Předpokládám, že se tím i v dnešní době můžeme vyhnout mnoha problémům, které si možná hned neuvědomíme.

  9. Ano, to sice je, ale před 3 roky tomu nebylo jinak. Vyhledávače snad od svého počátku nerozdělovaly efekt pro http://www.domena.cz a http://www.domena.cz/ , proto to, co píšete, je nesmysl. K žádné kanonizace zde nedochází, jelikož se nejedná o dvě různé stránky, ale o jednu a tu samou.

    Určitě je vhodné zvolit si nějaký standart (aby odkaz v menu na 5 kategorií nebyl s / a na dalších 5 bez), ale z hlediska efektivnosti je to úplně jedno.

Napsat komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Posílejte mi emailem nové komentáře k tomuto článku.