Historier fra det virkelige liv slår altid en masse tør teori – ikke mindst for mig, der bestemt hører til i kategorien “praktiker”. Og jeg har nu indsamlet materiale til sådan historie, der kun alt for godt viser, hvor galt det kan gå, når en hjemmeside er plaget af duplicate content. Historien er nok mest interessant for webfolk, men pointen er for alle, der har en hjemmeside.
I juli skrev jeg om, at danske CMS leverandører sover i timen. Udgangspunktet for det indlæg var en opgave for en virksomhed, hvis hjemmeside er bygget i et dansk CMS, der konsekvent glimrer ved at have alt spejlet og nydeligt indekseret på mindst ét udviklingsdomæne.
Det problem fik vi rettet relativt hurtigt – naturligvis kun for den pågældende kunde. Resten af kunderne på systemet ligger fortsat nydeligt replikeret – som forventet. Men det har efterfølgende vist sig at have ret store konsekvenser for vores kunde. Og det er det, jeg vil fortælle om her.
Smidt helt i kulkælderen
Lad os kalde vores kundes hjemmeside for “hjemmeside.dk” og CMS husets for “cmshus.dk”. Her er flowet i sagen:
- Webbureau bygger hjemmeside for vores kunde i et CMS. Der udvikles på et udviklingsdomæne på cmshus.dk, og dette crawles og indekseres af Google. Skidt – men sådan gør de nu engang.
- Vores kunde sætter hjemmeside.dk i luften, og den crawles og indekseres også.
- Google siger: “Aha – det her indhold kender vi godt fra cmshus.dk, og det var jo der, det lå først. Samtidig har cmshus.dk en højere rank hos os, så hjemmeside.dk må være en kopi, vi ikke gider vise i vores indeks”.
- Vi kommer på sagen og får fjernet udviklingsdomænets indhold. Vi får skrevet ordentlige sidetitler, lavet bedre intern linkstruktur og alt det der.
- Google vil fortsat ikke vise sider fra hjemmeside.dk med undtagelse af en direkte søgning på firmanavnet – men Google har crawlet og indekseret samtlige sider på sitet (ca. 70). Forsiden har en PR5!
- Vi tester nu med søgninger på helt unikke tekststrenge fra hjemmeside.dk, og det viser sig, at vores kunde for længe siden har udsendt pressemateriale med bl.a. det meste af teksten fra forsiden på hjemmeside.dk. Dette materiale ligger nu online små 60 steder iflg. Google – men ikke på hjemmeside.dk (stadig iflg. Google).
Hvad er der sket her?
Google har fundet teksterne på cmshus.dk først og fremmest – og antaget, at det så var den rigtige site. Vores kunde er gået i luften med hjemmeside.dk. Dernæst har vores kunde udsendt teksterne og mange hjemmesider har lagt dem på. Google crawler det hele og tager den beslutning, at hjemmeside.dk er sidst ankomne i en lang række af sites med samme tekst – og at hjemmeside.dk er den nyeste og uden historik, trust og alt det der. Og så er den røget helt ned i kælderen i supplerende indeks. Også efter forsiden er tildelt PR5.
Hvordan løser vi dette?
Vores kunde må nu omskrive teksterne på flere sider for at dokumentere unikt indhold over for Google. Indgående links alene gør det ikke.
Morale
Alt dette kunne have været undgået, hvis CMS huset havde vidst, at der findes søgemaskiner. Eller rettere: Havde taget hensyn til det, for de ved godt, de findes (markedsføres som søgemaskineeksperter…).
Og så er det altså ikke en god ide at benytte 70-80% af sit unikke tekstinhold fra hjemmesiden i pressemateriale. Men det gør vores kunde med garanti heller aldrig igen…
Hvad siger du til den historie?
Rosenstand out!
Hvis jeg ska’ sige det kort:
Meget underlig udviklingsmetode af CMS-hus.
Jeps! Men de har så også over 95.000 sider indekseret på deres domæne i Google – og jeg tror, det er under 500, der er deres egne 😉
Det virker da fuldstændig hul i hovedet at lade udviklingssites indeksere. Ikke mindst pga. det du nævner i artiklen, men da også fordi det da sjældent er ønskværdigt at få for meget trafik forbi et udviklingssite.
Ja hvad er der snart at sige ud over at det er utroligt at CMS-husene ikke tager sig sammen. Men vildt nok at at de har næsten 100.000 sider indekseret og kun 500 er deres egne. Det vidner jo bare om temmelig store problemer for en lang række af deres kunder…
Thomas, super post! Elsker virkelige eksempler.
Kan du løfte lidt af sløret for mere om vurderingen af situationen med Google?
Kan der være tale om en penalty oveni, som betyder at selv med nyt indhold vil placeringerne ikke kommer? Har du spurgt Google om sagen, og hvor meget information hoster de eventuelt op med i sådan en situation?
Har I i forbindelse med sagen sendt en reconsideration request eller lignende?
Kunne være spændende at høre lidt mere om den hemmelige side af sagen, hvis der er sådan en. 🙂
Takker!
Nej, Anders – sitet er fuldt indekseret med alle sider. De nyeste cachede versioner i Google er fra 10.august. Så det er bare at få skiftet indhold og vente lidt (mere). En reinclusion er ikke på tale – ikke endnu da.
Jeg har vendt sagen med en gut i Mountain View, men hvis du har prøvet at tale med dem, ved du, at det kun sjældent er hardcore action, du kan forvente. Men jeg fik dog bekræftet, at min udlægning af forløbet nok ikke er helt skæv.
Der er ikke nogen hemmelig side af sagen – og domænet omtalt er uden snavs og uden dårlig historie af nogen art.
God post Thomas
Som ejer af adskillige linkkataloger ser jeg alt for tit folk benytter ren kopi af forside tekster når de linkbuilder. På trods af forklaringer om at de bør skrive unikke beskrivelser, springer mange dog over hvor gærdet er lavest.
Og jeg kan kun gengive at jeg meget tit ser hjemmesider har problemer i forhold til duplicate content og have sine unikke forside tekster til at ligge på gamle/trusted sites inden de selv er blevet crawlet/indexeret.
Tak – igen 🙂
Ja – jeg oplever, at duplicate content er et af de problemer, det er sværest at få både hjemmesideejere og programmører til at tage alvorligt. en del af skylden ligger faktisk i nogle dårligt formulerede udmeldinger fra Google tidligere, hvor de siger, at du ikke bliver “straffet” for duplicate content. Det er så det, folk tager til sig – og glemmer at læse resten, hvor Google gør opmærksom på, at Google så vil tage den version, de vurderer som bedst og bruge i indeks. Og hvem har lyst til at lade en stump algoritme afgøre den slags, når man kan bestemme selv?
Jeg kan ikke lade være med at kaste en lille ektra ting til diskussion her.
Der er selvfølgelig mange, der leverer CMS-systemer og som sælger rigtig mange “på samlebånd”. De sidste år har vi alle nok hørt til dem, som vil/kan leverer et CMS-system helt GRATIS! Det burde jo allerede her ringe en klokke om, at det er lidt for godt til at være sandt. Når så kunden har “hoppet” på trikket med et gratis site – de selv kan holde opdateret – så laver de også teksten osv osv…
Det har så resulteret i, at når samme leverandør skriver teksten kan man tage 3-4 linier, smide den i google og så finder den gerne 70-150 sider, der er totalt ens med samme tekst…
Nu er jeg ikke den store seo-ekspert eller noget, men når nu I diskutere med kopitekst osv. her – så kunne jeg godt tænke mig at vide hvordan dette virker med google??? Altså ud over det ser tåbeligt ud at man finder 70 VVS’er med den samme tekst 😉
Hej Dennis
Nu er det ikke et af de “gratis” systemer, der er synderen i denne historie – tværtimod et af de dyreste og største.
Scenarier som det du beskriver her er bestemt ikke fremmende for placeringerne. Jeg kan godt regne ud, hvilket system du tænker på, og vi må jo også sige, at løsninger fra den kant ikke ligefrem brillerer i “toppen af poppen”.
Et andet og ikke særligt kendt problem er tekster fra leverandører i webshops. Har du en kaffemaskine fra Philips på 30 forskellige webshops, der alle bruger teksten fra Philips, er der i princippet kun én af dem, der har en chance i Google på den model. Det har vi råbt om i årevis – men hjælper det? Nix…
Kender godt problemet.. alt for godt enda. 🙁
Vi har samme problem med vores webhost leverandør, og selv om jeg er sluppet nogenlunde ud af det med vore egne kunder, så kan jeg se at der er mange andre som er hårdt ramt af duplicate content på udviklingsdomæner.
Men det er da dejligt at du sætter lidt fokus på problemet, og så må vi bare håbe at “cmshus.dk” og lignende virksomheder læser med, og vælger at gøre noget ved det.
Apropos DC, så snakkede jeg med en gut igår som vi skal til at lave lidt for, og deres domæne redirecter til udviklingsdomænet, som er godt indekseret med PR5 og PR4 på de fleste sider… Så jeg er spændt på at høre ham næste gang vi skal snakkes ved, hvordan de er havnet i den situation. Men det kan selvfølgelig være at de har opdaget at udviklingsdomænet rankede bedst, og så simpelthen taget konsekvensen af det og valgt at bruge det domæne som det primære.
Prøv at spørge ham, hvad han vil gøre, hvis udbyderen skifter domænenavn? Så er ALT forfra…
Jeg tror ikke, det gør nogen forskel, om den omtalte udbyder læser med eller ej. Jeg har arbejdet med i hvert fald 7 løsninger det seneste år på deres platform – og hver gang fået dem til at rette duplicate content problemet på de pågældende sites. Men du skal ikke tro, det får dem til at rette det på resten 😉
Hej Thomas,
Super eksempel – desværre 🙁
Det er da utroligt, at en virksomhed der får penge for at udvikle websites og CMS løsninger, ikke besidder den nødvendige SEO kompetence eller har indgået samarbejde med en eller flere relevante spillere på markedet.
Hej Leif!
Nu har du forhåbentlig ikke tabt dig så meget, at du kun sjældent kommenterer her? 😉
Det sure er, at samme CMS hus markedsfører sig som søgemaskineeksperter. Det betyder, at mange af deres kunder er lidt tvivlrådige, når vi så identificerer problemet for dem. Er det os, der “finder på noget” – eller kan det virkelig passe, at deres ofte flere hundredtusind kroner dyre hjemmeside ikke har selv det mest basale på plads – når nu firmaet bag er verdensmestre i søgemaskineoptimering. Heldigvis er dokumentationen nem og ligetil. Men det støjer!
Hej Thomas!
Det er dejligt med noget information om hvordan google fungere. Jeg er selt ikke ekspert på SEO, tvært i mod er jeg nybegynder, men jeg prøver at markedsfører min lille web-butik på google, ( for øvrigt tak for de råd jeg fik forleden, jeg er begyndt at redigere i profileringsmodulet ), det er svært og jeg kan her læse at jeg har gjort nogle grumme fejl. Jeg har kopieret tekst fra hjemmesiden i forbindelse med link building, hvad gør jeg? Hvordan finder jeg nemmest alle de link som jeg har kopieret tekst over til?
Hej Søren
Velbekomme! Tag du bare en is! Hvis det kun er små udsnit, du har brugt, sker der ingen skade ved det. Du kan jo prøve at søge på den udvalgte tekst i Google og se, om den dukker op.
Hvis det er linkkatalger, du har benyttet, er det ofte kun ganskle få tegn, og det går nok. Men husk: Brug en anden praksis fremover og varier båd ebeskrivelser og linktekst i dine tilmeldinger.
Dit eksempel viser meget tydeligt, at det er en god idé at tænke SEO ind fra begyndelsen. Kombineret med dit Thomas-cast om duplicate content synes jeg du dækker problematikken grundigt og pædagogisk.
Hvis der havde været noindex+nofollow på udviklingsdomænet og kommunikationsfolkene havde fået lidt vejledning i vægtning af unik forsidetekst & pressemateriale, var problemet ikke opstået.
Og sammenlagt må det være langt mindre tids- og ressourcekrævende at gøre det rigtigt i første hug.
At redigere samtlige sider pga. en dårlig launch må være lettere demotiverende.
/Kasper
Umiddelbart kunne vi godt være faldet i den fælde med at et testsite på f.eks. mintest.lait.dk ved et uheld kunne blive indekseret… det er dog heldigvis (når jeg læser de grumme eksempler) ikke sket endnu, men det er vist mest held end forstand (fy skamme…)!
Er løsningen at bruge en robots.txt på testsitet som forklarer søgemaskinerne at de ikke skal indeksere dette, og så huske at fjerne/redigere filen når sitet går i produktion?
Eller er der andre bedre metoder?
Mvh. Anders
Ja – en robots.txt er en fin løsning til det. Og er skaden sket, hedder det 301 redirect fra testdomænet til kundens domæne.
allrighty… 🙂 robots.txt er hermed blevet en del af det fremtidige “våbenarsenal” til testsites 😉
Tak for hjælpen!
Lidt klassisk ros-ris-ros
CMS husene gør rigtig mange gode ting. Uden dem var der ikke mange internetbutikker i DK. For ikke så for forfærdeligt mange penge har man et fuldt udbygget butikssystem med dankortbetaling, lagerstyring og alt det der…
At de ikke gemmer kundernes udviklingssites inde bag en eller anden for for “mur” for eksempel vha. password beskyttelse er bare møghamrende iriterende. Hos vores cmshus.dk måtte vi også bede om at få løst problemet med et udviklingssite der blev indekseret. Sammtidig er der for mig endnu mere irriterende at rettelser i vores kørende butik altid foregår ‘live’. Skal man for eksempel lege lidt med butikkens css eller modulet til dankortbetaling er der ikke mulighed for at teste det inden det bliver frigivet til kunderne. Igen kunne det være fedt med et udviklingssite gemt inde bag administrator password.
Og så lidt sluttelig ros 🙂 Selvom de ikke altid kan løse problemerne syntes jeg at servicen hos cmshus.dk er rigtig godt. De er flinke til at svare tilbage hurtigt og en gang i mellem med svar der kan bruges
Hej Søren
Jep – der er flere måder, det kunne gøres på, men så længe det store flertal af programmører kigger på én med et tomt blik i øjnene, når SEO nævnes, er der et stykke vej endnu…
I øvrigt: Dit cmshus.dk er ikke det samme som det, jeg tager udgangspunkt i her. Og mange af de store CMS huse har faktisk rigtig fine kundeserviceafdelinger. Men ofte sidder folkene i kundeservice mere eller mindre magtesløse i forhol dtil f.eks. problemer med duplicate content.
Jeg har i løbet af de sidste 4-5 år snakket/diskuteret med flere cms-leverandører om problematikken med, at mange af deres kunder ikke får opdateret deres sites til trods for, at de har købt et cms, der jo – iflg. leverandørerne selv – skulle gøre det lettere.
Min teori er, at et cms ikke gør det alene. Kundernes organisation skal geares til at bruge et cms, før firmaet får gavn af det. Og netop det med at hjælpe firmaer til at komme i gang med at bruge deres erhvervede cms har været omdrejningspunktet i mine diskussioner med cms-udbydere, men jeg er stødt på den samme “argumentation” hos næsten samtlige udbydere; nemlig at de er ligeglade med kundernes indhold.
For udbyderne gælder det blot om at få solgt systemet. Resten er de ligeglade med. Og er man som leverandør ligeglad med indhold på hjemmesider, så tænker man næppe ret meget over SEO. At de selvsamme leverandører så “kalder” sig SEO-eksperter, viser vel egentlig blot noget om deres forretningsmoral.
Hej Thomas jeg har læst light versionen og meget fristet til at købe resten af værket dine efterfølgende lokke bidder gør det næste ulidligt 🙂 Rigtig god måde at holde kundens interesse fange på gennem længere tid 🙂 Jeg har lige et hurtigt spørgsmål hvis man kan det her 🙂 Jeg har hjulpet en ven med at flytte hans website fra en udbyder som han ikke var tilfreds med, dagen efter er den cache-version i google forsvundet… beror det på en tilfældighed eller er der nogen der har haft en finger med i spillet, kan man framelde andres sider i google ?
Så slå til – den kan blive din i dag!
Nej – man kan ikke framelde andres sider. Den skal nok komme med igen. Tålmodighed er en dyd 😉
Hej Thomas og alle andre herinde.
Jeg faldt lige over denne post, og måtte lige se om der var en der kunne hjælpe.
Vi har en webbutik med forskellige ting, hvor man kan vælge farver og typer.
Vi overvejer at lave hver sin type eller farve til sin egen side, dels for at gøre det nemmere at finde den farve eller type man vil have, og dels fodi jeg mente at det ville give mere pageRank da sitet bliver større.
dvs. istedefor at have 1 side med 5 typer, så have 5 sider, som er hver sin type.
Der er bare det at alle 5 jo er samme produkt, og der ville så være god mulighed for at beskrivelserne på mange produkter var de samme.
Er det at fortrække at have 1 unik side hvor man kan vælge imellem 5 typer, eller have 5 ens sider, men måske med en nuik oversigtsside bare for de 5 produkter?
Først og fremmest: Du får ikke mere PageRank af at have flere sider.
Hvis du har samme tekst til hver af dine produkter trods forskellen i farve, skal du enten blokere søgemaskinernes adgang til siderne på nær én – eller have det hele på en side (én URL). Ellers ryger du lige i duplicet content.
Hej Thomas – Et uddybende spørgsmål vedr Thomas Pedersens webshop med valg af farve / type.
Når du skriver “ryger i duplicate content” :
1) Er konsekvenserne af Thomas P’s duplicate content udelukkende at han mister kontrollen over hvilken kategori / Url hans vare bliver google indekseret under
2) – eller er straffes han desuden også i SEO ranking?
Hej Lykke
Konsekvensen kan være begge dele. Er der meget duplicate content på et site, får det stort set altid indvirkning på den generelle ranking.
Med sikkerhed er konsekvensen, at han mister kontrollen over, hvad der medtages i indeks. Og det er faktisk slemt nok i sig selv.
Hej Thomas -først og fremmest tak for en rigtig god blog. Benytter mig meget af de gode råd du giver! Idag finder så denne så denne udmærkede streng af kommentarer omkring duplicate content, her får jeg lidt dug på panden…
Har gennem google webmaster tools observeret at mit domæne var registreret (hos google) som http://www.telesvar.dk samt http://telesvar.dk, det viser sig at google ikke ved om jeg vil bruge www eller ej, og genererer duplicate content. Jeg har bekræftet mit ejerskab af http://www.telesvar.dk den første dag jeg udgav sider på domænet. Hvordan sker dette så?
Skal jeg skrive helt nye titler og tekster til mine sider på http://www.telesvar.dk, og derved undgå mere duplicate content??
Venlig hilsen
Cher Pedersen
Hej Cher
Tak for det 🙂
Nej – du skal 301 redirecte http://www.telesvar.dk til http://telesvar.dk og så er det problem løst. Du kører i en WordPress, så det kan din leverandør fikse på to minutter (hvilket han burde have gjort, inden han leverede til dig)
Først og fremmest er det et meget lærerigt indlæg, der giver noget at tænke over!
Hvis jeg må stille et spørgsmål, hvordan vil Google så vurdere en hjemmeside, hvis indhold er flyttet direkte fra en anden hjemmeside?
P.t. har vi nemlig et domæne http://danshop.dk der peger direkte over på http://danhost.dk/webshop
Dette er blot en midlertidig løsning og planen var, at vi blot vil flytte indholdet fra danhost.dk over til danshop.dk – og så slette det oprindelige indhold på danhost.dk, så teksten ikke gik igen to steder. Men efter at have læst din artikel, bekymrer det mig til om Google vil se det som en kopiering og dermed “lukke ned” for hjemmesidens mulighed for at ranke højt.
Kan vi stadig holde os til den oprindelige plan med flytning af indhold, eller bør vi gøre noget andet?
Med venlig hilsen
Kathrine Svendsen
Hej Kathrine
Det kan I sagtens. I skal blot sørge for korrekt 301 redirect fra gamle til nye adresser – så er der absolut ingen fare eller risiko ved det.