Mikro‑crawlanje – nov način indeksiranja
V zadnjih mesecih se je na številnih spletnih straneh pojavil nenavaden vzorec: padec človeškega prometa in hkrati nenadna rast bot aktivnosti, ki prihaja iz nenavadnih IP‑jev, z nenavadnimi user‑agenti in v nenavadnih intervalih. Ko sem začel analizirati loge, se je pokazal jasen trend in vzorec, ki ga pred meseci ni bilo.
Ta članek je analiza teh sprememb, podprta z realnimi podatki, IP‑ji in vzorci obnašanja, ki jih bom v celoti objavil v PDF‑ju kot dokazno gradivo.
1. Kaj se je zgodilo po novembru?
Do novembra je bil promet stabilen. Potem pa se je zgodilo nekaj, kar je videti kot “preklop stikala”:
- človeški obisk iz iskalnikov prešel v prosti pad čez noč
- bot promet se je brutalno povečal
- strežnik se je začel obremenjevati
- logi so se napolnili z zahtevki iz AWS in drugih cloud IP‑jev
- user‑agenti so postali sumljivo podobni headless brskalnikom
To ni bil klasičen Googlebot. To ni bil Bingbot. To ni bil noben znan iskalni agent.
To je bilo nekaj novega.
2. AWS IP‑ji in nenavadni user‑agenti: vzorec, ki ga prej ni bilo
V logih se je začelo pojavljati ogromno zahtevkov iz IP‑jev, kot so:
- 34.245.xxx.xxx
- 52.214.xxx.xxx
- 54.171.xxx.xxx
To so tipični AWS razponi, ki jih uporabljajo:
- headless browserji
- scraping orodja
- AI fetch sistemi
- mikro‑crawlanje za modele
- testni agenti
User‑agenti so bili prav tako sumljivi:
- HeadlessChrome
- X11; Linux (brez distribucije)
- Chrome/139 (neobstoječa verzija)
- generični Linux UA brez identifikacije brskalnika
To niso brskalniki, ki jih uporabljajo ljudje. To so avtomatizirana orodja.
3. Mikro‑crawlanje: 100 majhnih obiskov namesto enega velikega
Klasični Googlebot obišče stran nekajkrat na dan, v večjih paketih, z jasnim user‑agentom in iz preverjenih IP‑jev.
To, kar se dogaja zdaj, je drugačno:
- majhni, hitri, ponavljajoči se zahtevki
- pogosto samo za slike, CSS ali JS
- pogosto samo za del strani
- intervali 1–5 sekund
- različni AWS IP‑ji
- različni headless agenti
To je učbeniški primer mikro‑crawlanja, ki ga uporabljajo AI sistemi za sprotno osveževanje podatkov.
4. Zakaj se to dogaja? AI potrebuje sveže podatke
AI sistemi (Gemini, ChatGPT Search, Perplexity …) potrebujejo:
- sprotne podatke
- granularne podatke
- delne podatke
- strukturirane podatke
Namesto enega velikega crawla na teden zdaj vidimo 100 majhnih preverjanj na dan.
To ni več klasično indeksiranje. To je real‑time podatkovno zajemanje.
5. Padec človeškega prometa: logična posledica
Ko AI sistemi začnejo odgovarjati neposredno v iskalniku, se zgodi:
- uporabnik dobi odgovor brez klika
- AI uporabi tvojo vsebino, ti pa ne dobiš obiska
- promet pade
- bot promet naraste
- strežnik se obremeni
Točno to se je zgodilo meni — in točno to se dogaja mnogim drugim.
6. Dokazi: IP‑ji, vzorci in logi
V PDF‑ju, ki ga prilagam, so:
- celotni logi
- časovni žigi
- IP‑ji (delno anonimizirani)
- user‑agenti
- frekvence zahtevkov
- primeri mikro‑crawlanja
- primeri AWS skokov v prometu
7. Kaj to pomeni za avtorje?
To pomeni:
- več bot prometa
- manj človeškega prometa
- več obremenitve strežnika
- več stroškov
- manj prihodkov
- manj nadzora nad lastno vsebino
8. Zaključek: Mikro‑crawlanje je nova realnost
Če združimo vse podatke — nenavadne IP‑je, nenavadne user‑agente, real‑time preverjanja, padec prometa, rast bot aktivnosti in časovno ujemanje z AI razvojem — dobimo jasno sliko:
Splet se vse bolj uporablja kot brezplačno gorivo za iskalne in AI sisteme, medtem ko avtorji nosijo stroške in izgubljajo promet.

