Прогрес!
Си седнав синоќа да размислам за проблемов.
Малку cUrl, малку xPath, и ја завршив работата. Сите постови, комплет со наслови, датуми и категории се симнати кај мене во база.
Сега останува уште да ги префрлам („прекнижам“, што би рекол мојов колега Бранко, хехе) во WP, но стана доцна, всушност рано – 3am, па решив да си легнам за да го издржам денешниов ден.
Инаку, web-scraping-от го научив, од потреба, пред неколку години. Тогаш сеуште не постоеше клучниот xPath – со кој може лесно и брзо да се достапува до DOM-от на секој (X)HTML и XML документ. Многу помага и cURL, а особено ми се допаѓа можноста да се достапува до сајтовите со googlebot user agent, така што евентуално вградените алармни системи на серверот поради интензивен достап од една IP адреса нема да се вклучат.
Неколку функции, малку зезање, малку повеќе гледање на сорсот на сајтот (очај, windows-1251, инаку добро среден HTML). Треба уште да поработам да ги симнам сликите кои се вчитани во сајтот (т.е. не се линкувани на некое место).
Денес-утре ќе направам привремена WP инсталација на некој од серверите на мојава фирма, за да може „археологињата“ да провери дали е се` во ред.
Браво мајсторе
суперски, навистина лоша платформа е блогерМк…
Се извинувам што вака доцна одговарам, но дури сега се вратив од конференцијата Glocal 2.0 каде имав денеска презентација. Постот го видов уште таму и не можев да се изнарадувам цел ден. Многу, многу фала што ми ги спасивте постовите. Особено благодарност до Ванчо. Просто не знам начин како да се оддолжам за стореново.
Браво до копачот, сигурен сум дека има добар копач чим го ископал до крај.
Е стварно браво. Кога се префрлаше првично блогот на WP и јас помислив преку рсс да ги префрлам поствите ама не ми успеа ниту еден од обидите и се откажав пошто тука завршија моите познавања.
Одлично, баш ми е мило што Археблогот е комплетен.