Semalt: Hatua 3 za Kuvua Ukurasa wa Wavuti wa Web

Kukata wavuti, pia huitwa uchimbaji wa data ya wavuti au uvunaji wa wavuti, ni mchakato wa kutoa data kutoka kwa wavuti au blogi. Habari hii hutumika kuweka vitambulisho vya meta, maelezo ya meta, maneno na viungo kwenye wavuti, kuboresha utendaji wake wote katika matokeo ya injini za utaftaji.

Mbinu kuu mbili hutumiwa kupiga data:

  • Kuweka waraka - Ni pamoja na hati ya XML au HTML ambayo inabadilishwa kuwa faili za DOM (Nyaraka ya Kitu). PHP hutupatia ugani mkubwa wa DOM.
  • Matamshi ya mara kwa mara - Ni njia ya chakavu data kutoka hati za wavuti katika mfumo wa misemo ya kawaida.

Swala na data chakavu ya wahusika wa tatu inahusiana na hakimiliki yake kwa sababu hauna ruhusa ya kutumia data hii. Lakini na PHP, unaweza kukagua data kwa urahisi bila shida zinazohusiana na hakimiliki au ubora wa chini. Kama programu ya PHP, unaweza kuhitaji data kutoka kwa wavuti anuwai kwa madhumuni ya uandishi. Hapa tumeelezea jinsi ya kupata data kutoka kwa tovuti zingine kwa ufanisi, lakini kabla ya hapo, unapaswa kuzingatia kwamba mwisho utapata faili za index.php au scrape.js.

Hatua 1: Unda Fomu ya Kuingia URL ya Tovuti:

Kwanza kabisa, unapaswa kuunda fomu katika index.php kwa kubonyeza kitufe cha Kuwasilisha na uingie URL ya wavuti ya data ya chakavu.

<form way = "post" name = "scrape_form" id = "scrap_form" acti>

Ingiza URL ya Wavuti Ili Kuondoa data

<aina ya pembejeo = "pembejeo" jina = "tovuti_url" id = "tovuti_url">

<aina ya pembejeo = "tuma" jina = "tuma" thamani = "Tuma">

</form>

Hatua 2: Unda Kazi ya PHP kupata Takwimu za Tovuti:

Hatua ya pili ni kuunda nakala za kazi za PHP kwenye faili ya scrape.php kwani itasaidia kupata data na kutumia maktaba ya URL. Pia itakuruhusu kuungana na kuwasiliana na seva na itifaki tofauti bila suala lolote.

kazi scrapeSiteData ($ tovuti_url) {

ikiwa (! function_exists ('curl_init')) {

kufa ('cURL haijasanikishwa. Tafadhali ingiza na ujaribu tena.');

}

$ curl = curl_init ();

curl_setopt ($ curl, CURLOPT_URL, $ tovuti_url);

curl_setopt ($ curl, CURLOPT_RETURNTRANSFER, kweli);

Matokeo ya $ = curl_exec ($ curl);

curl_close ($ curl);

rudisha pato la $;

}

Hapa, tunaweza kuona ikiwa CURL ya PHP imewekwa vizuri au la. CURL kuu tatu zinapaswa kutumika katika eneo la kazi na curl_init () itasaidia kuahirisha vipindi, curl_exec () itatekeleza na curl_close () itasaidia kufunga unganisho. Lahaja kama vile CURLOPT_URL hutumiwa kuweka URL za wavuti tunazohitaji kuchapa. CURLOPT_RETURNTRANSFER ya pili itasaidia kuhifadhi kurasa zilizowekwa katika fomu ya kutofautisha badala ya fomu yake chaguo-msingi, ambayo hatimaye itaonyesha ukurasa mzima wa wavuti.

Hatua3: Takwimu maalum za Scrape kutoka kwa Wavuti:

Ni wakati wa kushughulikia utendaji wa faili yako ya PHP na kupata sehemu maalum ya ukurasa wako wa wavu. Ikiwa hautaki data yote kutoka kwa URL fulani, unapaswa hariri kutumia vigezo vya CURLOPT_RETURNTRANSFER na kuonyesha sehemu unazotaka kusaka.

ikiwa (isset ($ _ POST ['kuwasilisha'])) {

$ html = scrapeWebsiteData ($ _ POST ['tovuti_url']);

$ Start_point = strpos ($ html, 'Machapisho ya hivi karibuni');

$ end_point = strpos ($ html, '', $ Start_point);

urefu wa $ = $ end_point- $ kuanza_point;

$ html = substr ($ html, $ Start_point, urefu wa $);

echo $ html;

}

Tunakushauri kukuza maarifa ya kimsingi ya PHP na Maoni ya Mara kwa mara kabla ya kutumia nambari yoyote ya hizi au kuchaka blogi fulani au wavuti kwa sababu za kibinafsi.