Semalt: PHP веб баракчасын скраптоого 3 кадам

Веб кыргыч, веб маалыматтарды алуу же веб жыйноо деп да аталат, веб-сайттан же блогдон маалыматтарды алуу процесси. Бул маалымат мета тегдерин, мета сүрөттөмөлөрүн, ачкыч сөздөрдү жана сайтка шилтемелерди орнотуу үчүн колдонулуп, издөө системасынын ишиндеги натыйжалуулугун жогорулатат.

Маалыматтарды кыруу үчүн эки негизги ыкма колдонулат:

  • Документти талдоо - Бул XML же HTML документти камтыйт, ал DOM (Document Object Model) файлдарына которулат. PHP бизге мыкты DOM кеңейтүүсүн берет.
  • Жөнөкөй сөз айкаштары - бул веб-документтердеги маалыматтарды кадимки сөз айкаштары түрүндө кыркуунун жолу.

Үчүнчү жактын веб-сайтындагы дайындарды кырып салуу маселеси анын автордук укугу менен байланыштуу, анткени бул маалыматты колдонууга уруксатыңыз жок. Бирок PHP менен, сиз автордук укукка же сапатына байланыштуу көйгөйлөрсүз эле маалыматты оңой эле кырып алсаңыз болот. PHP программисти катары кодировкалоо үчүн сизге ар кандай веб-сайттардан маалымат керек. Бул жерде биз башка сайттардан маалыматты кантип натыйжалуу алуу керектигин түшүндүрдүк, бирок буга чейин сиз index.php же scrape.js файлдарын алаарыңызды эсиңизден чыгарбаңыз.

Steps1: Вебсайттын URL дарегин киргизүү үчүн Форма түзүңүз:

Биринчи кезекте, индекс тапшыруу баскычын чыкылдатып index.php форматында форма түзүп, веб-сайттын маалыматын кыркып алуу үчүн URL киргизиңиз.

<form method = "post" name = "scrape_form" id = "scrap_form" acti>

Scrape Data үчүн вебсайттын URL дарегин киргизиңиз

<input type = "input" name = "website_url" id = "website_url">

<киргизүү түрү = "тапшыруу" аталышы = "тапшыруу" мааниси = "тапшыруу">

</ Түрү>

Steps2: Вебсайттын маалыматын алуу үчүн PHP функциясын түзүңүз:

Экинчи кадам - scrape.php файлында PHP функциясынын тилкесин түзүү, бул маалыматтарды алууга жана URL китепканасын колдонууга жардам берет. Бул ошондой эле сизге ар кандай серверлер жана протоколдор менен эч кандай көйгөйсүз туташууга жана байланышууга мүмкүндүк берет.

scrapeSiteData функциясы ($ website_url) {

if (! function_exists ('curl_init')) {

die ('cURL орнотулган эмес. Орнотуп, дагы аракет кылып көрүңүз.');

}

$ curl = curl_init ();

curl_setopt ($ curl, CURLOPT_URL, $ website_url);

curl_setopt ($ curl, CURLOPT_RETURNTRANSFER, чыныгы);

$ output = curl_exec ($ curl);

curl_close ($ бүгө);

return return $;

}

Бул жерде биз PHP cURL туура орнотулгандыгын же жокпу, көрө алабыз. Функциялар аймагында үч негизги cURL колдонулушу керек жана curl_init () сеанстарды баштоого жардам берет, curl_exec () муну аткарат жана curl_close () байланышты жабууга жардам берет. CURLOPT_URL сыяктуу өзгөрмөлөр веб-сайтты кырыш керек болгон URL даректерин орнотуу үчүн колдонулат. Экинчи CURLOPT_RETURNTRANSFER кырылган баракчаларды демейки формасынан эмес, өзгөрүлмө формада сактоого жардам берет, ал акыры бүт веб-баракчаны көрсөтөт.

3-кадам: Веб-сайттан атайын маалыматтарды сындырып алыңыз:

PHP файлыңыздын функцияларын иштеп чыгып, веб-баракчаңыздын атайын бөлүгүн кырып салууга убакыт келди. Эгер сиз белгилүү бир URL дарегиндеги бардык маалыматтарды алгыңыз келбесе, анда CURLOPT_RETURNTRANSFER өзгөрмөлөрүн колдонуп, кыркылгыңыз келген бөлүктөрдү бөлүп көрсөтүү керек.

эгер (isset ($ _ POST [ "баш ийүүгө"])) {

$ html = scrapeWebsiteData ($ _ POST ['website_url']);

$ start_point = strpos ($ html, 'Акыркы билдирүүлөр');

$ end_point = strpos ($ html, '', $ start_point);

$ length = $ end_point- $ start_point;

$ html = substr ($ html, $ start_point, $ length);

echo $ html;

}

Сизге ушул кодтордун бирин колдонуудан мурун же белгилүү бир блогду же вебсайтты жеке максаттарыңыз үчүн кырып салуудан мурун, PHP жана Жөнөкөй сөз айкаштары боюнча негизги билимди өркүндөтүүнү сунуштайбыз.