Звоните на номер:

ҮЛКЕН ДЕРЕКТЕР ОРТАСЫНДА PYTHON-ҒА НЕГІЗДЕЛГЕН ВЕБ-ТЕКСЕРГІШ ТЕХНОЛОГИЯСЫ

Нұрбақыт Айдана
Л.Н. Гумилев атындағы Еуразия ұлттық университеті Ақпаратттық технологиялар факультеті “Информатика” мамандығының 2-курс магистранты
Жетекші: т.ғ.к., доцент Кудубаева Сауле Альжановна
 
Аңдатпа: Қазіргі уақытта веб-деректерді өңдеу технологиясы кеңінен қолданылады. Веб-беттеріндегі ақпараттарды қазбалап сұрыптау мен іздеу жұмыстарының негізгі теорияларын талдау арқылы веб-тексергіштің ақпаратты қазып алудың принципі ұсынылады және бұл әдістің принципі мен жұмыс ағымы терең талданады. Тексеру принципін қолдану пайдаланушылардың нақты қажеттіліктерін қанағаттандыра алады және тиімді, жылдам әрі мақсатты сұраныстарды орындай алады.
Кілттік сөздер: үлкен дерек, Python, веб-тексергіш.
Үлкен деректер ортасында көп деген салаларда ақпараттарға жоғары талаптар қойды, бұл жағдайда қажетті ақпаратты тез және дәл алу үшін деректерді іздеу технологиясын оңтайландыру қажет. Қазіргі іздеу жүйесінің технологиясы толық жетілдірілген болса да, кейбір күрделі ақпараттық материалдар үшін бұл іздеу жүйелерінде деректерді іздеуде әлі де белгілі бір мәселелер туындап отыр. Сондықтан жоғарыда аталған мәселелерді тиімді шешу үшін деректерді іздеу сапасын одан әрі жақсарту үшін веб-тексергіш технологиясын қолдану қажет.
 
  1. WEB CRAWLER технологиясының анықтамасы
Веб- тексергіш технологиясы веб -роботтар мен веб-өрмекшілер деп те аталады. Ол ережеге сәйкес ақпаратты автоматты түрде алатын бағдарлама немесе сценарий. Веб – тексергіш технологиясының веб -сайттардың мазмұнын алу үшін іздеу жүйелерінде кеңінен қолданылды. Бұл технология арқылы кез келген өкілеттілік шегінде ақпаратты автоматты түрде алуға, деректерді әрі қарай өңдеуге негіз қалауға және ақырында пайдаланушыларға қалаған ақпаратты сұрыптап алуға мүмкіндік береді [1]. Веб - тексергіш технологиясы веб –беттердегі ақпаратты автоматты түрде ала алатын бағдарлама ретінде техникалық қолдану сатысында айқын ілгерілеушілікке ие, ол іздеу жүйелері үшін Интернеттен деректерді жүктей алады және деректерді жинау, мәліметтерді өңдеу және деректерді сақтау функцияларын жүзеге асыра алады.
Көптеген сайттар, атап айтқанда іздеу жүйелері, өрмекшілерді жаңа деректерді алу құралы ретінде қолданады. Веб - тексергіш негізінен көрсетілген беттердің көшірмесін жасау және ары қарай деректерді өңдеу үшін қолданылады, ол жүктелген беттерді жылдам іздеуді қамтамасыз ету үшін индекстейді. Өрмекшілерді сонымен қатар сілтемелерді тексеру немесе HTML кодын тексеру сияқты веб -сайттағы техникалық қызмет көрсету тапсырмаларын автоматтандыру үшін пайдалануға болады. Сондай-ақ, тексергіштерді электрондық пошта мекенжайларын жинау сияқты веб-беттерден белгілі бір ақпарат түрлерін жинау үшін пайдалануға болады (әдетте спам үшін). Веб -тексеруші - бұл боттың бір түрі немесе бағдарламалық жасақтама агенті. Жалпы алғанда, ол URL деп аталатын мекенжай тізімінен басталады. Тексеруші осы URL мекенжайларына кіргенде, ол беттегі барлық гиперсілтемелерді анықтайды және оларды тексерілетін шекара деп аталатын URL мекенжайларының тізіміне қосады. Шекарадан алынған URL мекенжайлары саясаттың жиынтығына сәйкес рекурсивті түрде қаралады [2].
  1. Тексеру саясаты
Веб беттерді қарап шығуды қиындататын маңызды факторлар бар:
  • Үлкен көлем
  • Ақпараттардың жылдам өзгеруі
  • Динамикалық беттің болуы
Бұл сипаттамалар бірігу арқылы сканерлеуге болатын алуаг түрлі веб беттер туындайды.
Үлкен көлем дегеніміз веб-шолғыш белгілі бір уақыт ішінде веб -беттердің бір бөлігін ғана жүктей алатынын білдіреді. Веб -шолғыштың әрекеті келесі саясаттың жиынтығының нәтижесі болып табылады:
  • Таңдау саясаты (Selection Policy)
  • Қайта келу саясаты (Re-Visit Policy)
  • Әдептілік саясаты (Politeness Policy)
  • Параллелизация саясаты (Parallelization Policy)
2.1         Web-беттерді индекстеу және сұрау
Веб-іздеу процесі екі негізгі бөліктен тұрады: офлайн және онлайн.
Офлайн бөлігі іздеу жүйесімен мерзімді түрде орындалады және беттер жинағын құру үшін Интернеттің ішкі жинағын жүктеп алудан тұрады, содан кейін ол іздеуге болатын индекске айналады.
On-line бөлігі пайдаланушы сұрауы орындалған сайын орындалады және индексті пайдаланушы қажеттілігіне қаншалықты сәйкес келетінін бағалауға сәйкес сұрыпталған кейбір үміткер құжаттарын таңдау үшін пайдаланады. 
Веб-беттер қарапайым мәтін, HTML беттері, PDF құжаттары және басқа меншікті пішімдері сияқты көптеген әртүрлі пішімдерде келеді. Web-беттерді индекстеудің бірінші кезеңі құжаттардан стандартты логикалық көріністі шығару болып табылады. Іздеу жүйелерінде құжаттар үшін ең көп қолданылатын логикалық көрініс «сөздер қапшығы» үлгісі болып табылады, онда әрбір құжат тек ретсіз сөздер жиынтығы ретінде көрінеді. Қазіргі веб-іздеу жүйелерінде бұл көрініс сөз жиіліктеріне және мәтінді пішімдеу атрибуттарына қатысты қосымша ақпаратпен, сондай-ақ HTML белгілеуіндегі ендірілген сипаттамалар мен айқын кілт сөздерді қоса алғанда, веб-беттер туралы мета-ақпаратпен кеңейтілген [3].
  1. WEB CRAWLER архитектурасы
Веб -шолғыш технологиясының архитектурасы негізінен үш аспектке бөлінеді, атап айтқанда тексеріп шығуды жоспарлау терминалы, веб -шолғыштың негізгі бағдарламасы және мақсатталған деректер. Бұл технологияда негізгі тексеруші бағдарламада да үш компонент бар және нақты ақпарат 1 -кестеде көрсетілген.
No.
Модуль атауы
Модуль функциясы
1.
Url менеджері
Негізінен веб -шолғыштың URL мекенжайын алуға және тексеріп болған URL мекенжайларын өңдеуге жауапты.
2.
Веб жүктеуші
URL мекенжайы бойынша World Wide Web -тен сәйкес URL мазмұнын жүктейді және веб -беттен толық ақпарат алады.
3.
Веб -талдаушы
Веб -жүктеуші алған ақпараттарды сұрыптап керектісін қалдырады.
кесте 1. Веб -тексергіш технологиясын модулі
Үлкен деректер ортасында желілік ақпаратты өңдеу талаптарына сәйкес, python бағдарламасына негізделген веб-шолғыш технологиясында, тексергішті жоспарлау терминалы ұсынған ақпаратқа сәйкес мақсатты мәліметтерді алу үшін тексеруші бағдарламаны жұмылдыру қажет. Бұл процесте тексерушінің жұмыс бағдарламасы көрсетілген.
Веб -тексеруші деректерді алу процесінде жоспарлаушы алдымен Url менеджерінен сканерленетін Url ақпараты бар -жоғын анықтау үшін ақпарат сұрауы керек; егер дәл осы уақытта алынған нәтиже оң болса, онда жоспарлаушы Url менеджерінен сканерлеу қажет бірінші адресті алады. Жоспарлаушы Url менеджері ұсынған мекен -жай ақпараты арқылы веб -беттегі ақпараты жүктей алады және оны талдаушыға жібереді, ал талдаушы ақпараттың құндылығын талдайды. Жоғарыда аталған процесс шексіз түрде өтеді және сәйкес шарттар орындалмайынша тоқтай алмайды, сондықтан алынған ақпараттың сапасына кепілдік беруге болады.
Веб -тексеруші жергілікті жинақталған мәліметтерді жаңарту үшін веб-беттерді қайта қарауы керек. Тексеріп шығушы өз жинағын жаңарту ерекшелігіне байланысты тексеріп шығушыны екі түрге жіктеуге болады:
• Пакеттік режимді тексеріп шығушы: пакеттік режимді тексеріп шығу құралы мерзімді түрде жұмыс істейді (айталық, айына бір рет), әрбір тексеріп шығуда жинақтағы барлық беттерді жаңартады. Тексеріп шығушы бос тұрғанда жинақ ескіре бастайды (ақ аймақтарда балғындық азаяды) және тексеріп шығушы беттерді қайта қараған кезде жинақ жаңарады (сұр аймақтарда балғындық артады).
• Тұрақты тексеріп шығушы: Тұрақты тексеріп шығушы үзіліссіз жұмыс істейді. Пакеттік режімдегі тексеріп шығу құралымен салыстырғанда, тұрақты тексеріп шығу құралының ақпаратты жаңартуы уақыт өте тұрақты болады, себебі мәліметтер жинағы үздіксіз және біртіндеп жаңартылып отырады [4].
Веб-майнинг желілік қосымшаларды қолдайды және платформаға күшті бейімделе алады. Оның қолданылуы мен тасымалдануы оңтайлы. Үлкен деректер дәуірінде python негізіндегі веб-тексеру технологиясы қажет және болашақ ақпаратты іздеу барысында түрлі талаптарды қанағаттандыра алады, сондықтан оны қолданыс шеңберінде өзінің айтарлықтай маңыздылығы бар.
 
 
Әдебиеттер тiзiмi:
  1. Pan qiao zhi, zhang lei. Data security and cloud computing. Talking about the python-based web crawler technology in the big data environment. 2018. Pp:41-42.
  2. Avinash N. Bhute1, Harsha A. Bhute2 , Dr.B.B.Meshram. International Conference on Trends and Advances in Computation and Engineering, TRACE- 2010. Intelligent Web Agent for Search Engines. Pp:87-90.
  3. Effective Web Crawling by Carlos Castillo. Dept. of Computer Science - University of Chile November 2004. Pp: 17-18.
  4. CRAWLING THE WEB: DISCOVERY AND MAINTENANCE OF LARGE-SCALE WEB DATA. Junghoo Cho November 2001. Pp148-149
Звоните на номер:
Напишите нам
По всем вопросам, просим написать на почту! 
Мы находимся по адресу:
M02E6B9

Казахстан, г. Караганда