您的位置首页  网络技术

实景三维技术大纲网络安全技术自学2024年9月2日

  数据获得方法为操纵爬虫手艺从收集爬取

实景三维技术大纲网络安全技术自学2024年9月2日

  数据获得方法为操纵爬虫手艺从收集爬取。数据爬取工夫段为从2021年5月15日起,每5天爬取从北京动身一切航班的飞机票经济舱价钱有关数据。共爬取了10次,总计近25.4万条数据。爬取的数据构造为小法式页面显现的飞机票一切特性字段,包罗航班号、航空公司、动身地和目标地、动身机场和目标地机场、腾飞工夫和抵达工夫、经济舱价钱、供给商等信息。

  今朝,爬虫手艺获得的网上买卖数据在CPI中的使用尚处于探究阶段,需求进一步总结经历并实时加以改正。CPI包罗的商品和效劳根本分类多,差别种别商品和效劳价钱查询拜访事情存在差别,也存在相通的地方。可从某一商品或效劳种别动手,探究构成一整套行之有用的事情流程和办法,并逐渐推行到其他种别,扩展使用范畴,从而进步统计服从,低落查询拜访本钱。

  当代信息手艺的飞速开展,为价钱统计查询拜访事情带来了全新的机缘和应战。价钱统计因网上电子商务举动的兴旺开展有了更加丰硕的数据源,也因爬虫手艺等的呈现有了新的数据收罗手腕。本文次要基于当局统计部分构造展开的住民消耗价钱查询拜访,以网上飞机票价钱收罗为典范案例,讨论怎样将爬虫手艺所获得网上价钱数据更好地使用于住民消耗价钱查询拜访(以下简称“CPI”查询拜访)和住民消耗价钱指数(CPI)体例中,并测验考试构成一套行之有用的办法,为鞭策新情势下价钱统计立异开展供给无益鉴戒。

  周均价状况。因为每月的天数刚好分红完好的周工夫段,因而从抓取的局部数据平分别提早15天、10天和5天拔取5月31日-6月6日收集宁静手艺自学、6月7日-6月13日、6月14日-6月20日、6月21日-6月27日收集宁静手艺自学、6月28日-7月4日每周的数据,计较飞机票周均价,操纵周均价计较全月均价。

  互联网时期,住民的消耗举动、企业运营举动、当局行政举动等发生的海量数据都被记载下来。为更好地反应消耗形式的变革,进步CPI代表性,网上买卖价钱曾经使用于CPI中,但次要接纳野生采价的方法,获得的数据量较小,商品信息比力单一。而操纵爬虫手艺获得网上买卖数据时获得的数据量宏大、商品信息丰硕。操纵爬虫手艺能够获得网上商品的多维信息,包罗商品的价钱、称号、参数、上市工夫、贩卖地、消耗人数等;还能够获得非构造化数据,包罗商批评价等文本信息、图片信息、视频信息等。这些信息可以更好的帮助价钱查询拜访拔取和交换规格品,并实时剔除网页改换等非价钱变解缆分。

  一是剖析网页链接简单招致数据缺失。电商普通经由过程设想内容丰硕多彩且极其新奇的收集页面来吸收消耗者,而如许的页面构造条理庞大,不克不及简朴剖析。在逐级剖析网页抓取数据经常常呈现因剖析不完整而丧失数据的征象。二是网页频仍更替招致数据紊乱。收集贩卖形式灵敏多样,贩卖页面也常常发作变革,出格是在节沐日、促销日等特别期间,为更好地吸收主顾,网页版面常常会按照专场贩卖改版,这就给依托商品链接抓取数据的爬虫事情带来了应战。三是收罗实践成交价艰难。CPI收罗的是商品的实践成交价,但网上贩卖举动情势多样,包罗秒杀、促销、团购、提早预支定金等贩卖形式屡见不鲜,并且优惠链接页面构造庞大。在操纵爬虫手艺抓取网上买卖价钱数据时,很难经由过程手艺主动辨认商家举动并抓取终极的实践成交价。

  立异点:一是讨论接纳爬虫手艺获得飞机票等某一详细种别商品和效劳的网上买卖价钱数据并使用到CPI查询拜访中的办法,探究操纵网上买卖价钱数据相对完美的事情办法和流程,为扩大到CPI其他种别商品和效劳供给办法支持;二是从查询拜访方法、数据源和本钱等方面讨论利用爬虫手艺获得网上价钱数据的劣势和不敷。

  综合以上对飞机票价钱特性的阐发,可得出飞机票价钱表示为持久大振幅和短时间高频次的特性。一是机票价钱具有高度的工夫敏理性。购票提早量对机票价钱影响较大,普通来讲,购票日期间隔动身日期越远,价钱就越低;邻近腾飞日期,机票价钱会大幅上涨,这类价差偶然能到达数倍。二是机票价钱具有较强的需求敏理性。因为机票属于高牢固本钱、低边沿本钱商品,且短时间(或单一班次)供应弹性险些为零,当需求量处于低位时,航空公司只能大幅低落价钱,以确保充足的上座率来发出航班的本钱;当需求增长,出格是碰到游览淡季和主要节沐日时,航空公司会大幅提拔价钱,以赚取更多的利润。三是机票价钱具有主动的竞价敏理性。因为机票市场的高度信息化和通明化,搭客很简单停止比价,从而“用脚投票”,这招致各航空公司关于合作敌手的价钱调解非常敏感。以合作为导向的订价办法有随行就市订价法、差别订价法等,固然战略差别,但城市用很快的速率做出调价反响。

  爬虫手艺获得的网上买卖数据量宏大且商品信息维度多,需求按照CPI查询拜访轨制请求,思索人力和物力等本钱身分,对数据停止洗濯、阐发和深化发掘,并针对差别种别商品和效劳的价钱运转特性,终极肯定网上买卖数据使用于CPI体例。比方,今朝CPI中飞机票价钱每个月收罗3次,每次收罗将来10天的价钱,而爬虫手艺能够做到天天收罗牢固工夫距离数据,分离影响飞机票价钱的购票工夫、航班、航空公司和采价本钱等身分,对网上价钱数据停止深化发掘,探究出较现行采价频次更高、规格品数目更多的采价方法,从而将其归入CPI体例中。

  分离爬虫手艺获得网上买卖数据的劣势和难点,本文测验考试提出一套将操纵爬虫手艺获得的网上买卖数据使用于CPI查询拜访的事情设想,从而进步统计服从和精确性、低落查询拜访本钱。

  从成果看,占比前3位和前18位的航空公司旬均价及走势与局部航空公司走势分歧、价钱程度相差较小。但假如只收罗3家航空公司的价钱,数据颠簸能够过大,代表性也不敷强。为了避免航空公司太少惹起数据颠簸大,需恰当增长航空公司,因而可肯定收罗占比前18位的航空公司机票价钱。

  综上所述,按照住民购置飞机票的提早工夫量、航空公司数目和目标地数目,可肯定操纵爬虫手艺获得飞机票数据的方法为,提早5天收罗下一旬数据,收罗数据量排名前18位的航空公司中排名前30名的目标地的数据,每旬爬取的数据量在7000条阁下。与现有采价航空公司和航班数目比拟,有了极大的提拔。

  航空公司牢固后差别目标地数目下旬均价走势和月均价。在肯定了挑选占比前18位的航空公司后,上中下旬的数据量别离为9768条、10233条和10033条。接着按照目标地再剔除部门数据,假如与肯定的18个航空公司的旬均价走势和月均价根本靠近,阐明数据代表性较高。成果显现,爬取的数据量占比前30位的目标地与肯定的18个航空公司机票价钱走势分歧,价钱程度相差较小。占比前30位目标地上中下旬的数据量别离为7409、7047和7013条。

  操纵爬虫手艺获得网上买卖数据时,需求处置和存储差别网站、内容丰硕的大批信息,既包罗价钱数据,还需获得商品的称号、产地、销量等帮助信息,以便于前期数据处置和利用,这就需求投入专业的人力资本和效劳器等装备资本。今朝获得网上买卖数据次要有两种方法,一种是基于成熟程叙言语的抓取即操纵计较机成熟的编程功用,编写抓取的法式代码完成对指定网页或指定内容的抓取;一种是操纵现有爬虫软件获得。关于下层统计部分而言,手艺力气相对单薄,即使利用现有的爬虫软件,呈现成绩时也很难立刻处理,常常消耗更多工夫,增长了数据可得到的难度,也很难保证数据的持续性。

  跟着当代信息手艺快速开展,住民消耗形式发作宏大变革,线上消耗兴旺开展。据国度统计局数据显现,2017-2020年,天下网上批发额年均增加19.3%。网上买卖范围的不竭扩大发生了大批的买卖数据,这些数据根据必然的构造和布列方法被保留下来,构成了宏大的数据资本。跟着网上买卖的连续增加和手艺的不竭前进,将网上买卖价钱数据归入CPI指数体例成为更片面、科学地反应价钱变更趋向的一定请求。今朝,我国住民消耗价钱查询拜访虽已将部门商品的网上买卖价钱归入统计中,但次要接纳野生采价的方法,与宏大的网上买卖价钱数据比拟,查询拜访的规格品不敷多,对现无数据资本操纵率还不高。因而,在现行的价钱统计轨制下,怎样顺应收集经济开展更好地操纵网上买卖价钱数据,进一步进步住民消耗价钱查询拜访的服从及科学性,成为当局价钱统计亟须处理的成绩。

  飞机票贩卖形式分为直销和分销。直销是航空公司经由过程自建渠道间接贩卖。包罗官网、旗舰店、APP、呼唤中间和柜台;分销是经由过程第三方渠道贩卖,包罗各家OAT、差旅办理公司、批发商、一般代办署理人等。相对直销形式,各大分销公司不只供给了优惠的价钱和跨航空公司的比价挑选,还推出游览套餐和团购效劳,广受消耗者的喜爱,市场份额也一度到达90%。“提直降代”政策出台后,很大水平上限定了机票分销形式范围,今朝直销和分销的占比靠近4:6(海内票)。

  颠末定性阐发发明,大部门消耗者会在提早一周阁下以至更长的工夫购置机票,而且按照今朝CPI中飞机票采价办法(即每个月5日、15日和25日收罗下一旬价钱),可肯定操纵抓取的局部数据研讨别离提早15天、10天和5天时,飞机票月、旬和周均价变革。今朝CPI的指数体例办法以月均价为根底计较体例环比、同比和累计指数,因而可经由过程比照差别收罗方法的全月均价来肯定经济高效的价钱数据爬取方法。

  消耗者对飞机票的购置举动通常是提早一段工夫,因而在爬取飞机票价钱数据时需提早一段工夫契合客观实践。间隔腾飞日期工夫远近差别,飞机票价钱将呈现差别。因而,在研讨飞机票价钱变更纪律时必需将消耗者购置机票的提早工夫作为限制前提。别的,按照第三方公司反应,在爬取飞机票价钱数据时遭到效劳器等资本的限定,耗时较长,收罗一次数据以至要用一天的工夫。为削减效劳器资本占用,提拔统计服从,需经由过程对飞机票价钱运转特性的研讨,从局部大数据当选定部门数据来代表局部数据的运转特性。实证阐发的次要目标,是寻觅适宜的数据爬取提早工夫和相对经济高效的数据量,从而最大限度反应局部数据信息。

  颠末开端统计,以6月份为例,天天从北京动身航班数在956-1288个之间,天天从北京动身航班抵达的目标地数目在109-123个之间。5月15日-5月30日收罗的航班数目相差较小,阐明在收罗工夫段必然的条件下,提早几天采价对收罗到的数据量影响较小。航空公司数目相对牢固,不会跟着收罗的工夫段收缩而削减,阐明大都航空公司在无特别状况下均会一般运转。经济舱均价显现“降-升-降”特性。

  网上买卖数据按照生意单方的买卖状况及时更新,数据更新变革频仍。在现有的人力前提下收集宁静手艺自学,按照代表规格品差别种别野生采价每个月收罗频次为1-3次,收罗频次相对较低,难以反应多变的网上商品价钱。爬虫手艺获得网上买卖数据是经由过程计较机法式在网上主动停止数据爬取,能够做到按日收罗数据且不受工夫和空间的限定,可以愈加实时、体系地跟踪商品信息的变革。爬虫手艺主动收罗数据的同时能够及时存储数据,关于互联网多源异构数据,能够针对性接纳文本文件、干系型数据库和非干系型数据库停止数据存储,能够将非构造化数据转换成构造化的数据,便于数据收罗后的阐发。与野生采价比拟,价钱收罗频次和服从可大幅进步。

  操纵网上数据关于价钱统计事情具有主要意义。一是网上买卖价钱数据具有可得到、信息量大等特性,有助于恰当增长价钱查询拜访内容和进步采价服从,进而进步查询拜访的精准性。同时,网上买卖价钱因电子商务举动特征颠簸频仍,野生鉴别剔除非价钱身分较为艰难,间接将其使用于CPI指数体例也面对必然的应战。研讨构成一套将网上买卖价钱数据科学归入CPI体例的办法和事情流程具有较为主要的实际意义。二是比年来爬虫手艺疾速开展,为高效获得和操纵网上买卖价钱数据供给了手艺支持。与野生采价比拟,以爬虫手艺获得的网上价钱数据做为CPI体例的数据滥觞,可以削减野生网采偏差,丰硕数据滥觞,提拔统计服从,对增进当局价钱统计进一步完美开展有偏重要理论意义。

  月均价状况。提早15天、10天和5天收罗下个月局部航班经济舱机票价钱,即5月15日、5月20日、5月25日和5月30日别离收罗6月份局部数据,别离计较月均价。

  从爬取数据的实践历程来看,局部数据的爬取方法存在占用效劳器资本多、服从低、数据处置庞大等成绩,倒霉于持久高频数据爬取。今朝在数据爬取方法肯定后,上中下旬爬取的数据量别离为9886条、10403条和10357条,下一步按照机票特性寻觅既代表性强又经济高效的爬取数据参数和数目。测验考试经由过程以旬均价走势和月均价为参考变量,察看在差别的航空公司、目标地数目下旬均价走势和月均价,并与局部数据旬均价走势和月均价比照,肯定归入爬取法式的航空公司和目标地。

  影响供求干系的是非时间身分阐发。持久看,市场上的运力投入、生齿总量及经济身分是影响机票价钱变更的次要身分;短时间看,各航空公司在运力投入根本不变条件下,高铁、公路等替换品价钱、消耗者偏好及预期等身分是影响飞机票价钱变更的次要身分。此中,消耗者需求可分为因公和因私,因公消耗特性表现为购票期比力邻近动身日期,短航路 天内,长航路天内,对价钱不敏感,次要存眷时辰、效劳,对航空公司忠实度较高。因而,在因公客源充沛的京沪等支线天内的价钱明显进步。而从周期上看,周六因公客源少,为全民航价钱高地。因私消耗特性表现为购票期相对动身日期较远,但疫情后因私客源的购票期较疫情前也更加邻近,价钱敏感,对航空公司忠实度低,节沐日出行集合收集宁静手艺自学,因而春运、国庆、五一等节前、节末顶峰都呈现一票难求征象,机票价钱居高不下,而节中错峰出行则可购到优惠票价。

  影响飞机票价钱的次要身分为供需干系。以供需干系为根底,辨别航路、时节、时辰、效劳等,停止不同、静态调解舱位开放,体如今市场上统一航路同天差别时辰、同月差别日期、同年差别月份,贩卖价钱差别。

  今朝获得网上买卖数据的路子次要有野生收罗和企业报送。野生收罗数据时需求将每笔数据手动记载,易发作记载毛病;当规格品缺失机,采价职员在网上找到适宜的交换规格品费时吃力且客观认识较强。操纵爬虫手艺获得的网上买卖数据可主动存储,并且能够按照消耗量、商品特征等停止排序,更加便利的找到适宜的替换规格品,削减客观判定的影响,进步数据精确性实景三维手艺纲领。企业报送数据易遭到多种客观身分影响,呈现拒报、迟报、漏报等状况实景三维手艺纲领,而爬虫手艺可操纵法式主动获得数据实景三维手艺纲领,数据可得到性大幅进步。

  今朝CPI一样平常查询拜访中,多个根本分类触及网上数据,如家用电器、飞机票、留宿等,但多以野生在牢固工夫收罗网上买卖价钱。因为野生网采的事情服从较低,网上采价所触及的规格品数目、品种、收罗频次等方面都有必然的限定。相较而言,操纵爬虫手艺获得网上买卖数据的方法,在收罗频次、数据信息的丰硕水平和数据质量上有着较着的手艺劣势。

  对差别数据爬取方法获得的月均价停止比照。将提早差别工夫爬取的月均价、三旬均匀的月均价、五周均匀的月均价比照,成果显现:提早15天爬取数据计较出的机票月均价较高且三种方法数据差异较大,提早10天和5天爬取数据计较出的机票月均价三种方法差异较小,提早5天爬取数据计较出的月均价相对较低,此中,别离提早5天爬取每旬价钱数据然后计较出的月均价最低且每旬之间价钱颠簸相对安稳。另外一方面,在一样平常事情中,思索事情便利操纵和服从成绩,爬取每周的价钱操纵相对庞大,并且月初和月末周很难朋分成完好的一周,每个月收罗的数据会存在偏向;提早5天爬取一个月的数据时月初和月末数据提早工夫差别较大且月末的数据不契合消耗者购票风俗。因而,可肯定机票数据爬取方法为别离提早5天爬取每旬的数据,而且与现行轨制请求相同一。

  计划肯定后,由专业手艺职员编写法式大概操纵现有的爬虫东西停止数据爬取,计较机主动爬取过程当中需按时检察处理非常成绩,碰到法式中止、数据未实时保留等状况时,需实时更新法式处理手艺困难。在数据爬取中呈现网页改换、商品信息变更、商品缺失等特别状况时,需求由专业统计职员按照国度统计局订定的《收集买卖价钱收罗操纵法子》停止标准处置。比方,在商品缺货时需断定该商品是临时缺货、时节性缺货大概是永世缺货,并按照采价准绳肯定相沿价钱仍是交换规格品;在收罗的网站(即线上采价点)封闭时肯定新的采价点等。差别种别商品和效劳的采价和规格品交换请求、改换采价点的请求等都有详细轨制划定。这些需由专业的价钱统计职员按照请求停止处置,并记载保存。

  起首,肯定使用爬虫手艺的商品和效劳种别。住民消耗价钱查询拜访要查询拜访的商品和效劳包罗8个大类、268个根本分类,跟着网上消耗的开展,险些一切种别商品和效劳都可完成网上购置。但就CPI查询拜访而言,并非一切种别商品和效劳均有须要经由过程爬虫手艺收罗网上价钱。比方,部门商品网上消耗占比不高,袋装醋、散装食物等仍以线下消耗为主,烟等商品不在网上贩卖。又如,水、电等由当局订价的资本型大众产物变更不频仍,野生采价反而愈加烦琐。因而,需分离实践状况,按照住民消耗风俗、消耗量、商品价钱特性等,科学选定利用爬虫手艺采价的商品种别。其次,肯定爬取数据的根本准绳。操纵爬虫手艺获得网上买卖数据时仍旧要对峙CPI采价的“三定”准绳。即由指定的专业手艺职员和CPI统计职员在牢固的工夫段连续爬取统一网站的数据。最初是手艺撑持前提。今朝爬虫手艺的开展曾经较为成熟,可以使费用很高,不论是体例法式仍是操纵现有的软件,都有很多可供参考的案例。爬虫手艺获得网上买卖数据存储情势多种多样,次要包罗文本文件,如 TXT、JSON、CSV 等;数据库文件实景三维手艺纲领,如干系型数据库SQLite、My SQL、Oracle、SQLSever、DB2等,非干系型数据库Mongo DB、Redis等。

  经由过程前述基于爬虫手艺获得网上飞机票价钱数据的定性和实证阐发,住民消耗价钱查询拜访中使用网上爬虫数据能够进一步进步收罗频次和代表性,有益于愈加精准地反应某些种别商品和效劳的价钱变更信息收集宁静手艺自学,但同时也面对着缺少专业手艺支持和数据处置难度大等艰难。思索到以上成绩,能够现有查询拜访轨制为根底,按照差别种别商品和效劳特性订定差别的使用计划,逐渐促进爬虫手艺所获得网上买卖数据在CPI查询拜访与指数体例中的使用。

  本部门以飞机票为研讨案例,接纳定性阐发与定量阐发相分离的办法睁开。一是接纳文献阐发法和定性研讨办法,经由过程对海内国际相干材料的阐发,对有关飞机票运营公司停止调研,梳理现有研讨功效,为本研讨肯定研讨工具、研讨途径和办法等供给无益的鉴戒。二是接纳实证研讨、比照阐发等办法,阐发爬虫手艺获得的网上飞机票价钱数据特性和纪律,分离实践从操纵层面讨论爬虫手艺获得的网上买卖价钱数据在CPI统计查询拜访中的使用办法。

  不敷:一是数据工夫段较短。遭到爬取服从的限制,本次只爬取了10次用时一个多月的数据,数据量较大但涵盖的工夫较短,研讨中仅利用了一个月的数据,数据能够呈现必然的偏向。二是依托第三方获得数据。本次研讨借助于第三方公司来抓取数据,统计体系内职员还未有过自行抓取数据的测验考试和理论,数据滥觞存在不不变身分。

  飞机票的订价机制分为当局指点价和市场调理价。当局指点价按照《民航海内航空运输价钱变革计划》及一系列调解价钱计划订定,航空运输企业在境表里贩卖海内航路客票时,将以均匀每人每千米0.75元作为海内各航路%、下浮不设限根底上自行订价。市场调理价由航空公司按照市场和合作状况自行订定,但需报备民航局,民航局对每一个航季可调解的市场调理价航路条数和调解幅度均有具体划定。航空公司在订定海内机票价钱时实施多品级票价办理,经由过程收益办理中的舱位开放,终极决议市场上的售卖价钱,即在全票价根底上每一个舱位界说差别的票价扣头。

  爬虫手艺获得的网上买卖数据另有助于完成代表规格品和采价点的拔取和交换事情。根据爬取的规格品数据的差别参数停止排序,能够愈加便利地找到贩卖量大、代表性强的规格品,在规格品缺失机可较快找到同质可比的规格品停止交换。别的,爬虫手艺服从高,可恰当增长网上采价点的数目和范例,既能够进步采价点的代表性又能够在采价点封闭时更好地替换原采价点。

  差别航空公司数目下旬均价走势和月均价。在牢固了收罗工夫后(提早5天收罗数据),以得出的整体数据旬均价走势和月均价为尺度,按照航空公司范围巨细、航路数目逐渐剔除数据。如在数据剔除后,与局部数据旬均价走势和月均价连结分歧,即能够为所剩航空公司及其航路数据能够代表整体。分差别航空公司计较旬均价,拔取上中下三旬均存在的航空公司,剔除上旬的重庆航空(20条数据)和中旬的多彩航空(15条数据),经剔除后航空公司每旬有27个,占比力大的有18个,占总数据量在95%以上。

  旬均价状况。从抓取的局部数据平分别提早5天、10天和15天拔取6月1日-6月10、6月11日-6月20日、6月21日-6月30日每旬的数据,计较飞机票旬均价,操纵旬均价计较全月均价。

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186
  • 标签:网络爬虫采集数据
  • 编辑:田佳
  • 相关文章