计算机基本网络知识网络基础知识ppt网络技术支持工程师

来源：互联网
|
2024-05-27
|
0 条评论
|
T小字　 T大字

　　在 Schema.Org 中还能够查到一些干系列表大概叫干系辞汇表，这些列表能够带来两个益处

　　在 Schema.Org 中还能够查到一些干系列表大概叫干系辞汇表，这些列表能够带来两个益处。

　　有向图暗示法曾经在很多计较机科学范畴中都有所使用，比方，数据流图、二进制决议计划图、形态图等等。我们次要思索了常识图谱中最为盛行的两个详细使用：经由过程互联网整合常识、整合企业中的数据。会商这些使用的同时，也会凸起解说利用常识图谱时的立异和差别的地方。

　　以是我们需求利用线性代数手艺（比方奇特值合成）来低落矩阵的维数，使其有松散的暗示。由此发生的对应词的向量称为词嵌入，今朝经常使用的典范词嵌入向量的长度为 200。

　　而跟着近几年的开展，这些算法不单单完成了最根本的辨认使命，还能够提取并存储工具之间的干系用于进一步的处置和推理。如今，我们将会商怎样经由过程天然言语处置和计较机视觉手艺主动创立常识图谱。

　　因而，Wikidata 的筹谋人经由过程利用常识图谱停止存储和推理收集根底常识ppt，处理了辨认等价干系的成绩。

　　常识图谱就是一种天然序言，能够将文本中多个部门提取到的信息停止互相联系关系。比方从图 6 的句子中，我们能够提取到阿尔伯特 - 爱因斯坦、德国、实际物理学家和相对论等实体；和诞生地、职业和开展等干系。一旦将该部门常识整合到更大的常识图谱中，就可以够利用逻辑推理得到更多的链接（如图中虚线所示）。

　　使用法式能够操纵常识图谱这类数据构造存储信息。信息经由过程野生输入、主动和半主动的办法组合增加到常识图谱中。不管接纳哪一种办法输入常识信息，只需记载的信息能被人们轻松了解和考证就好。

　　语义收集办法的一个主要使用是能够获得常识主体（ontologies）。常识主体是常识图谱中干系的正式形貌。比方在图 3 中，常识主体是由都会、国度等观点收集根底常识ppt，部门、不异等干系和它们的正式界说组成的。经由过程这个常识主体，我们能够揣度出温特图尔位于瑞士。

　　金融消息报导说，由于盛行病的缘故原由 “Acma 批发公司” 申请停业，因而很多与它相干的供给商将面对财政压力。而这类压力会经由过程供给链停止通报，激发其他客户的财政艰难。好比，假如作为 Acma 供给商的 A 公司正面对财政压力，那末作为 A 公司供给商的公司 B 也会阅历如许的压力。这类供给链干系是一个名为 Factset 的贸易数据集合的一部门。在 360 度视图中，未来自 Factset 的数据和金融消息的数据与客户内部数据库相分离。

　　很多对图的计较能够简化为导向。比方，想在交情常识图谱中找到 A 这小我私家伴侣的伴侣，就可以够在这张图中先找到与 A 标识表记标帜为伴侣干系的节点 B，然后经由过程递归就可以够找到一切和 B 有伴侣干系的节点 C。

　　恰是由于常识图谱具有易于创立、可视化的形式和内置的阐发操纵等长处，以是垂垂成为将数据转化为智能的一种支流计划。

　　与此相反，Wikidata 在对温特图尔的表述中，有一个名为孪生行政机构的干系，此中包罗安大概市。在常识图谱中把这类干系界说为对称干系，以是 Wikidata 在安大概市的页面中也会主动包罗温特图尔。

　　Vinay K. Chaudhri, Naren Chittar, Michael Genesereth

　　将图 7 的左图输入图象了解体系，就会天生右边的常识图谱。常识图谱中的节点就是目的检测的输出。今朝计较机视觉的研讨重点是开辟一种能够准确揣度物体之间干系的手艺，比方上图中人拿着桶，马从桶里吃工具等等。而右侧显现的常识图谱，可觉得视觉问答供给根底。

　　我们方才提到的 AI 的常识暗示是以自上而下的方法驱动的，也就是说起首需求开辟一个天下化的模子，然后再利用逻辑推理算法得出结论。

　　野生智能个别能够暗示实在的天下，并用这类暗示停止推理。以是野生智能范畴的中心成绩就是如何提出更好的暗示，以许可个别存储信息并揣度出结论。

　　起首，用多个数据滥觞的配合干系，能够更简单肯定逾越多个数据集的查询成果。而假如倒霉用这类配合干系，就需求肯定它们之间的语义干系并停止恰当翻译。举一个逾越多个滥觞停止查询的例子：在舆图上显现死于温特图尔的人的诞生都会？搜刮引擎能够利用这个查询去检索常识图谱的信息，并返回相似图 2 那样的终极成果。在返回的搜刮成果中利用构造化信息是今朝支流搜刮引擎的一个尺度特征和开展趋向。

　　比方，单词 I 在单词 like 中间呈现了两次，在单词 enjoy 中间呈现一次收集手艺撑持工程师。因而，这两个单词次数别离计为 2 和 1，其他单词为 0。我们能够用相似方法计较其他单词，成果如表 1 所示。凡是这类矩阵被称为词共现次数（word co-occurrence counts），每一个单词的寄义由对应行中的词向量暗示。以是能够经由过程计较单词对应向量之间的类似度来暗示单词之间的类似度。但实践上，我们感爱好的文本能够包罗数百万个单词，从而获得一个稠密矩阵。

　　常识图谱在野生智能范畴中也被称为语义收集，野生智能个别很早就被用来存储天下常识，而如今曾经使用到计较机科学的各个范畴。固然另有很多其他办法与语义收集一同并行开展，好比观点图（conceptual graphs）、形貌逻辑（description logics,）和划定规矩言语（ rule languages）等等。某些状况下，几率图模子能够获得不愿定的常识。

　　（a）注释常识图谱的根本术语、观点和用法；（b）引见常识图谱的使用为什么在近来忽然盛行起来；（c）将常识图谱置于野生智能的团体情况中引见。

　　我们先快速回忆一下之前 AI 对常识的暗示，然后重点阐述当代 AI 算法怎样利用常识图谱。

　　最初，Wikidata 次要用于提拔收集的搜刮机能。虽然 Wikidata 还可使用在阐发和可视化方面，但它在收集上的功效倒是最使人注目和简单了解的。

　　最新版本的 Wikidata 有超越 9000 万个工具，这些工具之间有超越 10 亿个干系。Wikidata 经由过程自力数据供给者公布的 414 种言语的 4872 个差别图录来成立它们之间的联络收集手艺撑持工程师。

　　第三，Wikidata 中主动提取到的一些数据信息，必需是简单了解并根据 Wikidata 的编纂战略停止考证后才会利用。

　　Wikidata 的数据来自于几个自力的供给者收集根底常识ppt，如美国国会藏书楼。经由过程利用温特图尔的 Wikidata 标识，美国国会藏书楼能够轻松地将公布的信息与 Wikidata 中关于温特图尔和温特图尔的其他信息联络起来。经由过程在中公布利用中的干系，Wikidata 能够很简单成立起链接干系。

　　有向标识表记标帜图记为一个四元组 G=(N,E,L,f)，此中 N 是节点的汇合，E⊆N×N 是边的汇合，L 是标签汇合，f:E→L 是一个从边到标签的函数。标签 B 与边 E=(A,C) 能够看做是一个三元组 (A,B,C)，如图 1 所示。

　　从搜刮成果中能够看出，温特图尔位于瑞士，其海拔高度为 430 米等信息。这些信息是间接从温特图尔的维基百科页面信息框中提取的。而信息框中的数据是经由过程查询一个名为维基数据（Wikidata）的常识图谱来得到的。

　　在谷歌上搜刮 “苏黎世温特图尔” 的成果显现在图 2 的左边，而维基百科的相干搜刮成果显现在右边，右边的页面也被称为信息框。

　　因为 “姐妹都会” 和 “孪生都会” 都是维基百科中的一种题目，二者之间并没有明白的界说或干系，以是很难发明二者的差别。

　　词嵌入办法经常使用于进修言语模子，来猜测在已知单词序列状况下，下一个最有能够呈现的单词。而更初级的使用是将词嵌入与常识图谱一同利用，比方，只需常识图谱将频次较低的单词编码为频次较高词的下义词，那末频次较低的单词就可以够反复利用频次高单词的词嵌入向量。好比由伴侣干系图谱计较出的图嵌入，就可以够间接用来保举新伴侣。更初级的图嵌入用法就是链接猜测，好比能够在公司图谱上利用链接猜测来辨认潜伏新客户。

　　即便利用自下而上的方法创立常识图谱，仍旧要正视形式的设想和语义界说。固然主动化手艺能够在某些步调中能够放慢创立常识图谱，但野生考证和监视仍旧是必不成少的。操纵典范常识图谱手艺、机械进修、众包和可扩大计较等当代东西的协同感化，曾经开拓了一个惹人探究的新范畴。

　　而现在呈现了许多自下而上的野生智能办法，即一种能够处置数据并从中得出结论和看法的算法。接下来，我们将会商常识图谱在两个标的目的的开展：进修常识和向 AI 算法输入范畴常识。

　　维基百科页面还列出了温特图尔的孪生都会：两个在瑞士，一个在捷克共和国，一个在奥天时。加利福尼亚州的安大概市在维基百科上有一个名为 “安大概，加利福尼亚” 的页面，它将温特图尔列为其姐妹都会。而姐妹都会和孪生都会的干系是对等的，因而，假如都会 A 是另外一个都会 B 的姐妹（孪生）都会，那末 B 也必然是 A 的姐妹（孪生）都会。

　　常识图谱（KGs）是近来十分热点的一个观点。它能够构造构造化的天下常识，并能够整合从多个数据滥觞中提取到的信息。常识图谱曾经在天然言语处置和计较机视觉提取到的信息暗示方面阐扬主要感化，好比将常识图谱暗示的范畴常识输入到机械进修模子中，就可以够发生更好的猜测成果。

　　好比晚期的野生智能语义收集就从未到达过现今常识图谱的范围和水平。由于其时难以构想一个自上而下的数据集成计划，也没法了解机械进修的数据驱动素质，以是不能不接纳自下而上的办法创立常识图谱。而当代常识图谱的创立，则大批利用主动化手艺和众包来弥补野生常识工程。

　　按照近来的统计成果显现，31% 的网站，超越 1200 万的数据供给者正在利用 Schema.Org 的辞汇表来公布他们的网页正文。

　　按照使用的详细需求，有向标识表记标帜图的利用方法多种多样。例若有向标识表记标帜图中的节点是人，而边形貌了他 / 她与怙恃的干系，那末这个有向标识表记标帜图也能够叫做数据图。假如有向标识表记标帜图中的节点是物体种别（比方，书、讲义等），边形貌子类之间的干系，那该有向标识表记标帜图也被称为分类。另有的数据模子会给定一个三元组 (A,B,C)，此中 A、B、C 别离称为该三元组的主语、谓语和宾语。

　　我们用词嵌入为例子，来注释图嵌入。是由于从底子上二者的目的是类似的：词嵌入捕捉词的寄义并能够计较单词之间的类似性收集手艺撑持工程师，而节点嵌入捕捉图中节点的寄义并计较节点之间的类似性。并且用来计较它们类似性的办法也很相似。

　　常识图谱是一个有向标识表记标帜图，能够将详细寄义与节点和边联络起来。任何工具都能够作为节点，比方，人、公司、计较机等。边用来形貌节点之间的干系，比方，两小我私家之间的交情干系，公司和小我私家之间的客户干系或两台计较机之间的收集毗连干系等等。

　　因为常识图谱形式具有可视化性，因而营业专家更简单明白他们的请求。以后经由过程常识图谱引擎未来自差别滥觞的数据停止加载。三元组的存储格局许可只翻译那些与营业范畴专家界说的形式间接相干的干系。不外其他的数据仍旧能够以三元组的情势加载，以削减将它们与界说的形式联络起来的前期本钱。而且常识图谱利用的是通用的三元组形式，在阐发过程当中很简单写入需求改动的需求。

　　比年来，在图象分类和目的检测范畴上的研讨获得了很大的停顿收集根底常识ppt。计较机视觉算法大批利用机械进修，如分类、聚类、近来邻，和轮回神经收集等深度进修办法。

　　计较机视觉的终极目的是可以完整了解图象，包罗准确地检测物体，形貌物体属性并辨认物体之间的干系。更好地了解图象也可觉得图象检索、问答体系和机械人交互等使用供给撑持。

　　很多金融机构期望经由过程 360 度全方位视角来更好地办理客户干系，由于这类视图能够把统一客户的内部信息和内部信息整合在一同。

　　为了使互联网愈加智能，万维网同盟（W3C）对一系列常识暗示言语停止了尺度化，现在曾经普遍地使用在互联网上获得常识。这些言语包罗资本形貌框架（RDF）、Web 本体言语（OWL）和语义 Web 划定规矩言语（SWRL）。

　　在野生智能中最多见的就是将有向标识表记标帜图作为数据图的情势利用，在数据集合则是以分类法（ taxonomies）和常识主体（ontologies）的情势呈现的。普通来讲，这类使用的范围比力小，而且是经由过程自上而下的设想和野生常识工程创立的。

　　比方，未来自财经消息的公然信息、贸易滥觞信息和筹谋的供给链干系数据与客户的内部信息整合起来，就可以够创立一个 360 度视图。

　　句子是由单词序列组成的，而词嵌入是计较单词在句子中的共现次数。我们能够将这一思惟推行到图的节点嵌入中收集手艺撑持工程师，办法是:（a）利用随机游走遍历图获得一条途径，（b）经由过程反复遍历图得到一组途径，（c）就像计较单词在句子中的共现矩阵一样，计较节点在这些途径上的共现次数，（d）计较出的共现次数矩阵每行对应一个节点的向量收集手艺撑持工程师，（e）接纳适宜的降维手艺得到维度更小的向量，这称为节点嵌入。

　　最初，为了答复那些需求遍历数据中图干系的成绩，需求对当代常识图谱引擎停止高度优化。好比图 5 中的示例，图引擎曾经内置了一些操纵来辨认供给链收集中的中心供给商、干系亲密的客户或供给商群体和差别供给商的影响范畴。这些计较都是操纵与范畴无关的图算法停止的，好比 centrality detection 和 community detection。

　　而常识图谱这类数据构造就可以很好地捕捉范畴常识，但机械进修算法需求标记或离散构造的输入。以是起首要将常识图谱转换成数字情势，好比利用词嵌入或图嵌入办法就可以够将标记输入转换为数字情势。

　　几年前，天然言语处置（NLP）和计较机视觉（CV）算法就可以够很好地从文本中辨认言语和从图象中检测目的。

　　假如能够把 Wikidata 的常识图谱完整整合到维基百科中，就可以够消弭例子中提到的缺失链接的状况。我们能够在图 3 中直观地看出温特图尔和安大概市间的双向干系。别的，图 3 的常识图谱中还显现了与温特图尔和安大概市相连的其他工具及干系。

　　虽然 Wikidata 曾经胜利地吸收了一批标注人群，但实践上野生创立常识图谱的本钱照旧很高。因而，我们十分等待能够经由过程主动化的方法来创立常识图谱。

　　由此发生的常识图谱就可以精确地跟踪 Acma 供给链，辨认出有差别支出风险的受压供给商和值得监测的公司。

　　提取的办法次要分为基于划定规矩的办法和基于机械进修的办法。基于划定规矩的办法是操纵句子的语法构造，大概指定好从输入文本中辨认实体和干系的办法。而机械进修的办法操纵序列标注算法或言语模子来提取实体和干系。

　　图嵌入就是将全部图编码成一个向量。有许多办法能够计较图嵌入，但最简朴的是为图中的每一个节点增加节点嵌入向量，以得到暗示全部图的向量。

免责声明：本站所有信息均搜集自互联网，并不代表本站观点，本站不对其真实合法性负责。如有信息侵犯了您的权益，请告知，本站将立刻处理。联系QQ：1640731186