咨询热线

400-123-4567

您当前的位置: 首页 > 新闻资讯 > 行业新闻

回顾术语标准化与信息技术2001年第一期:语言学职业生涯的起点与转型

文章作者:佚名    时间:2025-03-17 03:34:50

这篇简短的文章发表在2001年的“术语标准化和信息技术”的第一期中,已经存在了20年。这是我在业余语言学研究中发表的最后一篇文章。本文不仅标志着我作为语言研究爱好者的身份的终结,而且还揭开了我在语言学领域的职业。 20年前,在北京广播学院主要大楼三楼的会议室里,我遇到了刘·吉南总统。其中包括广播学院的院长李小华教授,当时的人事部门主任兼组织部主任兼总监。 2002年,我加入了应用语言学,北京广播和音频学院。这篇简短的文章还打开了我的语言研究方法的转变。在我的业余时间,由于条件的局限性,我所谓的大多数研究都是投机性的,或者我可以举一些例子,并用自己的大脑对其进行处理并写一些想法。这篇简短的文章对一些基本语言问题的反思使我感到,作为一名专业语言学家,如果我继续这样,我该怎么办?

我记得几年前,在一次工作报告辩护会议上,一位专家建议,作为一名高级学者,我不应该总是从事这些基于数据的经验研究,并且我可以从哲学的角度做适当的事情。我说我在业余时间做了。回到本文的内容,许多问题仍然对今天具有实际意义。当然,有些想法已成为当今自然语言处理的主流,例如基于用法,人力计算机智能综合体等NLP。在过去的二十年中,我们还发现了通过真实语料库的许多有趣的人类语言操作定律。这些法律可以更好地反映人类的现实,因此已应用于人工智能,第二语言习得和特殊人口语言的领域。近年来,我们对人工智能时代的语言研究的一些想法可以在本文结尾的扩展阅读部分中看到。在情报时代,语言智力很难没有语言,但这并不意味着语言学家必然会有用,因为人类智能并不等于人工智能。

1。语言和智力

使用人造物体模仿人类某些智能行为的想法可以追溯到16世纪和17世纪。语言是反映人类智能行为的最重要的智力特征和外部化,长期以来一直被视为认识和揭露人类智力奥秘的关键。在计算机出现之前很久,人们试图解决某些只有人类才能通过计算或机械方法完成的语言处理功能。在将计算机作为扩展人类智能在1940年代扩展人类智能的工具之后,第一个在人文学科中应用的项目 - 机器翻译 - 也与语言有关。这绝不是偶然的,而是该领域人类研究和探索的必然结果。计算机模仿人类语言处理能力的努力已经在计算机科学和语言学上产生了特殊的分支:自然语言处理和计算语言学。两者的本质基本相同。差异可能只有自然语言处理对实践更加关注,而计算语言学则更多地关注理论。还可以说,计算语言学是构建自然语言处理系统的理论基础。为了方便起见,本文在使用时不会区分此术语。应该说,在过去的几十年中,人们使用计算机来处理自然语言已经取得了某些成就。这些成就反过来对人类了解自己的语言有很大帮助。但是,总体进步并不乐观。仍然有很多问题要解决,还有许多理解需要区分。为了更好地解决这个问题并认识到它的症结,我们有必要从多个角度和学科来扩大视野,研究并思考这个问题。

人类语言的历史有多少年_人类语言产生年代_人类语言出现

人工智能是一项使用计算思想和方法来研究智能的学科。换句话说,人工智能是对使用计算机和其他人造物体的人类智能行为的模拟研究。目前,我们对人类智力的机制并不十分清楚,这给模拟这种行为带来了困难。人类是语言的动物。语言是将人类与其他动物区分开的特征之一。它也是人类表达知识,传达知识和交流思想的最重要工具。语言是人类最明显的智能行为。因此,一些学者提出了这样的观点:“语言的分析过程是人类本身的解剖过程,也是人类智能机制的分析和认知过程。”自然语言处理是人工智能领域中最有意义,最困难的分支,多年来吸引了许多研究人员。为了模拟人类语言处理能力,有必要对语言现象有必要的理解。根据我们的理解,没有语言理论的自然语言处理系统很难成为人类语言处理机制的真实模拟系统。但是,在仔细阅读和分析了语言学和其他相关学科中的大量文献之后,我们发现问题并不那么简单,它涉及大量学科,例如哲学,逻辑和心理学。思考这个问题只能在人类对自己的理解的悠久历史中考虑。

语言和人类思维密切相关,这已经得到了许多相关研究机构的证实。在某些学者的眼中,语言不仅是人类传达知识的工具,而且是知识的主要载体,甚至是人类知识定义手段。在这里,我们不可能在这里讨论这种说法是否过分强调语言对人类的重要性,但是毫无疑问,语言的研究有助于解读人类智力的奥秘。

2。可以计算语言吗?

为什么我们认为计算机可以模拟人类语言处理机制,甚至可以模拟人类的整个智能行为?要将语言材料作为定性,离散的机器处理,您必须首先了解该语言的结构和其他特征,这要求人们准确地将语言和其他必需材料的结构重写为计算机可以理解的程序和数据结构。显然,这个想法的理论基础可能是“世界由大量离散事实组成”。换句话说,关于世界上一切的知识可以描述为所谓的“知识因素”。支持这一说法的哲学主张可以追溯到柏拉图的理论,后来又是莱布尼兹,休ume,罗素和维特根斯坦的著名人物。借助理想的设备(计算机)处理离散事实和这些哲学理论的支持,人们相信我们可以构建柏拉图探索的世界:一个保证清晰,确定性和控制的世界。在人工智能研究人员的眼中,它是一个由数据结构,决策理论和自动化组成的世界。但是,在完全表达这种确定性之前,哲学家自己开始怀疑这些陈述,其中最传奇的是维特根斯坦,他在后来的《哲学研究》一书中对他在“逻辑哲学理论”中提出的论点提出了深刻而严厉的批评。维特根斯坦(Wittgenstein)的转变是当代哲学研究的“语言转变”中的重要事件。如果哲学界可以根据分解和离散性开始偏离研究取向,那么基于这一思想的人工智能(自然语言处理)社区是否也反映了自己?

对于语言的计算机处理,我们需要问的第一件事是“可以计算语言吗?”这是自然语言处理和计算语言学的基本问题。可计算的首先要求将语言分解。第一个观察这种语言特征的人是德国学者洪堡。他说:“语言面临着一个无限和无限领域,即所有可思考的对象的总和。因此,语言必须使用有限的意思是无限的,而思维力量和语言的创造力的身份可确保语言可以做到这一点。”实际上,我们对洪堡今天著名言论的理解主要是由于乔姆斯基的晋升,因此,乔构建了世界著名的生成语法理论。自1950年代以来,Qiao和他的追随者引入了许多生成语法理论的变体,其主要目的之一是限制过于强的生成语法的产生能力。因此,我们可以说语言可以通过有限规则产生无限的陈述,但是我们对这一代机制的理解并不十分清楚。我们目前对语言产生的缺乏了解导致了我们现在正在建立的自然语言处理系统中的各种问题。要借用自动化理论的陈述,这是因为无法完全理解控制对象,并且建立的数学模型无法完全反映实际情况,这会导致系统准确性的降低。正如我所在国家的机器翻译专家Liu Yongquan先生在文章的标题中说:“机器翻译最终是语言问题。”他的话也适用于其他自然语言处理领域。因为机器翻译是一个整合许多自然语言处理技术的研究领域。

人类语言出现_人类语言产生年代_人类语言的历史有多少年

尽管乔的理论到目前为止仅部分证明了语言的可电图。有趣的是,计划语言的历史已被充分证明,可以通过有限的语法规则和有限的词汇来产生无限的语言文本。尽管计划语言可以证明这一点,但使用它的是人的大脑而不是计算机。因此,我们有理由说可以计算语言,但是如何使用人工对象模拟其操作机制仍然需要进一步的研究和讨论。

3。语义和“分解”

如果我们从“分解”的思想中获得语言的“可计算性”,它也会阻碍我们在一定程度上对语言“可计算性”的进一步理解和实际应用。通过有限规则的无限文本产生通常是指语言作为符号系统的形式方面,即语言的句法方面。自然,人们还将语法领域的有效“分解”思想用于语言符号的内容,即语法领域。在语言学和计算语言学中,迄今为止,“分解”的概念已经产生了最大的语义处理方法,即“有义务”方法。专注于语义分解的理论和方法的本质是使用某些任意的“感官元素”或“语义量表”来描述意义的深层结构。从理论上讲,如果有足够的“意义”,则可以描述所有单词的全部含义。但是,实际上很难确定单词包含多少成分以及它包含的成分。这是由“语义”的基本特性 - 歧义和不确定的性质引起的。此外,每个人都对同一个词都有不同的理解,因此很难制定统一的语义尺度公式和含义。对单词形状的不同解释应被视为连续集合中的几个点 - 含义就像是无缝的织物,没有明显的边界。意义的本质是不可分割的或可查询的。可以通过使用处理无法分割的东西的方法来想象结果。语言哲学家普特南(Putnam)说:“自然语言的故事通常不能用来汲取界限:有些东西显然可以称为树,有些东西显然不能称为树,但有些东西是边缘的。更重要的是,很明显,边缘本身之间的边界还不清楚。”这可能表明,使用语义分解技术本身很难走出来,至少它不能完全解决语义问题。

由于“相似”分析方法暴露的问题和缺陷,语义研究中的热点已从过去的“类似”或“组件分析”转变为“语义场”。 “语义领域”研究的本质是人类知识的划分和代表,这种理解自然和表达世界的方法在规划语言中很普遍。在计划语言中,该方案称为先验和现象学系统。在数百种意识形态方案中,最细致的计划是推荐英国约翰·威尔金斯(John Wilkins)在1668年宣布的计划,该计划将整个世界分为40个主要类别。在40个主要类别以下,它​​进一步分为子类别和物种。为了代表这些分裂的概念,他发明了一个意识形态符号,称为真实角色。在威尔金斯之后,已经出现了许多基于人类知识分类的计划语言方案,包括数字,图像,特殊符号等。威尔金斯希望他的计划将成为人类知识表达和信息交流的通用工具,但不幸的是,他像许多其他基于知识分类的作者一样失败。顺便说一句,威尔金斯的上述计划通常被认为是17世纪人类尝试使用机械方法处理语言问题的代表。

人类对世界的理解正在不断变化,这种变化源于人类本身的进步和社会的发展。随着时间的流逝,人类知识的分类也会改变。我们认为,“语义领域”理论可以解决某些语义问题,但必须有限。因为像分析方法一样,知识被分解并基于离散化。同时,规划语言的实践证明了这种方法的局限性。

4。歧义和知识

如果我们无法使用“分解”方法令人满意地处理语义问题,那么这并不意味着语义是完全无法计算的。实际上,我们说自然语言处理的问题是一个语言问题,这是因为各个级别的自然语言都存在歧义问题。在没有夸张的句子中,自然语言处理行业的数十年发展历史是与歧义作斗争的历史。为什么这些歧义问题不会给人类带来严重的问题,而是停止对计算机对语言的理解的研究?

歧义是正确理解语言的最大障碍,因此它自然成为计算语言学语义研究的重点。语义的研究导致了计算语义的出现,其目的是研究自然语言语义的形式化理论和方法。从狭义的意义上讲,计算语义将语义分析视为计算过程,该过程通过逻辑方法处理语义问题。从广义上讲,计算语义研究是一种使用计算机来处理和模拟人类语义处理机制的方法和理论,尤其是歧义问题的处理和解散。

基于歧义结构的特征,中国计算语言学家冯·齐维先生提出了一种称为“潜在歧义理论(PA)”的理论。该理论可以客观地解释歧义的结构和消除歧义的过程。 PA比以前关于歧义问题的研究更进一步。自然语言本身充满了歧义,但它本身也提供了消除歧义的某些手段,否则语言将很难成为人类传达和保留知识的重要工具。根据进一步完善的单词类别或将语义信息引入单词类别,PA理论将原始句法结构描述的歧义格式开发到语义层面,这无疑是向前迈出的一大步,因为歧义是最初是语义水平的现象。一旦涉及语义,我们目前不可避免地不可避免地会导致我们不可避免的事情。 PA理论对各种句法组成部分的语义关系具有重要意义。可以说,这些语义关系的存在支持PA理论对歧义的新解释。但是,计算机如何理解和使用处理这些语义关系的方法还有待进一步研究。

如果将计算语义研究视为对人类语义处理机制的模拟,则分析人类的语义处理和消化方法可能是有益的。人类处理歧义的关键是,人脑中有很多知识,包括句法,语义和其他常识。使用这些知识,人们可以轻松理解计算机模棱两可的陈述。正是这种知识在某种程度上支持PA理论的正确性和可操作性。像人类一样,为了更完美地解决这个问题,计算机必须需要许多各种知识。由于计算机与人类大不相同,因此需要明确表达知识,但是许多知识含糊不清且难以量化。换句话说,找到合适有效的知识表示方法是使用现有计算资源实施自然语言处理系统的唯一方法。从理论上讲,我们不难将有关外部世界的一些知识授予计算机。世界上的知识是无穷无尽的,我们对系统消除歧义所需的知识并不十分清楚。

人类语言出现_人类语言的历史有多少年_人类语言产生年代

语义的in亵和隐式性,歧义问题的复杂性,语言理解的无穷大,语义的相关性,大规模真实文本处理的紧迫性等,所有这些因素都相互交织,使我们需要寻求新的语义处理方法和机制。我们认为,对于歧义,理解的任务是从各种结构中选择最合适,最可能的结构。请注意,我们在这里使用两个非充斥的单词“合适”和“可能”,目的是解释语言理解领域中没有绝对正确性,而只是相对“可能”。在这个想法的指导下,我们提出了基于类比原理的语义概念等于“含义等于其上下文关系的总和”和语义处理机制。目前,国际计算语言学社区非常重视的“基于语料库”的语言处理方法也是从定性到非质量的转变。这是否意味着我们上面提到的哲学转弯?这还有待时间证明。

人类处理语言的能力是一种高度聪明的行为。如果将智力理解为使用知识解决问题的能力,那么构建任何基于知识的人工系统的过程是收集知识,组织知识和计划策略以应用知识。基于人类现有的理论和技术水平,不可能构建完全取代人类智能的机器。我们认为,在此阶段,更现实的研究目标是建立一个“人机智力综合体”,以解决一些需要人类知识的问题,但仅限于某些难以实现的原因。在“人类计算机智能综合体”中,人和机器(通常计算机)可以全部发挥其各自的优势,并共同努力,以实现问题的最佳或可行解决方案。这表明建立基于“人类计算机合作和相互帮助”的语言自动处理系统的必要性和可行性。因此,我们给著名的说法“人是一台机器”是一种新的含义,人类和机器都是要构建的智能加工系统的组成部分。

语言和知识具有很强的完整性和相关性,这迫使我们在研究自然语言处理系统时必须考虑这一点,否则开发的系统将固有地缺乏且难以应对许多复杂的语言现象。语言及其人类语言的产物可以被视为人类智能行为的处理和处理的结果,并且是研究人类智能行为的最大原始资源。实际上,在人类的悠久历史中,语言(及其产品)是唯一可以看到的知识载体,也是继续人类智力的最重要的事情。对人类的特定智能加工机制的无知以及这种机制本身的不可知性使我们能够从智能行为的产品和外部特征开始,以模拟人类智能系统的处理机制。它可以被视为白色盒子和黑匣子之间的灰色仿真系统。语言学和认知心理学领域的研究结果可以视为其主要理论基础,计算语言学中的许多理论和方法都是系统实施的手段。

5。结论

研究人类对语言的研究,我们可以发现我们对语言的研究的理解和深度与社会的发展密切相关,并且与人类对整个世界的理解密切相关。也就是说:语言研究具有时代的特征。许多事实表明,我们目前正处于信息和知识往往会“爆炸”的时代。在此期间,语言研究的特征在于,语言研究不仅考虑了人类的需求,而且还要考虑机器。关于“人机共享”词典,语法等的研究成为该时期语言研究的重点。计算机的普及和国际互联网的出现使人类进入了一个新阶段。由于人之间的虚拟距离已经非常接近,因此人类不再对传统的语言交流方式感到满意。为此,如何使用计算机来解决越来越严重的人类语言沟通问题,因为它的出现已成为许多学者之前的重要任务。不幸的是,由于计算机的结构及其处理问题的方式与人类的结构基本不同,而且我们人类仍然有许多不清楚我们语言处理机制的不清楚,因此,尽管我们尽力通过计算机模拟人类语言行为,但进展很少。如果我们不孤立地看着语言的自动问题,我们将其视为人类探索过程中的链接。我们将对这个问题有新的了解。本文是基于其他字段的计算机处理问题的一些想法。

参考(省略)

扩展阅读:感兴趣的朋友还可以参考作者近年来发表的一些文章。 “大数据时代语言研究的方法和趋势”“中国语言学建设的两个主要要求:结果和科学方法的国际化”,“数据驱动的应用语言学研究”,“大数据时代的语言理论研究的路径和意义”。

结尾

地址:英语口语培训-在线英语教育    电话:400-123-4567     传真:+86-123-4567
版权所有:Copyright © 2002-2024 人生就是博(中国区)官方网站-D88.COM 版权所有    ICP备案编号:苏ICP备2022048672号    网站地图