语音
人们用语言使用的声音
语音
语言特定的声音系统
形态学
如何形成单词
句法
句子如何由单词组成
语义
句子是什么意思
语用学
如何在上下文中使用语言
这些字段每个语言显示组织的不同级别。当我们为文本数据构建监督的机器学习模型时,我们会使用这些组织级别来创建自然语言功能,即模型的预测因素或输入。这些特征通常取决于语言的形态特征,例如,将文本分解为经常性神经网络深度学习模型中的一系列字符。有时,这些特征取决于语言的句法特征,例如模型使用言论部分的信息。这些大致层次的组织层次结构是将非结构化语言转换为可用于建模的数学表示的过程的关键。
同时,这种组织和语言规则可能是模棱两可的。我们为机器学习创建文本功能的能力受语言的性质的限制。 ,宾夕法尼亚大学())的语言学家()都从新闻头条中收集了语言歧义的例子:
你什么时候
下一步
带有斧头的牛
杀死大多数
如果您不知道语言学家正在研究哪些语言以及他们对语言的了解,那么这些头条新闻将很有趣。这些对于语言学家来说很有趣,因为它们表现出一些语义歧义。
另请注意,此列表中的前两个子字段是关于声音的,即语音。大多数语言学家认为,发音是主要的,而将语言写入文本是技术步骤。
书面文字通常不像我们希望的那样创造性,并且与主要语言还很远。这指出书面文本的建模从根本上是多么限制。想象一下,我们想要的抽象语言数据存在于一些高维的潜在空间中;我们想以某种方式使用文本提取这些信息,但这不是完全可能的。我们创建的任何功能或我们构建的模型都有固有的局限性。
1.2形态
如何对文本建模通知文本建模,以深入了解语言的运作方式?让我们专注于形态学并研究单词的内部结构以及如何形成它们以说明这一点。英语单词长到很小。英语词素(具有意义的最小语言单元)的单词比例较低,而其他语言(如土耳其语和俄语)的单词比例较高(2013年)。相关的是,语言可以是分析的(例如普通话或现代英语,将概念分为单独的单词)或全面(例如匈牙利或斯瓦希里语,将概念结合在一起)。
形态的重点是诸如前缀,后缀和根部等词素如何形成单词。某些语言,例如丹麦语,使用许多复合词。丹麦语诸如“”(消防车),“”(警车)和“”(卡车)等词都包含“ bil”(汽车),并从指示汽车类型的前缀开始。由于这些复合词,有些名词似乎比其英语对应物更具描述性。 “Ørn”(浣熊)分为“词素”和“bjørn”,实际上意味着“洗熊” 1。当使用丹麦语和其他语言的复合词(例如德语)时,复合拆分以提取更多信息可能是有益的(和2018年)。但是,即使事实证明,这个单词的问题也很困难,不仅对于英语以外的其他语言。英语中的复合单词,例如“房地产”和“餐厅”代表一个概念,但包含空间。
文本数据集的形态特征与预处理步骤(例如令牌化(第2部分),停止单词的删除(第3部分),甚至是阻止提取(第4部分)密切相关。反过来,这些用于创建自然语言特征的预处理步骤对模型预测或解释产生了重大影响。
1.3不同的语言
我们认为,本书的大多数读者可能都是英语的母语者,并且当训练机器学习模型时使用的大多数文本当然是英语的。但是,英语绝不是世界各地的主要语言,尤其是作为母语或母语。作为我们家附近的一个例子,本书中的两位作者之一是本地英语,而不是。根据一个全面而详细的人种学项目,世界人口中只有不到20%的人说英语。
(2011年)为计算语言学家提供了指导,以构建任何语言的文本模型。她提出的一个具体观点是命名所研究的语言。
即使是它的名称。我们实际上可能是 - 。 ,对此,所使用的数据是在工作中的[a]。
这个想法很简单(承认我们构建的模型通常是特定于语言的),但是#已提高了对该领域现状的局限性的更加认识。我们的书不是针对开发新方法的学术NLP研究人员,而是针对从事日常数据集的数据科学家和分析师。这个问题对我们甚至很重要。命名培训模型中使用的语言(2019年),并考虑这对他们的普遍性意味着什么。我们将练习我们的讲道,并告诉您本书中用于建模的大多数文本都是英文的,有些文本是丹麦语和其他一些语言。
1.4其他更改文本的方法
语言差异的概念仅与在最广泛的语言层面(例如英语,丹麦语,德语和波斯语)之外进行建模有关。通过使用使用来自相同语言的数据训练的模型,但不包括该方言,通常无法很好地处理来自特定方言的语言。美国使用的一种方言是非裔美国人的白话英语(AAVE)。经过培训的用于检测有毒或仇恨言论的模型更有可能将AAVE误认为是仇恨言论(SAP等人,2019年);这不仅是因为该模型无法达到应该达到的准确性,而且还因为它扩大了对已经边缘化的群体的危害,这引起了深刻的困扰。
语言也随时间变化。这是该语言的已知功能。如果您注意到语言的演变,请不要感到沮丧或生气,因为这意味着人们正在使用它!十几岁的女孩在语言创新方面特别有效,并且已经过去了几个世纪(2015年);创新从年轻妇女等群体传播到社会其他地区。这是影响建模的另一个区别。
考虑两个文本,主要用标准的英语,但一个由推文组成,另一个由医疗文件组成。如果NLP从业人员在推文数据集上训练模型以预测文本的某些功能,则如果应用于医疗文档数据集,则该模型很可能(实际上,很可能)可以执行不良2。与一般的机器学习一样,文本建模对用于培训的数据非常敏感。这就是为什么我们对诸如情感分析API之类的AI产品持怀疑态度的原因,不是因为它们永远无法使用,而是因为它们仅在您需要很好地预测的文本良好匹配此类产品的培训文本时起作用。 。
1.5摘要
语言学是对语言如何运作的研究,尽管我们认为现实世界中的NLP从业者必须是语言专家,但向这些领域的专家学习可以提高模型的准确性以及我们为什么(或不这样做) 。做)理解不要!)良好的表现。文本的预测模型反映了其培训数据的特征,因此随着时间的流逝,方言之间的语言差异以及在各种文化背景下可能会阻止在一个数据集上培训的模型适合另一个数据集。大量文本建模文献集中在英语中,但英语不是世界上的主要语言。
1.5.1在本节中,您了解到:
版权声明:本文为 “博览广文网” 原创文章,转载请附上原文出处链接及本声明;
工作时间:8:00-18:00
客服电话
0755-88186625
电子邮件
admin@lanyu.com
扫码二维码
获取最新动态