语录网句子大全 句子的词频,bert算法的优缺点

句子的词频,bert算法的优缺点

BERT 模型是将预训练模型和下游任务模型结合在一起的,也就是说在做下游任务时仍然是用BERT模型,而且天然支持文本分类任务,在做文本分类任务时不需要对模型做修改。谷歌提供了下面七种预训练好的模型文件。

BERT模型在英文数据集上提供了两种大小的模型,Base和Large。Uncased是意味着输入的词都会转变成小写,cased是意味着输入的词会保存其大写(在命名实体识别等项目上需要)。Multilingual是支持多语言的,最后一个是中文预训练模型。

提出bert对句子进行编码的向量存在各向异性,向量值会受句子中词在所有训练语料里的词频影响,导致高频词编码的句向量距离更近,更集中在原点附近。

这会导致即使一个高频词和一个低频词的语义是等价的,但词频的差异也会带来很大的距离偏差,从而词向量的距离就不能很好地代表语义相关性。

和人判断句子的语义不受词频影响也不符合,所以需要修正句子的向量分布。

句子的词性指的是名词,动词,形容词,副词,代词,数词等,这些词可以用作句子的成分,如名词,代词可以做主语或宾语,动词做谓语,形容词做定语,副词做状语等。

是一个语言学术语,是一种语言中词的语法分类,是以语法特征(包括句法功能和形态变化)为主要依据、兼顾词汇意义对词进行划分的结果,现代汉语的词可以分为12种词类。

句子的词性有主谓宾,定语,状语,补语。

主语:主语(subject) 是一个句子的主题( theme), 是句子所述说的主体。

它的位置一般在一句之首。

可用作主语的有单词、短语、从句乃至句子。

1.名词作主语。

如:A tree has fallen across the road. (一棵树倒下横在路上。

)Little streams feed big rivers. ( 小河流入大江。

)2.代词用作主语。

如:You’re not far wrong. (你差不多对了)。

形容词 名词 动词 量词 等等

词频(term frequency,简称TF)是指文件中词汇出现的频率或是次数,是衡量一个词汇重要性的一种指标。

而语境则是指使用语言的环境。内部语境指一定的言语片断和一定的上下文之间的关系,外部语境指存在于言语片断之外的语言的社会环境。

词频,是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重复程度。词频统计为学术研究提供了新的方法和视野。

语境是言语环境或使用语言的环境的简称,也指人们使用语言进行交际的环境,也叫“交际场”。

语言文字虽然复杂,但不是没有痕迹可循。我们平常说的口头禅就是我们在语言中经常出现的高频词,代表我们的语言风格,因此对词频或者字频进行统计,有其特定意义。

在词频统计领域:哈佛大学的齐夫老师做了开创性的工作,提出了齐夫定律:

即词的频次和他的等级相乘是一个常数。

这个定律本人正在使用软件验证,大概一个月后有详细的验证结果出来。

方案一:借助Excel

如果使用场景是偶尔统计一篇文章不长的词频,可以使用excel:

(Excel 2007~2013的版本里,一个单元格最多容纳32,767个字符,也就是说目标文章不能超过32,767个字,不然就得分割开统计)

(如果经常使用,可以给Excel录制宏)

步骤1:统计一个字词、两个字词、三个字词、四个字词……n个字词出现的频率

注:

B3单元格内输入的是目标文章全文

C3是全文字数(含标点符号),D3内容即是C3所用的公式

B6是序号1~序号1276

C6的公式含义为在B3里取目标字符,该目标是从第B6个字符开始,字符长度为1,D6为C6公式内容

E6为统计C6~C1281区间内,C6这个字符出现的频率

为便于显示文末部分,Excel第16行至1269行的内容已隐藏。

如果文章为英文,那更简单,可以将B3内容以空格为分列符号进行分列操作:选中B3,点击菜单[数据]-[分列]-[分隔符号],勾选[空格],完成。完成后单词会按“一个单词占一个单元格”形式列为1行。全选后复制、“选择性粘贴”-“转置”,即可将单词列为上图C列的效果,再同样用F列的公式统计一次即可。

步骤2:将上述统计表格以“选择性张贴”-“粘贴值”形式粘贴到第二张Sheet,对各颜色区域分别作词频降序排序(例:同时选中B4、C4,按Ctrl+Shift+L,对词频降序排序,后同)

步骤3:选中一种颜色区域,作“删除重复项”操作,其余颜色区域操作相同。工具位置见鼠标指针

步骤4:将双字词、三字词、四字词等内容进行人工删选,删去不是词语的部分,忽略词频较少的部分,汇总后即为词频统计结果。

注:由于没有词库,此部分只能人工删选。

如果有词库,可以将上表结果合并成B、C两列(词语、词频两列),再在第三列D粘贴词库,第四列E再作一次countif公式,如:E5=COUNTIF(D:D,B5),统计B5在词库中出现的次数。

E列的结果只有2种:1(B列的词语存在于词库D中),0(B列的词语不存在于词库D中)。

然后对E列结果作筛选,仅显示结果为“1”的内容,隐藏D列,结果就出来了。

方案二,使用工具:

汉语词频统计工具

与网上流传的词频统计软件相比,这款比较简单,只能统计中文,但免费。得到统计数据后还需借用Excel排序下。.

:词语出现的频率.在输入法中,有词频调整一说,词频调整功能指将用户使用频率较高的重码词语调整到靠前的位置上甚至是第一位,这样下次输入这个词语的时候就不必翻页了

打开输入法设置,把输入法的“联想输入”的选项打开。

要自己常用的词语或句子出现打开“词频调整”的选项。

本文来自网络,不代表语录网立场,转载请注明出处:https://www.chinansn.com/article-1-r20220628170021b4f2zu-0.html