loder

情感分析

针对带有主观描述的中文文本,可自动判断该文本的情感极性类别并给出相应的置信度。 情感分析引擎依托强大的机器学习能力和文本挖掘引擎,不断完善算法模型,以基础NLP能力为技术支撑,联系上下文,深度理解语义,分析和识别文本中表达的情感状态,如正面、负面、中立等。

文本分类

文本分类将文本按照预设的分类体系进行自动分类,支持娱乐、体育、科技等多个主流内容类型。基于语义联想、句法分析等技术,通过半监督学习引擎的训练,只需少量的数据标注就可以达到高准确率的预测。在个性化推荐、文章聚合、文本内容分析等场景具有广泛的应用价值。

实体识别

实体识别用于从文本中发现特定类型的事物名称或符号,例如人名、机构名、时间、地点等。 实体识别是语义分析中的重要的基础,是情感分析、机器翻译、语义理解、知识图谱构建等任务中的重要步骤。 我们基于自主研发的算法可通过对行业语料的进一步学习,从而达到更高的准确率。

典型意见

典型意见引擎将消费者意见进行语义聚合,从中提取出有代表性的意见。可用于社会热点事件、消费者调研和电商评论分析和意见整理。 基于语义的分析引擎在准确率上有较大的突破,能将含义接近但表述不同的意见聚合在一起,并可通过参数调节聚类的大小获得更好的效果,与人工整理相比更加快速、准确 。

文本聚类

文本聚类指的是算法自动对给定的文本集进行话题聚类,将语义上相似的内容归为一类。有助于海量文档、资讯的整理和话题级别的统计分析。我们自主研发的文本聚类算法加入了对语义的扩展,保证同一个意见的不同表述可以被归纳在一起,同时也避免了传统聚类算法需要预先设定聚类总数,可以基于数据的分布自动选择合适的阈值。

关键词提取

关键词提取从一篇或多篇文本包含的信息进行结构化处理,从中提取出有代表性的关键词。并且综合考虑词语在文本中的频率和词语在千万级语料库中的频率,选择出最具有代表性的关键词并给出相应权重。