快捷导航
        我看到大家讨论比较多的是主题词之间的关系,通过共现矩阵计算中心度,观察主题之间的关系,有时候我们叫这个是语义网络分析,虽然你们技术支持说语义网络有别的含义。

        我现在用集搜客分词软件处理微博中的人名,我要把微博内容中体现出来的社交关系分析出来。我发现集搜客分词工具有时候把一个人名分开了,有时候不分开。

        所以,我的统计就不准了。我能直接添加新词的方式把这些人名加入吗?加入以后能解决人名被分开的问题吗?


        举报 使用道具
        | 回复

        共 3 个关于本帖的回复 最后回复于 2020-3-25 10:16

        沙发
        微舆情 高级会员 发表于 2020-3-25 10:05:23 | 只看该作者
        假如系统词库中已经有这2个词: 张三, 张三丰
        那在分词的时候,对于文本中的“张三丰”, 会怎样处理呢

        举报 使用道具
        板凳
        ym 版主 发表于 2020-3-25 10:13:56 | 只看该作者
        在“分词选词”->“选词结果”里,通过“添加词语”把没切出来的词语添加进去,这种就会直接把词语与原数据做匹配统计,不会出现词语被切开的问题,但是与自动分词相比,这种没法智能区分有歧义的词语,比如,添加词语“难看”,在句子“很难看出一个人的内在品德”里“难看”也会被统计到,而自动分词就能判断出这种歧义,就不会切词统计
        举报 使用道具
        地板
        ym 版主 发表于 2020-3-25 10:16:50 | 只看该作者
        本帖最后由 ym 于 2020-3-25 10:18 编辑
        微舆情 发表于 2020-3-25 10:05
        假如系统词库中已经有这2个词: 张三, 张三丰
        那在分词的时候,对于文本中的“张三丰”, 会怎样处理呢

        如果是系统自动分词,可能切不出两个人名,通过添加词语,把这两个人名添加进去,因为是直接把词语与原数据做匹配统计的,“张三”与“张三丰”的前两个字相同,“张丰”的统计词频就会包括“张三丰”的词频

        举报 使用道具
        您需要登录后才可以回帖 登录 | 立即注册

        精彩推荐

        • 如何使用集搜客分词平台做社会网络图分析?
        • 关于食品安全的美国联邦法规文件的网络爬虫
        • 怎样更有效率地搜索互联网和整理知识—使用
        • 阿里巴巴外包询价网站用集搜客网络爬虫能采
        • 在限定论域的时候,为什么“任何一个”表示

        热门用户

        GMT+8, 2020-6-5 14:37