使用jieba中文分词工具统计词频(要求的词频:词频/最大词频数)_怎么统计jieba分词后的最长词-程序员宅基地

技术标签: python  笔记  anaconda  

结巴分词下载 anaconda+jupyter notebook方式下载:

以下是国内豆瓣镜像下载命令(网速快)
anaconda prompt端输入命令:
pip install jieba -i https://pypi.douban.com/simple

代码:
import jieba
from jieba import analyse

def fenci():
    tianlongbabu = open("E:/MyDownloads/python/
    anaconda/workspace/openfile/jieba_simple.txt", "r",
    encoding="utf-8").read()
    print("------天龙八部第一章:合计有%d个
    字符------"%len(tianlongbabu))
    dic = {}
    resource = jieba.cut(tianlongbabu)
    for word in resource:
        if len(word)==1:
            continue  ##字长为1的去掉
        if word in dic:
            dic[word] += 1 ##计数加一
        else:
            dic[word] = 1  ##词典没有则添加
    dic = list(dic.items())
    dic.sort(key=lambda x:x[1],reverse=True) ##lambda对第二维数据排序
    for i in range(10):
        word = dic[i][0]
        count = dic[i][1]/dic[0][1]  ##词频/最大词频
        print("-----{:<10}{:>5}".format(word,count))

if __name__== '__main__':  ##此处是两个下划线,看起来像一个
    fenci()

结果预览:

------天龙八部第一章:合计有23635个字符------
-----段誉          1.0
-----少女          1.0
-----司空玄       0.8461538461538461
-----左子穆       0.782051282051282
-----什么        0.782051282051282
-----钟灵        0.7435897435897436
-----无量        0.5897435897435898
-----龚光杰       0.5641025641025641
-----神农        0.5512820512820513
-----说道        0.5256410256410257
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_41215254/article/details/104722524

智能推荐

Lua编程时遇到的一个错误:attempt to index upvalue-程序员宅基地

文章浏览阅读4k次。最近用OpenResty开发一个产品。新学Lua语言,写了不少脚本。前几天遇到这么一个运行时错误:2022/01/21 18:57:01 [error] 581744#0: *74 lua entry thread aborted: runtime error: /opt/lua/blacklist.lua:98: attempt to index upvalue 'actions' (a number value)简化一下,blacklist.lua代码如下:local actions =_attempt to index upvalue

【Unity API】3---GameObject_unity new gameobject()参数-程序员宅基地

文章浏览阅读425次。1.创建游戏物体的三种方法 public GameObject prefab; // Use this for initialization void Start () { //1.第一种创建方法 GameObject go = new GameObject("Cube"); //2.第二种 ,可以实例化特效或者角色等等 ..._unity new gameobject()参数

python知识图谱问答系统代码_医疗知识图谱问答系统探究(一)-程序员宅基地

文章浏览阅读522次。这是 阿拉灯神丁Vicky 的第 23 篇文章1、项目背景为通过项目实战增加对知识图谱的认识,几乎找了所有网上的开源项目及视频实战教程。果然,功夫不负有心人,找到了中科院软件所刘焕勇老师在github上的开源项目,基于知识图谱的医药领域问答项目QABasedOnMedicaKnowledgeGraph。用了两个晚上搭建了两套,Mac版与Windows版,哈哈,运行成功!!!从无到有搭建一个以疾病为..._chat_graph.py

hdu 3986 Harry Potter and the Final Battle(最短路+枚举删边)_3986 harry potter and the final battle 枚举+最短路(删掉任意-程序员宅基地

文章浏览阅读899次。Harry Potter and the Final BattleTime Limit: 5000/3000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others)Total Submission(s): 1741 Accepted Submission(s): 487Problem Descript_3986 harry potter and the final battle 枚举+最短路(删掉任意一条边的最长最短

python开发节目程序_python获取央视节目信息-程序员宅基地

文章浏览阅读342次。# -*- coding: utf-8 -*-#---------------------------------------# 程序:cctv节目表抓取# 作者:lqf# 日期:2013-08-09# 语言:Python 2.7# 功能:抓取央视的节目列表信息#---------------------------------------import stringimport..._python获取电视直播节目单

如何用C语言实现OOP-程序员宅基地

文章浏览阅读1.6k次,点赞5次,收藏18次。我们知道面向对象的三大特性分别是:封装、继承、多态。很多语言例如:C++ 和 Java 等都是面向对象的编程语言,而我们通常说 C 是面向过程的语言,那么是否可以用 C 实现简单的面向对象..._c语言如何实现oop编程

随便推点

Bean creation exception on FactoryBean type check: org.springframework.beans.factory.UnsatisfiedDepe_bean creation exception on non-lazy factorybean ty-程序员宅基地

文章浏览阅读1.9w次。Bean creation exception on FactoryBean type check: org.springframework.beans.factory.UnsatisfiedDependencyException: Error creating bean with name xxxspring bean创建失败我的是ssm项目,项目已启动就报错,mapper接口和mapper的..._bean creation exception on non-lazy factorybean type check: org.springframew

Dan Abramov - [Just JavaScript] 01 Mental Models(心智模型) 随便翻译一下_justjavascrpit-程序员宅基地

文章浏览阅读779次。是翻译的订阅邮件,非原创,下方有英文原文。看一下这段代码:let a = 10;let b = a;a = 0;运行后a和b的值是多少?在进一步阅读之前,先理解它。如果你已经写了一段时间的js,你可能会存疑:“我每天写的代码比这有难度多了,重点是啥?”本练习的目的不是要想你介绍这些变量,相反,假设你已经十分熟悉这些,本练习的目的是为了然你构建起相应的心智模型。什么是心智模型..._justjavascrpit

嵌入式系统的事件驱动型编程技术_[论文阅读笔记]区块链系统中智能合约技术综述...-程序员宅基地

文章浏览阅读276次。区块链系统中智能合约技术综述范吉立 李晓华 聂铁铮 于戈《计算机科学》2019年8月14页,56个参考文献框架1 引言2 区块链中的智能合约语言2.1 智能合约语言2.2 比特币脚本语言图2.3 以太坊灵完备型语言2.3.1 Solidity语言2.3.2 Serpent语言2.4 可验证型语言Pact2.5 超级账本智能合约语言2.6 开发语言的对比3 区块链中智能合约的实现技术3.1 嵌..._嵌入式事件驱动编程

python嵌入式开发实战_Python和PyQT来开发嵌入式ARM界面如何实现-程序员宅基地

文章浏览阅读386次。Python是一种跨平台的计算机程序设计语言。是一种面向对象的动态类型语言,最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越来越多被用于独立的、大型项目的开发1)。 简介随着Python在互联网人工智能领域的流行,大家也慢慢感受到Python开发的便利,本文就基于嵌入式ARM平台,介绍使用Python配合PyQT5模块来开发图形化应用程序。本文所演示的ARM平台..._qt for python可以写入嵌入式设备吗

python rabbitmq 多任务类型_rabbitmq常用的三种exchange类型和python库pika接入rabbitmq-程序员宅基地

文章浏览阅读108次。现在很多开源软件都提供了对应的web管理界面,rabbitmq也不例外,rabbitmq提供了一个web插件。当rabbit-server启动之后,即在浏览器中通过http://localhost:15672/地址访问页面,提供一个比命令rabbitmqctl更友好的学习rabbitmq的方式。可以简单方便的通过配置rabbitmq,并可以向exchange和queue中发消息来验证自己的理解。如..._python rabbitmq exchange_bind

关于达梦数据库数据迁移工具的使用方法(DTS)_达梦迁移工具使用方法-程序员宅基地

文章浏览阅读5.1k次。达梦DTS工具的使用,适用于简单的数据迁移_达梦迁移工具使用方法