推荐 | 中文文本标注工具Chinese-Annotator（内附多个开源文本标注工具）-程序员宅基地

主动学习的智能标注算法

流程：

1. 用户标一个label；

2. 主动学习的后台算法分为 online 和 offline 部分。online 部分即时更新模型，可使用诸如 SVM、bag of words 等尽可能快的传统方法；offline 部分当标注数据积累到一定数量时更新模型，可使用准确度较高的深度学习模型；

3. 模型更新后，对尽可能多的 example 做预测，将确信度排序，取确信度最低的一个 example 作为待标注例子。重复 1 的过程。

可以想象如果模型训练得好的话，这个过程将直接忽略掉确信度最大的那些例子，而把所有重点放在分类边界上的那些确信度小的例子。这样可以尽算法所能减少用户端的人工工作量。

online 与 offline 模型互相协作，与用户手动标注的过程一起不断迭代；在最终标注任务完成之后，offline 模型可以重新在所有标注数据上重新训练，以达到最好的模型效果。

显而易见的友好标注前端

用户标注的界面应该尽可能符合直觉，让用户完全聚焦在当前的标注任务上。 Prodigy 给了一个非常好的 demo[2]，每一次的标注只需要用户解决一个 case 的问题。以文本分类为例，对于算法给出的分类结果，只需要点击“正确”提供正样本，“错误”提供负样本，“略过”将不相关的信息滤除，“Redo”让用户撤回操作，四个功能键以最简模式让用户进行标注操作。

真正应用中，应该还要加入一个用户自己加入标注的交互方式，比如用户可以高亮一个词然后选择是“公司”，或者链接两个实体选择他们的关系等等。

以上是个人觉得的一个智能中文文本标注工具的最大亮点。算法本身还有很多细节需要思考，比如 online 机器学习算法与 offline 深度学习算法的协作、中文 NLP 的特征提取与模型构建、正则规则的引入、word embedding 的训练和使用等等。

系统本身还要考虑后台存储（SQLite?）和数据导入导出，前端框架选型和开发，前后端交互（django? flask? RestAPI?）等等的问题。下面是 Prodigy 的简单架构图。

我们希望专注于中文文本标注的功能。前期我们想实现三种中文 NLP 任务的标注工具：中文命名实体识别，中文关系识别，中文文本分类。未来如果有更多如中文图片问答、中文图片描述之类的任务，我们可以再研究加入图片标注这一块。

希望这个工具的开发会是以中文社区的开源协作方式，为整个中文 NLP 的开源生态做出一点贡献。

FAQ

1. 待标注数据集如何分割？

应该分为按句子、按段落、按文章三种，写入配置文件由用户选择。原因是命名实体识别与关系抽取可能按句子或者段落为单位给用户标注比较合适；同时可能用户会有全文章分类的需求，需要给出全文。

2. 为什么要使用 online？

用户标注数据 + offline 标注数据，为什么还要使用 online model 更新数据呢？原因是 offline 的模型往往在全量数据上重新学习，也很可能需要使用深度学习模型，训练的速度会很慢。而 active learning 的人机迭代过程要求模型给出几乎实时的 stream 级别的训练和推断速度，这时候就需要 online model 来先行更新数据。

3. 使用什么机制触发 offline model？

这也可以是写入配置文件的参数。一种是用户标够了 100 个或提前设置好的足够多的新的数据，就可以启用 offline model 进行训练；另一种是给用户一个按钮，用户可以点击启动后台的 offline 模型训练并给出进度条。

4. 系统使用什么格式的配置文件？

推荐 json 格式的配置文件。请参考一个例子在这里[3]。

5. AIgo Factory 是什么？和 User Instance 里面的部分是不是有点重合？

Algo factory 是算法的代码模块，你可以想象一堆 tensorflow 或者 sklearn 的代码；而 user instance 是 config 文件与模型参数，是一堆用户生成的 json 文件和模型文件。algo factory 是可以不同 user instance 传入参数复用的，而每一个 user instance 代表了一个用户任务的实例。

这样设计的目的，是尽可能使系统可复用部分模块化，而抽出用户具体任务的配置与数据单独存储管理。

附录：几个开源文本标注工具

• IEPY

整个工程比较完整，有用户管理系统。前端略重，对用户不是非常友好。

代码：https://github.com/machinalis/iepy

说明：http://iepy.readthedocs.io/en/latest/index.html

• DeepDive (Mindtagger)

△ Screenshot of Mindtagger precision task in progress

前端比较简单，用户界面友好。

介绍：http://deepdive.stanford.edu/labeling

前端代码：https://github.com/HazyResearch/mindbender

将 DeepDive 的 corenlp 部分转为支持中文的代码尝试：

https://github.com/SongRb/DeepDiveChineseApps

https://github.com/qiangsiwei/DeepDive_Chinese

https://github.com/mcavdar/deepdive/commit/6882178cbd38a5bbbf4eee8b76b1e215537425b2

• BRAT

介绍：http://brat.nlplab.org/index.html

在线试用：http://weaver.nlplab.org/~brat/demo/latest/#/

代码：https://github.com/nlplab/brat

• SUTDAnnotator

用的不是网页前端而是 pythonGUI，但比较轻量。

代码：https://github.com/jiesutd/SUTDAnnotator

Paper：https://github.com/jiesutd/SUTDAnnotator/blob/master/lrec2018.pdf

• Snorkel

Page: https://hazyresearch.github.io/snorkel/

Github: https://github.com/HazyResearch/snorkel

Demo Paper: https://hazyresearch.github.io/snorkel/pdfs/snorkel_demo.pdf

• Slate

Code: https://bitbucket.org/dainkaplan/slate/

Paper: http://www.jlcl.org/2011_Heft2/11.pdf

• Prodigy

和著名的 spacy 是一家做的。

Website: https://prodi.gy/docs/

Blog: https://explosion.ai/blog/prodigy-annotation-tool-active-learning

近期热文

fastText 之其源码分析

资源 | 2017年GitHub中Top 30开源机器学习项目

自然语言对话引擎（技术类）

AdaBoost元算法如何提高分类性能

奇异值分解(SVD)原理

分享 | 由0到1走入Kaggle-入门指导 (长文、干货）

常见文本相似度量方法总结

干货|免费文本语料训练数据集

如果你今天对自己满意，明天就会被淘汰。

——田北辰

更多干货内容请关注微信公众号“AI 深入浅出”

长按二维码关注

本文链接：https://blog.csdn.net/m0epNwstYk4/article/details/79083806

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

c# 调用c++ lib静态库_c#调用lib-程序员宅基地

文章浏览阅读2w次，点赞7次，收藏51次。四个步骤1.创建C++ Win32项目动态库dll 2.在Win32项目动态库中添加外部依赖项 lib头文件和lib库3.导出C接口4.c#调用c++动态库开始你的表演...①创建一个空白的解决方案，在解决方案中添加 Visual C++ , Win32 项目空白解决方案的创建：添加Visual C++ , Win32 项目这......_c#调用lib

deepin/ubuntu安装苹方字体-程序员宅基地

文章浏览阅读4.6k次。苹方字体是苹果系统上的黑体，挺好看的。注重颜值的网站都会使用，例如知乎：font-family: -apple-system, BlinkMacSystemFont, Helvetica Neue, PingFang SC, Microsoft YaHei, Source Han Sans SC, Noto Sans CJK SC, W..._ubuntu pingfang

html表单常见操作汇总_html表单的处理程序有那些-程序员宅基地

文章浏览阅读159次。表单表单概述表单标签表单域按钮控件demo表单标签表单标签基本语法结构<form action="处理数据程序的url地址“ method=”get|post“ name="表单名称”></form><!--method将表单中的数据传送给服务器处理，get方式直接显示在url地址中，数据可以被缓存，且长度有限制；而post方式数据隐藏传输，_html表单的处理程序有那些

PHP设置谷歌验证器（Google Authenticator）实现操作二步验证_php otp 验证器-程序员宅基地

文章浏览阅读1.2k次。使用说明:开启Google的登陆二步验证（即Google Authenticator服务）后用户登陆时需要输入额外由手机客户端生成的一次性密码。实现Google Authenticator功能需要服务器端和客户端的支持。服务器端负责密钥的生成、验证一次性密码是否正确。客户端记录密钥后生成一次性密码。下载谷歌验证类库文件放到项目合适位置(我这边放在项目Vender下面)https://github.com/PHPGangsta/GoogleAuthenticatorPHP代码示例://引入谷_php otp 验证器

【Python】matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距-程序员宅基地

文章浏览阅读4.3k次，点赞5次，收藏11次。matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距

docker — 容器存储_docker 保存容器-程序员宅基地

文章浏览阅读2.2k次。①Storage driver 处理各镜像层及容器层的处理细节，实现了多层数据的堆叠，为用户提供了多层数据合并后的统一视图②所有 Storage driver 都使用可堆叠图像层和写时复制（CoW）策略③docker info 命令可查看当系统上的 storage driver主要用于测试目的，不建议用于生成环境。_docker 保存容器

随便推点

网络拓扑结构_网络拓扑csdn-程序员宅基地

文章浏览阅读834次，点赞27次，收藏13次。网络拓扑结构是指计算机网络中各组件（如计算机、服务器、打印机、路由器、交换机等设备）及其连接线路在物理布局或逻辑构型上的排列形式。这种布局不仅描述了设备间的实际物理连接方式，也决定了数据在网络中流动的路径和方式。不同的网络拓扑结构影响着网络的性能、可靠性、可扩展性及管理维护的难易程度。_网络拓扑csdn

JS重写Date函数，兼容IOS系统_date.prototype 将所有 ios-程序员宅基地

文章浏览阅读1.8k次，点赞5次，收藏8次。IOS系统Date的坑要创建一个指定时间的new Date对象时，通常的做法是：new Date("2020-09-21 11:11:00")这行代码在 PC 端和安卓端都是正常的，而在 iOS 端则会提示 Invalid Date 无效日期。在IOS年月日中间的横岗许换成斜杠，也就是new Date("2020/09/21 11:11:00")通常为了兼容IOS的这个坑，需要做一些额外的特殊处理，笔者在开发的时候经常会忘了兼容IOS系统。所以就想试着重写Date函数，一劳永逸，避免每次ne_date.prototype 将所有 ios