助力 Python 老司机都开火箭了！Cython 实现百倍加速 NLP (助力油和液压油一样吗)

文章编号：41195 资讯动态 2024-12-03 加速 Cython Python NLP

老司机都开火箭了！Cython 助力 Python NLP 实现百倍加速

spacex 猎鹰重型发射器，版权归

在去年我们发布了用 Python 实现的基于神经网络的相互引用解析包（Neural coreference resolution package）之后，在社区中获得了惊人数量的反馈，许多人开始将该解析包用到各种各样的应用中，有一些应用场景甚至已经超出了我们原本设计的对话框用例（Dialog use-case）。

后来我们发现，虽然这个解析包对于对话框消息而言，解析速度完全够用，但如果要解析更大篇幅的文章就显得太慢了。

因此我决定要深入探索解决方案，并最终开发出了 NeuralCoref v3.0 。这个版本比之前（每秒解析几千字）的要快出百倍，同时还保证了相同的准确性，当然，它依然易于使用，也符合 Python 库的生态环境。

在本篇文章中，我想向大家分享我在开发 NeuralCoref v3.0 过程中学到的一些经验，尤其将涉及：

我的标题其实有点作弊，因为我实际上要谈论的是 Python，同时也要介绍一些 Cython 的特性。不过你知道吗？Cython 属于 Python 的超集，所以不要让它吓跑了！

以下给出了一些可能需要采用这种加速策略的场景：

百倍加速第一步：代码剖析

老司机都开火箭了！Cython 助力 Python NLP 实现百倍加速

你需要知道的第一件事情是，你的大部分代码在纯 Python 环境下可能都运行良好，但是其中存在一些瓶颈函数（Bottlenecks functions），一旦你能给予它们更多的「关照」，你的程序将获得几个数量级的提速。

所以你应该从剖析自己的 Python 代码开始，找出那些低效模块。其中一种方法就是使用：

你很可能会发现低效的原因是因为一些循环控制，或者你使用神经网络时引入了过多的 Numpy 数组操作（我不会花费时间在这里介绍 Numpy，这个问题已经有太多文章进行了讨论）。

那么我们该如何来加速循环呢？

在 Pyhthon 中加入 Cython 加速循环计算

老司机都开火箭了！Cython 助力 Python NLP 实现百倍加速

让我们通过一个简单的例子来解决这个问题。假设有一堆矩形，我们将它们存储成一个由 Python 对象（例如对象实例）构成的列表。我们的模块的主要功能是对该列表进行迭代运算，从而统计出有多少个矩形的面积是大于所设定阈值的。

我们的 Python 模块非常简单：

其中 check_rectangles 函数就是我们程序的瓶颈！它对一个很长的 Python 对象列表进行迭代，而这一过程会相当缓慢，因为 Python 解释器在每次迭代中都需要做很多工作（查找类中的方法、参数的打包和解包、调用 Python API 等等）。

Cython 语言是 Python 的一个超集，它包含有两种类型的对象：

定义这种循环最直接的一种方法就是，定义一个包含有计算过程中我们所需要用到的所有对象的结构体。具体而言，在本例中就是矩形的长度和宽度。

然后我们可以将矩形对象列表存储到 C 的结构数组中，再将数组传递给 check_rectangles 函数。这个函数现在将接收一个 C 数组作为输入，此外我们还使用关键字取代了（注意：也可以用于定义 Cython C 对象）将函数定义为一个 Cython 函数。

这里是 Cython 版本的模块程序：

这里我们使用了原生的 C 数组指针，不过你还有其它选择，特别是 C++ 中诸如向量、二元组、队列这样的结构体。在这段程序中，我还使用了一个来自提供的内存管理对象，它可以避免手动释放所申请的 C 数组内存空间。当不再需要使用 Pool 中的对象时，它将自动释放该对象所占用的内存空间。

有很多办法来测试、编译和发布 Cython 代码。Cython 甚至可以像 Python 一样直接用于 Jupyter Notebook 中。

通过 pip install cython 命令安装 Cython。

老司机都开火箭了！Cython 助力 Python NLP 实现百倍加速

使用 %load_ext Cython 指令在 Jupyter notebook 中加载 Cython 扩展。

然后通过指令，我们就可以像 Python 一样在 Jupyter notebook 中使用 Cython。

如果在执行 Cython 代码的时候遇到了编译错误，请检查 Jupyter 终端的完整输出信息。

大多数情况下可能都是因为在之后遗漏了标签（比如当你使用 spaCy Cython 接口时）。如果编译器报出了关于 Numpy 的错误，那就是遗漏了 import numpy 。

正如我在一开始就提到的，请好好阅读这份 Jupyter notebook 和这篇文章，它包含了我们在 Jupyter 中讨论到的所有示例。

Cython 代码的文件后缀是，这些文件将被 Cython 编译器编译成 C 或 C++ 文件，再进一步地被 C 编译器编译成字节码文件。最终 Python 解释器将能够调用这些字节码文件。

你也可以使用将一个 .pyx 文件直接加载到 Python 程序中：

你也可以将自己的 Cython 代码作为 Python 包构建，然后像正常的 Python 包一样将其导入或者发布，更多细节请参考这里。不过这种做法需要花费更多的时间，特别是你需要让 Cython 包能够在所有的平台上运行。如果你需要一个参考样例，不妨看看 spaCy 的安装脚本。

在我们开始优化自然语言处理任务之前，还是先快速介绍一下、和这三个关键字。它们是你开始学会使用 Cython 之前需要掌握的最主要的知识。

你可以在 Cython 程序中使用三种类型的函数：

关键字的另一个用途就是，在代码中表明某一个对象是 Cython C/C++ 对象。所以除非你在代码中使用声明对象，否则这些对象都会被解释器当做 Python 对象（这会导致访问速度变慢）。

使用 Cython 和 spaCy 加速自然语言处理

这一切看起来都很好，但是......我们到现在都还没开始涉及优化自然语言处理任务！没有字符串操作，没有 unicode 编码，也没有我们在自然语言处理中所使用的妙招。

此外 Cython 的官方文档甚至建议不要使用 C 语言类型的字符串：

那么当我们在操作字符串时，要如何在 Cython 中设计一个更加高效的循环呢？

spaCy 处理该问题的做法就非常地明智。

将所有的字符串转换为 64 位哈希码

spaCy 中所有的 unicode 字符串（一个标记的文本、它的小写形式文本、它的引理形式、POS 标记标签、解析树依赖标签、命名实体标签等等）都被存储在一个称为 StringStore 的数据结构中，它通过一个 64 位哈希码 进行索引，例如 C 类型的。

老司机都开火箭了！Cython 助力 Python NLP 实现百倍加速

StringStore 对象实现了 Python unicode 字符串与 64 位哈希码之前的查找映射。

它可以从 spaCy 的任何地方和任意对象进行访问，例如 npl.vocab.strings 、 doc.vocab.strings 或者 span.doc.vocab.string 。

当某一个模块需要在某些标记（tokens）上获得更快的处理速度时，你可以使用 C 语言类型的 64 位哈希码代替字符串来实现。调用 StringStore 查找表将返回与该哈希码相关联的 Python unicode 字符串。

但是 spaCy 能做的可不仅仅只有这些，它还允许我们访问文档和词汇表完全填充的 C 语言类型结构，我们可以在 Cython 循环中使用这些结构，而不必去构建自己的结构。

与 spaCy 文档有关的主要数据结构是 Doc 对象，该对象拥有经过处理的字符串的标记序列（“words”）以及 C 语言类型对象中的所有标注，称为，它是一个 TokenC 的结构数组。

TokenC 结构包含了我们需要的关于每个标记的所有信息。这种信息被存储成 64 位哈希码，它可以与我们刚刚所见到的 unicode 字符串进行重新关联。

如果想要准确地了解这些漂亮的 C 结构中的内容，可以查看新建的 spaCy 的 Cython API 文档。

接下来看一个简单的自然语言处理的例子。

假设现在有一个文本文档的数据集需要分析。

我写了一个脚本用于创建一个包含有 10 份文档的列表，每份文档都大概含有 17 万个单词，采用 spaCy 进行分析。当然我们也可以对 17 万份文档（每份文档包含 10 个单词）进行分析，但是这样做会导致创建的过程非常慢，所以我们还是选择了 10 份文档。

我们想要在这个数据集上展开某些自然语言处理任务。例如，我们可以统计数据集中单词「run」作为名词出现的次数（例如，被 spaCy 标记为「NN」词性标签）。

采用 Python 循环来实现上述分析过程非常简单和直观：

但是这个版本的代码运行起来非常慢！这段代码在我的笔记本上需要运行 1.4 秒才能获得答案。如果我们的数据集中包含有数以百万计的文档，为了获得答案，我们也许需要花费超过一天的时间。

我们也许能够采用多线程来实现加速，但是在 Python 中这种做法并不是那么明智，因为你还需要处理全局解释器锁（GIL）。另外请注意，Cython 也可以使用多线程！Cython 在后台可以直接调用 OpenMP。不过我没有时间在这里讨论并行性，所以请查看此链接以了解更多详情。

现在让我们尝试使用 spaCy 和 Cython 来加速 Python 代码。

首先需要考虑好数据结构，我们需要一个 C 类型的数组来存储数据，需要指针来指向每个文档的 TokenC 数组。我们还需要将测试字符（「run」和「NN」）转成 64 位哈希码。

当所有需要处理的数据都变成了 C 类型对象，我们就可以以纯 C 语言的速度对数据集进行迭代。

这里展示了这个例子被转换成 Cython 和 spaCy 的实现：

代码有点长，因为我们必须在调用 Cython 函数之前在 main_nlp_fast 中声明和填充 C 结构。

这串代码虽然变长了，但是运行效率却更高！在我的 Jupyter notebook上，这串 Cython 代码只运行了大概 20 毫秒，比之前的纯 Python 循环快了大概 80 倍。

使用 Jupyter notebook 单元编写模块的速度很可观，它可以与其它 Python 模块和函数自然地连接：在 20 毫秒内扫描大约 170 万个单词，这意味着我们每秒能够处理高达 8 千万个单词。

对使用 Cython 进行自然语言处理加速的介绍到此为止，希望大家能喜欢它。

关于 Cython 还有很多其它的东西可以介绍，但是已经超出了这篇文章的初衷（这篇文章只是作为简介）。从现在开始，最好的资料也许是这份综述性的 Cython 教程和介绍 spaCy 自然语言处理的 Cython 页面。

如果你还想要获得更多类似的内容，请记得给我们点赞哟！

Via 100 Times Faster Natural Language Processing in Python ，雷锋网 AI 研习社编译整理

版权文章，未经授权禁止转载。详情见转载须知。

老司机都开火箭了！Cython 助力 Python NLP 实现百倍加速

谷普下载提醒您

本文链接：http://www.gpxz.com/article/f016106ea005723ef0f8.html

上一篇：AI启杭2020全球人工智能大会新闻发布会在杭

下一篇：国盾量子等12家中国企业躺枪国科微一言不合

CNC加工厂家

昆山鼎军机械制造有限公司主营设备有进口数控加工中心及立式加工中心多台、中大型数控车床多台、数控龙门加工中心、车床、铣床、钻床、CNC精密加工、CNC数控加工、数控立车、数控立车加工剪板机、折弯机、并配备多名管理及技术人员。是一家专业生产龙门加工中心厂家，望有意者与我们联系!

管理咨询 2024-08-17 00:48:49

无锡宏瑞机器制造有限公司

无锡宏瑞机器制造有限公司创建于80年代初,是一家专业生产软包装成套设备、新材料涂布设备、水处理膜设备以及提供技术培训与调试服务的综合性企业。

商业服务 2024-07-06 22:10:41

【快捷旅游网】机票代理首选机票加盟平台

苏州快捷航空网拥有专业的机票代理一二类资质,专业为飞机票代理人提供国内国际机票代理,机票加盟,机票接口以及机票查询接口等业务,我们的目标是做机票代理行业的专业机票解决方案提供商。

行业信息 2024-08-18 12:38:09

首页

上海万真物联科技有限公司

科技创新 2024-07-16 17:46:25

iQOO官网

电影视频 2024-11-17 17:52:15

江苏恒力炉业有限公司

电影视频 2024-11-25 22:40:48

拜拜导航

拜拜导航网是一站式的专业资源导航网站，汇集了运营、产品、编程、设计、AI技术、短视频等多个领域的顶级资源。无论是设计师寻找创意灵感，程序员寻求编码工具，还是产品经理寻找最新的产品开发策略，拜拜导航导航网提供全面而精准的导航服务，助您快速找到所需的行业资源。

电影视频 2024-11-26 16:57:22

首页

提供各类网站、小程序、APP定制化开发部署方案以及技术支持和培训服务

编程开发 2024-11-26 21:05:37

成都坤舆空间科技有限公司,坤舆空间科技,坤舆空间

成都坤舆空间科技有限公司是新时期，立足于新领域，以“时空大数据+”为引领的高科技信息产业发展公司。公司主要围绕区域规划、规划设计、项目实施，到运维管理为主线展开四大业务板块，开展主营业务。

设计美化 2024-12-01 01:23:29

汉中思派互联网医院

互联资讯 2025-02-11 17:07:39

消泡器

14年专注全自动消泡脱泡机设备研发生产厂家,主营消泡器,脱泡机,节能器,废膜渣脱水机,已成功为业内多家上市企业提供生产环节消泡方案.

企业品牌 2025-02-13 21:34:30

中信等知名机构投资方为上汽金石芯驰科技完成近10亿元B 轮融资 (中信排行榜)

资本寒冬下，芯片赛道投资依旧火热，新智驾获悉，11月28日，车规芯片企业芯驰科技完成近10亿元B，轮融资，本轮融资由上汽金石创新产业基金战略领投，中信证券投资、江苏金石交通科技产业基金、安徽交控金石投资、国中资本、华泰保险、前海赛睿等机构参与，上海科创、张江高科、云晖资本、合创资本等老股东持续跟投，本轮融资的完成充分体现了产业与资本市...。

2024-12-09 15:07:10

Suphx 直播丨微软超级麻将AI 研发团队深度揭秘技术细节如何荣升十段

作为在中国乃至整个亚洲地区都家喻户晓的大众娱乐项目，麻将仅在亚洲地区就拥有上亿玩家，极高的普及度使得很多人都认为麻将是一项十分容易的棋牌类游戏，然而，虽然麻将入门容易，但要真正打好麻将、精通麻将却十分困难，以国际知名专业麻将平台天凤，http，tenhou.net，为例，平台上超过35万的活跃玩家中，只有不到1%的玩家达到了专业7...。

2024-12-03 23:03:03

复制最有前景达芬奇机器人难度较大这些技术路线点石资本李乐群 (复制最有前景的图片)

近日，雷锋网医疗科技·未来投资云峰会揭幕，本次峰会邀请到红杉中国、软银中国、高榕资本、联想创投、点石资本、磐霖资本、启明创投、国科嘉和、远毅资本的多位顶级观察者，以云峰会形式，从专业投资人的角度剖析医疗大数据、药企创新服务、医疗机器人等多个医疗科技新领域的投资逻辑和项目经验，来自点石资本的执行董事李乐群以，十年饮冰，难凉热血——国产腔...。

2024-11-30 21:12:40

当贝F6怎么设置色彩当贝F6色彩设置图文教程分享 (当贝f6怎么样)

发表在当贝投影仪2024，1，2410，51当贝F6是一款实用的家用投影设备，拥有出色的亮度和色彩表现，分辨率更是达到4K，如果不满意标准色彩，还可以自定义画面色彩参数，具体当贝F6怎么设置色彩呢，下面就为大家详细分享当贝F6色彩设置图文教程，看看该如何操作，当贝F6怎么设置色彩，1.打开投影设置在当贝F6的主界面找到设置并点击打开投...。

2024-11-28 22:19:07

长虹75Q9K MAX电视通过U盘安装软件教程 (长虹75q9l)

1.访问当贝官网下载长虹专用当贝市场，或直接用U盘下载长虹专用当贝市场，不要修改包名，；2.打开长虹75Q9KMAX电视自带的应用商店搜索下载爱游戏、欢视助手2个APP；3.然后打开欢视助手下载小白文件管理器，搜索首字母，XBWJ，即可找到，4.下载完小白文件管理器之后，打开爱游戏下载全民五子棋，注意只下载100%，不安装，如若出现安...。

2024-11-25 11:48:46

西安警方男性报案时警方人员行动回答称已电告涉事单位出具相应文书受理不了 (陕西西安警方)

9月29日，有自媒体博主发布视频，称一男性前往西安市公安局碑林分局报案时，该局经侦应酬室一名警方人员行动告知该男性，受理都受理不了，哪来的立案啊，不受理就是行动告知你，，并称，法院是咱们的下级，，此事引发关注，同日，新黄河记者就此事向西安市公安局警务督察支队启动状况反映，关系上班人员尔后回应称，若当事人对行动回答不认可，涉事单位要...。

2024-11-13 18:58:24

小型开掘机什么牌子的好 (小型开掘机什么牌子好)

先说合资品牌的，或者是区域疑问，有些接触不到，卡特彼勒，美国大厂，环球开掘机的老大哥，性能微弱，好处，力气短缺，耐用，牢固，不容易坏，旧机保值度高，矿山工程首选，缺陷，多少钱高，油耗高，特意是矿上类机型，油耗大，售后服务普通，20T机型，参考多少钱CAT320DGC97，100W320D110，115W小松，日本大厂，开掘机行业上游...。

2024-07-07 08:27:35

公众速腾的油箱容积是多少 2012款一汽 (速腾油量)

当征询关于2012款一汽，公众速腾的油箱容量时，官方提供的数据显示，它的油箱容量是55L，这款车型的规范燃油类型是92号及以上的无铅汽油，油箱的尺寸对车辆的油耗有着清楚影响，理论状况下，一个满箱油能允许车辆行驶超越500公里，比如那些百公里油耗为10升的车型，它们的油箱容量普通在60L左右，但是，实践的油箱容量理论会大于标称值，依据国...。

2024-07-02 12:40:22

缉私警察下载-缉私警察中文版v10.0.4免安装版

缉私警察中文版是一款拟真模拟类游戏，玩家扮演一名边防前哨站检查走私活动的警员，查获并逮捕任何存在违法活动的通过者。

2023-11-06 15:40:10

智能电视app哪个好-智能电视必装软件推荐

电视应用市场是我们为您量身打造的智能电视后花园。依托丰富的TV软件，为您更新和精选热门智能电视应用。海量精选安卓TV应用，皆可使用智能电视和机顶盒遥控器轻松操作，网页界面简洁易用，下载得心应手。小编这里为大家提供了电视应用市场排行榜，智能电视必装软件推荐，便捷、安全、资源丰富、下载免费等满足一系列电视需求。

2023-10-11 03:04:15

腾讯视频formac-腾讯视频mac版下载V2.65.0.53560

腾讯视频mac版播放器是腾讯视频为MacOS用户推出的腾讯视频客户端产品，支持丰富内容的在线点播及电视台直播，提供列表管理、视频音量放大、色彩画质调整、自动关机等等更强大的功能服务;您可以免费下载。

2023-08-11 17:21:00

文章推荐

如何利用网络视频进行营销 (如何利用网络赚钱呢)

做好视频营销并不是一件简单的事，视频网站每天都会上传大量的视频，而且各种类型都有，如何从中脱颖而出，并达到良好的口碑传播效果，是一件很复杂的事情，视频营销成功的因素是内容要新奇、情节感人等，当然，对于一次成功的视频营销来说，内容创新是必不可少的，但是要想成就一个营销神话，还需要依靠更多的方法和策略，下边就来介绍视频营销的几个招式，第一...。

2025-01-30 20:10:57

网络百科

新建材招商加盟加盟建材哪个项目好 (新建材招商加盟条件)

随着人们消费水平的不断提高，消费者对于家居环境的要求不断提高，人们会在装修房屋的过程中，对于许多建材的质量要求也让越来越高，符合现代家装审美的建材产品在市场上也逐渐走俏，那么，对于智慧之选者而言，新式建材招商加盟哪个项目好呢，现代市场上的五金是指五金工具、五金零部件、日用五金、建筑五金以及安防用品等，历史走进现代工业社会，金属五金制品...。

2024-12-21 17:28:04

创业加盟

2020年在长沙想开个超市需要多少钱超市加盟店要多少钱 (2020年在新型安全领域出台了中华人民共和国)

超市作为方便大众消费者的服务配置，在每个城市都很常见，现在，超市门店越开越多，让很多人对其都产生了加盟的兴趣，那么，近日就有人前来询问超市加盟店要多少钱，2020年在长沙想开个超市需要多少钱，这就随着小编往下看吧，现有很多不同的超市品牌，要根据超市品牌、创业者的加盟需求、当时的加盟政策等因素，来确定加盟费用，总部人员会结合多方面的因素...。

2024-12-21 14:43:09

创业加盟

蓝色广告联盟 (蓝色广告联盟官网)

最大化数据价值蓝色通过庞大的数据库，识别终端设备用户的行为喜好，以最大限度识别和归类，从而为多种多样的产品提供精准的用户，群体定向的服务，数据覆盖越广泛，价值就越大；最小化沟通成本蓝色为广告主降低了跟大量广告渠道沟通的成本，节省了精力，让其专注于投放素材、定向优化和ROI的分析上面，...。

2024-12-05 23:23:32

网络百科

将评选年度最优秀商业视频创作 B站举办首届花火奖 (年度最佳评选)

12月19日，哔哩哔哩，以下简称，B站，正式启动首届花火奖，并于上海举办线下终审评选，作为B站首个聚焦商业视频创作的专业奖项，花火奖将基于创意表现力、商业价值、传播力等维度综合评审，从数万个优质商业视频中遴选出该年度最优秀的近30个作品，自2020年成立以来，花火平台作为服务UP主与品牌方的官方内容合作平台，一直都是UP主创意内容与...。

2024-12-04 01:09:23

资讯动态

助力 Python 老司机都开火箭了！Cython 实现百倍加速 NLP (助力油和液压油一样吗)

百倍加速第一步：代码剖析

在 Pyhthon 中加入 Cython 加速循环计算

使用 Cython 和 spaCy 加速自然语言处理

将所有的字符串转换为 64 位哈希码

相关文章

文章推荐