GolangNote

Golang笔记

golang 中文分词库比较

Permalink

以前在项目里用到中文分词,对中文分词库做了一些比较。

golang 中文分词库比较

前面3个都是纯 go 实现,优势是使用方便;最后一个底层由C++实现,性能和消耗资源比较少,但不能跨平台编译。

因为 go-ego/gse 是后来出现并借鉴前两者,还在开发中,功能较多,就拿它与 yanyiwu/gojieba 做个简单的测试:

Go: 中文分词性能测试 gse VS gojieba
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
func BenchmarkExtractorJieba(b *testing.B) {
	// equals with:
	// x := NewExtractor(DICT_PATH, HMM_PATH, USER_DICT_PATH, IDF_PATH, STOP_WORDS_PATH)
	x := gojieba.NewJieba()
	defer x.Free()
	s := "我是拖拉机学院手扶拖拉机专业的。不用多久,我就会升职加薪,当上CEO,走上人生巅峰。"
	b.ResetTimer()
	// Stop Timer before x.Free()
	defer b.StopTimer()
	for i := 0; i < b.N; i++ {
		//x.Extract(s, 10)
		x.ExtractWithWeight(s, 10)
	}
}

func BenchmarkExtractorGse(b *testing.B) {
	x,_ := gse.New()
	var te idf.TagExtracter
	te.WithGse(x)
	_ = te.LoadIdf()
	defer x.Empty()

	s := "我是拖拉机学院手扶拖拉机专业的。不用多久,我就会升职加薪,当上CEO,走上人生巅峰。"
	b.ResetTimer()
	defer b.StopTimer()
	for i := 0; i < b.N; i++ {
		te.ExtractTags(s, 10)
	}
}

测试

Bash: bench
1
go test -bench "Extractor" -benchmem -benchtime 10s

结果:

plaintext:
1
2
3
4
5
6
goos: darwin
goarch: amd64
pkg: fenci
cpu: Intel(R) Core(TM) i7-4870HQ CPU @ 2.50GHz
BenchmarkExtractorJieba-8   	  427759	     28719 ns/op	     856 B/op	      17 allocs/op
BenchmarkExtractorGse-8     	  210597	     52466 ns/op	   16439 B/op	     247 allocs/op

结论

如果没有特别的原因不能进入虚拟机里编译,还是继续使用 yanyiwu/gojiebago-ego/gse 是后来者,功能强大,又支持多种语言,继续保持关注。

本文网址: https://golangnote.com/topic/292.html 转摘请注明来源

Related articles

Golang 数据库 Bolt 碎片整理

Bolt 是一个优秀、纯 Go 实现、支持 ACID 事务的嵌入式 Key/Value 数据库。但在使用过程中会有很多空间碎片。一般数据库占用的空间是元数据空间的 1.5~4 倍。Bolt 没有内置的压缩功能,需要手动压缩。...

Golang quicktemplate 模版快速入门

Golang 有很多的模版引擎,自带的 `html/template` 也很好,大多数情况都能满足需求,只是有些逻辑、条件判断不好在模版里实现, `quicktemplate` 是个很好的选择。...

Golang telegram 机器人小试

telegram 的机器人接口很开放,使用简单,100%开放无限制,相对微信服务号、公众号好很多。用来做一些小应用也很方便。下面是使用golang sdk 开发telegram 机器人的经验。...

Write a Comment to "golang 中文分词库比较"

Submit Comment Login
Based on Golang + fastHTTP + sdb | go1.22.3 Processed in 0ms