Golang+selenium+chrome headless + goquery 在Linux 上作爬虫实践

以前使用PhantomJS，但效果并不好，现在使用Golang+selenium 驱动 chrome headless 模式，再用 goquery 解析html 字符，很方便。

首先在服务器上安装最新版本的 chrome 和 chromedriver

chrome https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
chromedriver https://sites.google.com/a/chromium.org/chromedriver/downloads
- 新地址 https://sites.google.com/corp/chromium.org/driver/

安装

Bash: 安装 google-chrome

apt-get update
apt-get install libxss1 libappindicator1 libindicator7
apt-get install curl
wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
dpkg -i google-chrome*.deb
apt-get install -f

Bash: 安装 chromedriver

wget https://chromedriver.storage.googleapis.com/2.43/chromedriver_linux64.zip
apt-get install unzip
unzip chromedriver_linux64.zip
cp chromedriver /usr/bin/

chrome headless 配置

启动 chrome 及简单配置

Go: 启动 chrome 及简单配置

var opts []selenium.ServiceOption
caps := selenium.Capabilities{
    "browserName": "chrome",
}

// 禁止加载图片，加快渲染速度
imgCaps := map[string]interface{}{
    "profile.managed_default_content_settings.images": 2,
}

chromeCaps := chrome.Capabilities{
    Prefs: imgCaps,
    Path:  "",
    Args: []string{
        "--headless",
        "--start-maximized",
        //"--window-size=1200x600",
        "--no-sandbox",
        "--user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36",
        "--disable-gpu",
        "--disable-impl-side-painting",
        "--disable-gpu-sandbox",
        "--disable-accelerated-2d-canvas",
        "--disable-accelerated-jpeg-decoding",
        "--test-type=ui",
    },
}
caps.AddChrome(chromeCaps)

// 启动 chromedriver server
service, err := selenium.NewChromeDriverService("chromedriver", port, opts...)
if err != nil {
    log.Printf("Error starting the ChromeDriver server: %v", err)
    return
}
defer service.Stop()

打开一个网页

Go: 打开一个网页

// 打开 chrome 浏览器
wd, err := selenium.NewRemote(caps, fmt.Sprintf("http://localhost:%d/wd/hub", port))
if err != nil {
    log.Println(err)
    return
}
defer wd.Quit()

然后加载URL

Go: 加载URL

err = wd.Get(curURL)
if err != nil {
    log.Println(fmt.Sprintf("Failed to load page: %s\n", err))
}

判断加载完成

Go: 判断加载完成

jsRt, err := wd.ExecuteScript("return document.readyState", nil)
if err != nil {
    log.Println("exe js err", err)
}
fmt.Println("jsRt", jsRt)
if jsRt != "complete" {
    log.Println("网页加载未完成")
    return
}

获取网站内容

Go: 获取网站内容

var frameHtml string

time.Sleep(1 * time.Second)
frameHtml, err = wd.PageSource()
if err != nil {
    log.Println(err)
    return
}

解析 html 文件

这里推荐使用 goquery

Go: 解析 html 内容

var doc *goquery.Document
doc, err = goquery.NewDocumentFromReader(bytes.NewReader([]byte(frameHtml)))
if err != nil {
    log.Println(err)
    return
}

doc.Find("li.s-result-item").Each(func(liIndex int, liItem *goquery.Selection) {
    // do something
})

selenium go 驱动库

selenium https://github.com/tebeka/selenium

本文网址: https://golangnote.com/topic/232.html 转摘请注明来源

Golang 爬虫工具 goquery 推荐

goquery 是基于标准库net/html 实现的用于解析 HTML 的库，是使用 jQuery 的方式去操作 DOM。...

golang Selenium WebDriver 使用记录

Selenium WebDriver 直接通过浏览器自动化的本地接口来调用浏览器，以达到模拟浏览器行为的操作，如点击、选择、鼠标移动等。下面是记录个人使用golang 驱动的记录。...

Golang 几种判断 Contains/包含的性能比较

Go 语言判断元素列表里是否包含某个元素，通常有两种方法：遍历列表、转为map后判断是否包含key。...

Golang 按行读取大文件效率较好的方法

个人使用中发现，按行读取较大文件 10～100MB ，使用 `ReadSlice()` 比 `scanner.Scan()` 性能好一些。...

Golang 字符串 Split、index和 LastIndex 的性能

对一个字符串做分割操作，可以用 `Split` 或 `Index` 来实现，这里对这两者的性能做一个简单比较。...

Golang 二维数组旋转

二维数组旋转，类似2D图像作90度旋转...

Golang 用snappy + Base64 简单压缩加密进行网络传输

snappy 是较省 CPU 的压缩算法，速度快，可以用于简单数据压缩，结合 Base64 进行网络传输。...

golang http 转向状态码的小区别

http 跟转向相关的状态码，要恰当使用，避免直接跳转。...

Golang 实现视频投屏到智能电视

将视频文件投屏到智能电视有很多种方法，这里是介绍基于 `UPnP/DLNA` 的投屏方式。...

GolangNote says: 2021-11-07 23:13:54
@pykill8 #1 不能

pykill8 says: 2021-11-06 14:21:43
这可以动态熏染？

golang小白 says: 2021-07-30 17:50:19
`copy(items[0:n], ...

L says: 2021-04-05 22:23:30
``` go PortScanpac...

GolangNote says: 2021-02-27 10:37:18
@HDJ #1 官方SDK注释说明了...

GolangNote says: 2021-02-27 10:27:06
@smallwhite #1 预分配...

GolangNote says: 2021-02-26 22:53:11
@frank #1 上面的例子很完整...

darrykinger says: 2021-02-04 04:36:38
go-fastping.go 那个e...

HDJ says: 2020-08-14 08:54:08
可是strings.Compare也...

GolangNote says: 2020-05-22 15:29:43
@no 国内本地开发，如果是 `ht...

GolangNote

Golang笔记