聊聊k8s的hostport和NodePort

NodePort

说到NodePort这种 service 类型, 大家应该都很熟悉了,主要是用来给一组 pod 做集群级别的代理,当然也可以通过设置 XX 让他只在特定节点生效。
集群级别的nodeport:

apiVersion: v1
kind: Service
metadata:
name: tools-test-service
spec:
type: NodePort
selector:
app: tools-test
ports:
- port: 8000
targetPort: 8000
# By default and for convenience, the Kubernetes control plane will allocate a port from a range (default: 30000-32767)
nodePort: 30007

部署后可以查看service:

$ kubectl get svc  tools-test-service
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
tools-test-service NodePort 10.247.60.117 <none> 8000:30007/TCP 30s

nodeport 如果可以不用填写,这样 kubernetes 会从 30000-32767 这个端口段随机选择一个未被使用的端口。其实这个等于采用默认的外部流量策略externalTrafficPolicy: Cluster
如果希望指定特定节点做 proxy,可以通过设置 externalTrafficPolicy 字段等于 Local:

apiVersion: v1
kind: Service
metadata:
name: tools-test-service
spec:
type: NodePort
externalTrafficPolicy: Local
selector:
app: tools-test
ports:
- port: 8000
targetPort: 8000
nodePort: 30008

到宿主机节点上,可以看到,service 通过 kube-proxy 开启了 10.213.20.196:30008 的监听, 10.213.20.196 是节点:

# netstat -anp | grep 30008
tcp 0 0 10.213.20.196:30008 0.0.0.0:* LISTEN 7389/kube-proxy

HostPort

NodePort 虽然可以给 pod 提供节点级别的 porxy,但是如果对于一个daemonset,采用 NodePort 方式来申明节点端口就不这么直观了,这个时候就可以使用pod的 hostport 来直接在pod的节点上暴露端口。

apiVersion: apps/v1
kind: DaemonSet
metadata:
labels:
app: tools-test
name: tools-test
spec:
selector:
matchLabels:
app: tools-test
template:
metadata:
labels:
app: tools-test
spec:
containers:
- command:
- python
- -m
- http.server
ports:
- containerPort: 8000
# When you bind a Pod to a hostPort, it limits the number of places the Pod can be scheduled, because each <hostIP, hostPort, protocol> combination must be unique
hostPort: 10000
name: http
protocol: TCP
image: python:3.9.5
imagePullPolicy: IfNotPresent
name: tools-jupyter
resources: {}

设置完就可以了。

那 hostport 的实现原理是怎么样的呢?是不是也是开了一个程序监听?通过到节点执行 netstat -anp| grep 10000,发现并没有启动一个监听程序,那说明很可能走的是iptables,我们看看 iptables 的 nat 表:

$ iptables -S -t nat | grep CNI-DN-9c969028fa2789c46c080
# Warning: iptables-legacy tables present, use iptables-legacy to see them
root@kubeflow-worker:/# iptables -S -t nat

-N CNI-HOSTPORT-SETMARK
-N CNI-HOSTPORT-MASQ
-N CNI-HOSTPORT-DNAT
-N CNI-DN-2a6b9967ebd3cd7a5eeb3

-A PREROUTING -m addrtype --dst-type LOCAL -j CNI-HOSTPORT-DNAT
-A POSTROUTING -m comment --comment "CNI portfwd requiring masquerade" -j CNI-HOSTPORT-MASQ
-A OUTPUT -m addrtype --dst-type LOCAL -j CNI-HOSTPORT-DNAT

-A CNI-HOSTPORT-SETMARK -m comment --comment "CNI portfwd masquerade mark" -j MARK --set-xmark 0x2000/0x2000
-A CNI-HOSTPORT-MASQ -m mark --mark 0x2000/0x2000 -j MASQUERADE
-A CNI-HOSTPORT-DNAT -p 6 -m comment --comment "dnat name: \"kindnet\" id: \"07dbe45d8e31690c76141e5e16132b086f6a2d5b63216584009b990a7c08552c\"" -m multiport --dports 10000 -j CNI-DN-2a6b9967ebd3cd7a5eeb3
-A CNI-DN-2a6b9967ebd3cd7a5eeb3 -s 10.244.1.155/32 -p 6 -m tcp --dport 10000 -j CNI-HOSTPORT-SETMARK
-A CNI-DN-2a6b9967ebd3cd7a5eeb3 -s 127.0.0.1/32 -p 6 -m tcp --dport 10000 -j CNI-HOSTPORT-SETMARK
-A CNI-DN-2a6b9967ebd3cd7a5eeb3 -p 6 -m tcp --dport 10000 -j DNAT --to-destination 10.244.1.155:8000

iptables 用法参考:
这里目标 pod 的 ip 是 10.244.1.155,通过 iptables 可以看到,通过CNI-HOSTPORT-DNAT匹配目标端口 10000, jump 到 CNI-DN-2a6b9967ebd3cd7a5eeb3 chain,CNI-DN-2a6b9967ebd3cd7a5eeb3 对于源IP不等于10.244.1.155/32127.0.0.1/32 的流量转到 10.244.1.155:8000,这个地址就是目标 pod 对应的 containerPort

注意:按照官方文档说的,除非绝对必要,否则不要为 Pod 指定 hostPort。 将 Pod 绑定到hostPort时,它会限制 Pod 可以调度的位置数,因为每个 组合必须是唯一的。 如果您没有明确指定 hostIP 和 protocol,Kubernetes 将使用 0.0.0.0 作为默认 hostIP 和 TCP 作为默认 protocol,请在使用 hostPort 之前考虑使用 NodePort 服务。

shikanon wechat
欢迎您扫一扫,订阅我滴↑↑↑的微信公众号!