TiDB是一种开源分布式数据库,使用上和mysql基本一致,详细使用说明请参考TiDB官网,中文文档参考TiDB中文说明,TiDB已经集成了Spark框架,可以直接使用Spark直接连接TiDB通过写SQL操作数据来提高任务的执行效率。接下来正式开始...
本文档使用环境如下:
python-version : 3.7
tidb-version : 2.1.8
pyspark-version : 2.3.3
pytispark-version : 2.0
1. 安装python对应的包pyspark和pytispark
pip install pyspark===2.3.3
pip install pytispark===2.0
2. 编写python代码test.py连接tidb
from pyspark.sql import SparkSession
from pytispark.pytispark import TiContext
spark = SparkSession.builder.appName("test") \
.master("spark://181.181.0.30:7077") \
.config("spark.tispark.pd.addresses", "181.181.0.30:2379") \
.getOrCreate()
ti = TiContext(spark)
ti.tidbMapDatabase("mysql")
df = spark.sql("(select * from user)")
df.show()
spark.stop()
3. 运行