在做一个图像的项目,为期3个月,前两个月进行开发,开发比较顺利,最后留一个月进行测试,测试的过程中,我们自己模拟客户各种可能的请求,包括压力测试都通过了。可是在项目最后和客户交接的过程中,遇到了我写代码有史以来的最大的BUG。
客户在使用的过程中发现,视频流在传输的过程中经常会发生中断,没有数据传回。一开始认为是网络不稳定造成的,经过对方专业人员测试确实存在网络不稳定,造成视频流卡顿,获取不到图像帧。他们通过增加CDN节点和带宽解决了这个事情,可还是经常发生程序卡在那里一动不动,读不到帧也不进行识别,也没有结果回传。经过3天和一个周末的加班加点排查。终于发现了bug.
出错的code如下:
def run_web_service(disque_addr, port=9090):
"""
Initialize TSocket API
"""
try:
disque_client = DisqueClient(disque_addr)
handler = UplinkHandler(disque_client)
processor = Uplink.Processor(handler)
transport = TSocket.TServerSocket("0.0.0.0", port)
tfactory = TTransport.TFramedTransportFactory()
pfactory = TBinaryProtocol.TBinaryProtocolFactory()
# pfactory1 = TCompactProtocol.TCompactProtocolFactory()
# server = TServer.TThreadedServer(processor, transport, tfactory, pfactory)
server = TServer.TThreadPoolServer(
processor, transport, tfactory, pfactory,
threads=DEFAULT_THRIFT_SERVER_NUM_THREADS
)
#server = TNonblockingServer.TNonblockingServer(
# processor, transport, pfactory, pfactory,
# threads=DEFAULT_THRIFT_SERVER_NUM_THREADS
#)
LOGGER.info("Starting thrift server in python..")
server.serve()
finally:
transport.close()
我在构建thrift_server时,采用的是TNonblockingServer的方式,即长连接非阻塞的通信方式,提高通信的效率。没想到这种方式在有大量图片数据并行传输的过程中造成了阻塞,经过分析log,发现print的log是严格顺序输出的,该方式并不是采用多线程的方式并行通信的,即单线程!!!!效率极其低下!!!!当时很是无语,感觉上当受骗!!!
最后改为TServer.TThreadPoolServer()的方式。所有问题迎刃而解。
详细原因请参考我的另一篇博客:
http://blog.youkuaiyun.com/dyx810601/article/details/79163848