
DataScience
datadev_sh
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
word2vec不能结束训练
分类目训练商品 word2vec。logger.info("Training...")logger.info(" history_index len :%s" % len(self.history_index))if len(self.history_index) > 10: # 有10条以上数据才计算logger.info(" start Word2Vec ... ")model = Word2Vec(self.history_index, size=representation_siz原创 2020-07-06 16:56:59 · 340 阅读 · 0 评论 -
PYSPARK_PYTHON 环境问题
报错Exception: Python in worker has different version 2.7 than that in driver 3.7, PySpark cannot run with different minor versions.Please check environment variables PYSPARK_PYTHON and PYSPARK_DRIVE...原创 2020-04-17 14:31:22 · 1137 阅读 · 0 评论 -
宗成庆《统计自然语言处理》 目录的思维导图
原创 2018-11-22 14:16:07 · 3258 阅读 · 1 评论 -
hive分隔符\001和\011与\x03 用pandas切割时出现的问题
hive导出数据,想找一个分隔符。hive默认分隔符是“\001”。想换个其他的。在ASCII码对照表中找了下,决定用“\0011”。然后Hive能正常数据,到notepad++里面显示的字符和ASCII码对照表里的是一样的。但是在用“\011”切割时,切割不出,且字段首位不能有空格。后来用“EmEditor”打开这个文件,使用查找替换功能时,发现这个字符被显示为“\x03”。所以在...原创 2018-11-28 14:00:51 · 18136 阅读 · 0 评论 -
设置Jupyter Notebook工作目录,4种方法都不行,所以改源码
直接看第5段。下面是思考过程,最终方法在第5段。更改Jupyter Notebook起始目录,网上说了4中方法,但是有时候行,有时候不行。有的电脑行,有的电脑不行。https://blog.youkuaiyun.com/qq_33039859/article/details/54604533然后想到修改源码的方法。1.找程序目录根据启动jupyter时的控制台信息,知道jupyter程序文件在An...原创 2018-12-01 17:22:05 · 6693 阅读 · 0 评论 -
opencv Error: Assertion failed (size.width>0 && size.height>0) in cv::imshow,
opencv 报错Error: Assertion failed (size.width>0 && size.height>0) in cv::imshow,原因:路径不能有中文。更多:https://blog.youkuaiyun.com/sinat_39150454/article/details/74315806https://stackoverflow.co...原创 2019-01-21 13:59:19 · 2771 阅读 · 2 评论 -
mac windows 安装两个python环境
同时拥有python3和python2环境。anaconda下载地址https://www.anaconda.com/distribution/#download-section用anaconda图像界面操作# 安装好后,使用activate激活某个环境activate python34 # for Windowssource activate python34 # for Linu...原创 2019-02-15 15:13:25 · 1111 阅读 · 0 评论 -
scala spark 的sc.makeRDD速度慢
原来的写法sc.makeRDD(HashMap.toSeq).sortBy(_._2).take(firstN)有两处这样的写法,5万条数据,计算了84分钟。11:52:56 13:16:10后来的写法ListMap.toList.sortBy(_._2).take(firstN)有两处这样的写法,172万条,不到两分钟计算完成。其他参数 .set("spark.d...原创 2019-03-14 13:56:11 · 1377 阅读 · 0 评论 -
解决mac使用 lightgbm 时 image not found
brew install cmakebrew install gccgit clone --recursive https://github.com/Microsoft/LightGBM ; cd LightGBM看自己电脑上,gcc是几。我的mac是8。 /usr/local/opt/gcc/lib/gcc/8cd /usr/local/opt/gcc/lib/gcc/xin:~...原创 2019-03-25 15:18:59 · 2766 阅读 · 0 评论 -
'gbk' codec can't decode byte 0xbf in position 2: illegal multibyte sequence
python 读取文件报错UnicodeDecodeError Traceback (most recent call last)<ipython-input-6-0e9485397930> in <module>() 6 path = "data.txt" 7 with open(path,'r')...原创 2018-11-21 17:56:54 · 3787 阅读 · 0 评论 -
运行 Spark ALS 程序 内存溢出
执行这个20几条记录,机器就会内存溢出,在本地、单机服务器都是这样。换个电脑也是这样。后来也改了代码,还会这样。不过才这么几条数据,就内存溢出,讲不通啊。后来找到一个临时解决方法,就是删除这个application,重新运行。删除后的第一次运行基本都能运行成功。第二次运行就会失败。那么然后就在VM option 里面添加参数:-Xmx10G 。就又能运行几次。...原创 2018-10-31 15:14:04 · 1753 阅读 · 0 评论 -
spark-submit 超时 Executor heartbeat timed out after 123574 ms
提交任务到spark集群,老是超时。至于超时原因,可能是计算量太大。解决方案:提交时,加一个参数“–conf spark.network.timeout=10000000”。spark-submit –conf spark.network.timeout=10000000 \参考:https://stackoverflow.com/questions/37260230/spark-clu...原创 2018-10-30 14:18:43 · 18431 阅读 · 0 评论 -
scala object 无法执行
scala object 无法执行。原因:没有把文件夹标记为源码目录。解决方案:在源码根目录下,右击,标记为源码目录。原创 2018-10-30 14:40:19 · 1877 阅读 · 0 评论 -
Could not parse Master URL: 'loacl[12]'
代码里设置了是spark本地运行,Master是“local[12]”,但是运行后说无法识别。出现过好几次,具体原因没有找到。解决方案:重启idea后就好了。 val conf = new SparkConf().setAppName("ALSCode2Recomm").setMaster("local[*]")报错信息:18/10/24 11:46:10 WARN Utils: Se...原创 2018-10-30 14:46:10 · 9420 阅读 · 1 评论 -
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc9 in position 0: invalid continuation byte
pandas读取一个文件出错。data = pd.read_csv('D:/code/data/rating22.csv')解决方案:用notepad++打开这个文件,将文件用Unicode编码重新保存。Traceback (most recent call last): File "C:/xin/code/gitlab/datascience-py/search-sort/read...原创 2018-10-30 14:50:51 · 89666 阅读 · 1 评论 -
数据科学DataScience环境
anaconda36https://www.anaconda.com/download/配置目录在C:\Users\用户.jupyter 目录下新建一个 jupyter_notebook_config.py 文件写一行内容,注意:斜杠一定要是“ / ” 。c.NotebookApp.notebook_dir='D:/code/jupyter'数据科学包pip install pys...原创 2018-11-07 16:41:55 · 929 阅读 · 0 评论 -
spark-submit几种情况
1.打包打包后,生成两个文件,一个是只包含代码的,一个是包含所有jar包的。2.提交2.1.提交scala文件spark-submit --executor-memory 5g --driver-memory 3g --master spark://node11:7077 < als.scala2.2.提交py文件spark-submit --driver-memory 2...原创 2018-11-07 17:56:22 · 4319 阅读 · 0 评论 -
python pandas 路径中有中文 OSError: Initializing from file failed
data = pd.read_csv('D:/code/data/original-data/item-sort/3 - 副本.txt', header=None)OSError: Initializing from file failed原创 2018-11-08 19:24:47 · 509 阅读 · 0 评论 -
Python TypeError: 'newline' is an invalid keyword argument for this function
写一个存为csv文件的代码 with open(outputFile, 'w', newline='') as csvfile: writer = csv.writer(csvfile) for item in sortsim: writer.writerow([item[0], item[1], item[2]])出现问题了Traceback (mo...原创 2018-10-29 15:50:19 · 8153 阅读 · 0 评论