
python ai 区块链
python ai 区块链
eric1984
喜欢技术的架构师
展开
-
自然语言处理概览
FrameNet), 人工总结和整理概念、层次、结构等 3、统计语言模型(语言有统计规律性,让机器去自己学习规律) 统计语言模型的细化(怎么描述语言的结构构成,比如词语怎么构成短语,句子,文章)1、单词的组合形成短语(没有顺序和上下文信息),使用词袋来描述短语(one-hot representation)2、组合+序列组成短语。分布表示:包含顺序和上下文信息。 分布表示的形式1、矩阵描述,比如一个词和所有n个词上下文的矩阵(维度太大)2、神经网络表示n-gram,用网络原创 2017-07-04 18:10:34 · 122 阅读 · 0 评论 -
深度学习概览
经元的组合和参数,可以模拟任意复杂的函数。人的大脑通过学习刺激神经元而学习技能和知识,机器学习里用人工神经网络来模拟人类大脑的活动过程。2、深度学习:神经元有多个层次,可以表达不同的抽象层次,可以实现降维、特征选择和标记等效果。3、神经元具有学习的特征:即权重和batis可以根据环境来变化,这样就实现了根据数据来调整算法。4、迁移学习,强化学习(自动驾驶、玩游戏等)二、特点1、不是从数学上想算法,而是通过不断的训练来调整参数,从整体上实现“积累经验”的效果(形象思维)。2、训练结果存原创 2017-07-03 15:56:05 · 99 阅读 · 0 评论 -
数据挖掘概览
--推荐--聚类、分类。一、关于数据统计描述、可视化、相似性和相异性;规约(简化),小波变换,主成分分析(PCA)二、可以做哪些事情http://www.cnblogs.com/tornadomeet/p/3395593.html1、相关性:相关系数、回归分析。FP Growth算法和Eclat算法2、分类:线性、对数线性、逻辑回归树形(符号):C4.5 CART(结果是条件概率)概率:朴素贝叶斯、贝叶斯网络、EM算法神经网络:(感知的时候有网络,推理和工作的时候有规原创 2017-06-30 17:22:29 · 88 阅读 · 0 评论 -
django源代码解析
art_response('200 OK', [('Content-Type', 'text/plain')]) yield "Hello world!\n" 二、主流程的处理1、所有的Application统一是 django/core/handlers/wsgi.py WSGIHandler2、WSGIHandler内部会将整个的处理分为几个阶段1》load_middleware(初始化时进行一次)request_middlewareself._原创 2017-06-08 11:12:15 · 207 阅读 · 0 评论 -
计算理论
底能不能用计算机解决,数学命题的真假就不能3、自动机:描述什么是计算机(计算的形式化描述),即抽象的理想的计算机模型。有些模型能解决具体的问题,但是某些能解决通用的问题 二、 自动机 1、不用人参与,自己可以一直走下去的东西。2、从数学上,计算机是什么?图灵认为 是一个指令执行的序列。算法就是 指令的组合。 3、图灵机不可描述语言:就是这个计算模型解决不了的问题4、验证一个软件是否与说明书完全一致,是不可描述的(算法解决不了)5、2个无穷集合怎么描述大小?只要有原创 2017-04-18 16:35:50 · 70 阅读 · 0 评论 -
python对于时间的抽象
e((year, month, day, 0, 0, 0, d.weekday(), yday, -1)) date.strftime(format) 格式化输出 ordinal 距离(1,1,1)的天数 datetime.datetime 扩展date添加了 now() datetime.strptime(date_string, format) datetime.astimezone(tz) strftime 输原创 2017-02-10 14:47:51 · 68 阅读 · 0 评论 -
机器学习知识梳理二
) 也叫感知机2、广义线性回归:线性模型的函数 y = g(WX+b)3、越阶函数 y = 1/(1 + e^-z) 对数线性回归 近似模拟对数几率回归4、线性判别分析 LDA(linear discriminant analysis) 设法将样本投影到一条直线上,利用协方差和均值的点估计来计算5、最大熵原理:分布未知时认为是均匀分布(先考虑已知的约束),这时随机变量的不确定性最大,熵最大(信息论里代表信息量最大)。在这种情况下,预测的风险最小。6、最大熵模型也是对数线性模型,求解时原创 2017-01-09 17:36:45 · 222 阅读 · 0 评论 -
深度学习思考和理解 一 统计学和信息论
学和概率论是个靠谱的想法。2、不确定性的原因?1》世界本身不确定(比如量子力学) 2》没法掌握影响结果的所有因素(在造物主面前,人类是渺小的) 3》不完全建模(舍弃不需要的细节,太多细节,不利于应用)3、概念上讲,函数关系是概率关系的特例(函数值出现的概率恒等于1)。所以函数关系都可以改造成概率的模式(核心是满足概率的和是1),如果在改造的同时,能够满足一些比较好的分析性质(连续、可微、可积分、凸函数),就是非常爽的一件事。在函数的名字上,这些概率化的函数一般都叫做 softXXX4、贝叶斯原创 2017-09-18 11:00:01 · 189 阅读 · 0 评论 -
智能投研思考
绩分析和反馈。其中最核心的是研究和投资决策。AI目前可以对投资整个过程造成影响。对于最核心的研究和投资。一、目前至少可以考虑实现:1、垂直领域的全文检索,(极大提高研究员的工作效率,不用自己去search)2、相关性分析。比如,推荐相关的股票。3、自动发现主题。可以实现基于舆情的关注度策略。4、nlp舆情分析。实时的负面情绪监控可以止损,正面情绪可以做投资参考。5、财务造假识别、智能分析财报的“坑”。 二、相关的AI技术主要是nlp中的相关性分析、推荐系统、舆情分析、文本原创 2017-09-01 16:11:22 · 155 阅读 · 0 评论 -
tensorflow python api
onframework:对c++的绑定client:处理sessionEstimator:评估器的抽象,Estimator包装类、输入的队列缓存models:实现的modelcontrib:高层的抽象layers:层nn:Neural Network contrib细节:tf.contrib.bayesflow.entropy 香农信息论tf.contrib.bayesflow.monte_carlo Monte Carlo integration 蒙特原创 2017-09-01 14:31:06 · 132 阅读 · 0 评论 -
各种神经网络结构
的性能是网络在有监督方式下学会的,网络的结构主要有稀疏连接和权值共享两个特点,包括如下形式的约束:1 特征提取。每一个神经元从上一层的局部接受域得到突触输人,因而迫使它提取局部特征。一旦一个特征被提取出来, 只要它相对于其他特征的位置被近似地保留下来,它的精确位置就变得没有那么重要了。2 特征映射。网络的每一个计算层都是由多个特征映射组成的,每个特征映射都是平面形式的。平面中单独的神经元在约束下共享相同的突触权值集,这种结构形式具有如下的有益效果:a.平移不变性。b.自由参数数量的缩减(通过权值共享原创 2017-08-30 17:23:24 · 123 阅读 · 0 评论 -
tensorflow 一
epoch:把所有训练数据完整的过一遍。3、step_num:过一遍需要的训练的次数。4、patch:每次进行梯度训练时,使用的数据子集5、泛逼近定理 “Universal approximation theorem”, 一个隐藏层可以任意逼近连续函数 二、tensorflow基础1、用计算图描述分布式计算任务,每个session有个默认graph 2、op 是graph的节点,描述计算操作3、常量是op,取数据也是op4、placeholder 实现类似于模板渲染的效果原创 2017-08-16 16:19:02 · 103 阅读 · 0 评论 -
推荐引擎
le/git clone https://github.com/muricoca/crab.gitpython setup.py install Model: user item喜好矩阵 (稀疏表示,没有语义信息,可以考虑使用word2vec)uid:{itemid:preference}Similarity: 基于user还是item,进行协同过滤recommender:过滤的方式,比如knn 基本上是不太靠谱的实现(过于简单) word2vec-rec原创 2017-08-14 17:53:05 · 74 阅读 · 0 评论 -
nlp示例代码
iesfrom cleaner import StopWordFilterdef test_lsi_query(dictionary, lsi, index): teststr = u'哈哈有个评论太可爱了,你们知道吴京有多努力吗?不过打一星是看新闻气的。'filter = StopWordFilter() vec_bow = dictionary.doc2bow(filter.transform(jieba.cut(teststr))) vec_lsi = l原创 2017-08-11 17:28:57 · 103 阅读 · 0 评论 -
nlp 统计语言模型
后进行分类、相关性分析等处理。 一、bow(bag of word)单词的组合,表示文档。不考虑单词的顺序和上下文。 二、n-gram模型除了bow还考虑上下文三、词的向量化(数学建模):1、one hot representation 除了一个维度是1,剩余的都是02、distributed representation one hot太稀疏,所以先让神经网络学习向量空间的映射,从稀疏表示变成分布式表示(深度学习的特色就是自动提取特征)。每个词映射为一个小向量,其中原创 2017-08-08 17:41:50 · 133 阅读 · 0 评论 -
自然语言处理某个pipeline
个分词的相似度、和哪些相关同时和别的不相关(语义上的模糊查找)比如:中国银行:[["中国工商银行", 0.7910350561141968], ["601988", 0.7748256921768188], ["工商银行", 0.7616539001464844], ["建设银行", 0.7573339939117432], ["中国建设银行", 0.7504717707633972], ["原创 2017-08-02 17:34:28 · 124 阅读 · 0 评论 -
相关的库
web挖掘snownlp中文处理集成包Scikit-learn:机器学习keras 深度学习库Natural Language Toolkit (NLTK):主要是针对英文,大而全的研究性软件包,可以使用其分类功能crab 推荐引擎word2vec-recommender 推荐引擎textsum:文本抽取情感分析 xiaohan2012/twitter-sent-dnn https://github.com/keon/awesome-nlp#user-conten原创 2017-08-14 16:16:35 · 96 阅读 · 0 评论 -
pandas 小技巧
ts[is_noise & in_brooklyn][:5]2、计数complaint_counts = complaints['Complaint Type'].value_counts()complaint_counts[:10]3、分类计数weekday_counts = berri_bikes.groupby('weekday').aggregate(sum)4、合并weather_2012 = pd.concat([f(x) for x in l])原创 2018-01-05 17:34:01 · 87 阅读 · 0 评论 -
c++以太坊编译
uild cmake .. cmake --build . 编译结果在每个子目录中原创 2017-12-04 16:22:35 · 102 阅读 · 0 评论 -
编译solc
c devtoolset-3-gcc-c++source /opt/rh/devtoolset-3/enablescl enable devtoolset-2 bash # cmakesudo yum -y remove cmakesudo yum -y install cmake3sudo ln -s /usr/bin/cmake3 /usr/bin/cmake # boosttar zxvf boost_1_61_0.tar.gzsudo ./bootstr原创 2017-12-01 17:27:01 · 116 阅读 · 0 评论 -
区块链技术概览
https://github.com/corda/corda 实现语言 Kotlin(JVM)2、超级账本hyperledger (代表技术极客)Linux基金会于2015年发起的推进区块链数字技术和交易验证的开源项目。主要实现形式是IBM的开源项目fabric(golang实现) 源代码 go版本(功能最全) https://github.com/hyperledger/fabric c++版本 https://github.com/hyperledger/iroha python版本(功能很少) h原创 2017-12-05 16:44:12 · 731 阅读 · 0 评论