JD Blog

A thousand-li journey is started by taking the first step.

Image Data Processing

图像数据如何输入到神经网络,如何图像数据规范化,如何人为增加图像数据,如何解决增加图像数据后产生效率下降问题。 下面引用《TensorFlow:实战Google深度学习框架(第2版)》第七章内容来解决上述问题。 TFRecord输入数据格式 使用词典来维护图像和类别的关系的可扩展性非常差,当数据来源更加复杂、信息更加丰富,就很难有效记录输入数据中的信息。于是TensorFlow提供了T...

Run with TensorFlow

Linear Regression with TensorFlow 根据正常的线性回归公式,如下 \[\hat{\theta}=(X^T\cdot X)^{-1}\cdot X^T \cdot y\] 可用TensorFlow来实现 import numpy as np from sklearn.datasets import fetch_california_housing i...

Ensemble Model

Voting Classifiers 所谓三个臭皮匠赛过诸葛亮,这就是投票集成模型的基本。当学习器各自都是独立的,这样它们可能犯不同的错误,这样效果最佳。 hard voting hard voting是让每个弱学习器预测,然后进行投票,取获得最多票数的结果。如下图: 下面是将逻辑回归,随机森林,支持向量机三种弱学习器使用VotingClassifier进行投票集成。 from...

Cross Validation iterators

交叉检验在机器学习项目中起到提高泛化能力的作用。针对不同样本,使用不同抽样方案。 Cross-validation iterators for i.i.d. data 在机器学习理论中,数据独立同分布是很常见的假设。尽管现实很少见,但是效果还是不错滴。 K-fold 将原本分成K份,其中将第i份当做测试集,剩下的当做训练集,其中\(i\in (1,K)\),这样需要训练K次。 ...

Model Evaluation

模型性能评估在机器学习中是不可或缺的环节,下面总结了sklearn中比较常用的。 设计时为了统一规则,scoring都是越大越好,像metrics.mean_squared_error是取它的负值neg_mean_squared_error。 Classification accuracy 精确度的计算公式为 \[accuracy(y,\hat{y})=\frac{1}{n...

End to End Machine Learning Project

前段时间在玩Kaggle,看到这本书,写的真的很实用,在这就分享下如何玩转机器学习项目。 Get the Data 在机器学习项目中,可能会有80%的时间花费在数据的处理上,这是一个很重要的部分,有句话叫“Garbage in,garbage out”,也就是说机器学习的算法的提升可以决定预测的下限,但是数据的质量可以决定预测的上限。我们将在这上面花费大量的精力。 在Kaggle比赛中...

Catergorical Attributes

定性特征的处理 最近看到一篇解决High-Cardinality Categorical Attributes的论文,收益颇多,在这总结一番。 low-cardinality categorical attributes 先来看看常见的低基数的定性特征。 1.特征是数值型,可以使用sklearn.preprocessing.OneHotEncoder: from sklearn....