philm-iOS-wiki
  • 介绍
  • 网络层
    • 说明
  • UI
    • 说明
    • 在ios7以前使用ColorSpace的坑
    • UITableView偏移异常问题
    • drawRect时单独设置文字阴影无效
    • Xcode9下相册访问权限问题
    • 避免同时点击多个Button
    • scroll上的button延迟响应问题
    • uibutton触发边界事件
    • ios 11 上tableview 改动
    • YYImage 显示指定区域的图片
  • 数据持久化
    • 说明
  • 其它
    • 取消延迟执行之坑
    • NSString 转换 float 的精度问题
  • 每周阅读
    • 目录
    • 深入思考NSNotification
    • gitBook使用小助手
    • iOS App签名的原理
    • 响应链
    • iOS10跳转系统到设置页
    • SDWebImage下载高清图内存问题
    • iOS圆角避免离屏渲染
    • 常用的延时调用
    • iOS 神经网络
    • SDWebImage缓存策略
    • 3Dtouch
    • 为什么 Objective-C 对象存储在堆上而不是栈上
    • 深入浅出理解视频编码H264结构
    • CATextLayer学习
    • cocoaPods
    • 任意网站支持RSS
    • Metal简介
    • 动态更改icon
    • CAReplicatorLayer
    • 增加点击间隔
    • 勒索病毒当道的时代
    • iOS常用宏定义
    • Metal实现YUV转RGB渲染视频
    • 获取当前下载的app及下载进度
    • OpenGL ES 三种类型修饰 uniform attribute varying
    • 技术部门引入OKR
    • 基于runloop的线程保活、销毁与通信
    • 深入理解哈希表
    • TOLL-FREE BRIDGING 和 UNMANAGED
    • 开发者能拿到的标识符
    • Swift自定义LOG
    • 系统通知整理
    • iOS 中的 imageIO 与 image 解码
    • CGImageRef基本介绍及方法说明
    • Swift 3.0 语法
    • webview加载部分网页
    • 在CAAnimation中暂停动画
    • 把代码迁移到协调器上
    • ios11API更新整理
    • 非越狱iOS设备的远程控制实现原理
    • 关于本地化
    • swift命名空间
    • CoreML与coremltools体验
    • 力学动画
    • Swift 4官方文档中文版: The Basic(上)
    • swift 中的KVO用法
    • GPUImage的图像形变设计(简单形变部分)
    • iOS响应式架构
    • 移动端图片上传旋转、压缩的解决方案
    • AVFoundation使用指南AVAssert使用
    • 过渡动画
    • 谈谈 MVX 中的 Model
    • AVFoundation编程-AVPlayer使用
    • GPUImage的图像形变设计(复杂形变部分)
    • What's New in LLVM 9
    • ios的事件机制
    • GPUImage源码解读(一)
    • GPUImage源码解读(二)
    • iOS 启动优化
    • 模块化 Swift 中的状态
    • swift中的let和var背后的编程模式
    • Swift Runtime动态性分析
    • RAC下的响应式编程
    • GPUImage源码解读(三)
    • 如何准确判断webView是否加载完成
    • NSObject的+load和+initialize详解
    • ios8以后设置启动图
    • GPUImage源码解读(四)
    • Swift自动闭包
    • IOS11新特性
    • GPUImage源码解读(五)
    • 理解 OC 内部的消息调用、消息转发、类和对象
    • 修饰符
    • IOS 切面统计事件解耦
    • GPUImage源码解读(六)
    • CoreImage介绍
    • 影响Core Animation性能的原因
    • Instruments中的动画工具选项介绍
    • GPUImage源码解读(七)
    • Xcode 7新的特性Lightweight Generics 轻量级泛型与__kindof修饰符
    • GPUImage源码解读(八)
    • Core Image之自定 Filter
    • iOS通用链接
    • 谈nonatomic非线程安全问题
    • 深拷贝与浅拷贝
    • CIKernel 介绍
    • iOS11适配
    • GPUImage源码解读(九)
    • CVPixelBufferCreate使用的坑
    • ios一窥并发底层
    • ARKit进阶:物理世界
    • ARKit的工作原理及流程介绍
    • UI线程卡顿监控
    • FBKVOController使用
    • GPUImage源码解读(十)
    • WKWebView在ios11崩溃问题解决方法
    • 微信iOS SQLite源码优化实践
    • HEIF 和 HEVC 研究
    • 谈谈 iOS 中图片的解压缩
    • 提升 iOS 开发效率! Xcode 9 内置模拟器的9个技巧
    • ObjC和JavaScript的交互,在恰当的时机注入对象
    • iOS数据保护
    • iOS11中网络层的一些变化(Session707&709脱水版)
    • GPUImage源码解读(十一)
    • 一种避免 iOS 内存碎片的方法
    • pods的原理
    • GPUImage源码解读(十二)
    • GPUImage源码解读(十三)
    • iOS 11 Layout的新特性
    • iOS应用瘦身方法思路整理
    • GPUImage源码解读(十四)
    • CAEmitterLayer属性介绍
    • 浅析移动蜂窝网络的特点及其省电方案
    • 如何在 table view 中添加 3D Touch Peek & Pop 功能
    • iOS中锁的介绍与使用
    • NSLog效率低下的原因及尝试lldb断点打印Log
    • GPUImage源码解读(十五)
    • GPUImage源码解读(十六)
    • CADisplayLink
    • GPUImage源码解读(十七)
    • CADisplayLink
    • 老生常谈category增加属性的几种操作
    • 30行代码演示dispatch_once死锁
    • GPUImage源码解读(十八)
    • YYImage设计思路
    • GPUImage源码解读(十九)
    • 深入理解Tagged Pointer
    • iOS 11:WKWebView内容过滤规则详解
    • Swift语法对编译速度的影响
    • GPUImage源码解读(二十)
    • GPUImage源码解读(二十一)
    • iOS App间常用的五种通信方式
    • YYCache深入学习
    • 冲顶大会插件
    • iOS高性能图片架构与设计
    • YUV颜色编码解析
    • iOS传感器:App前后台切换后,获取敏感信息使用touch ID进行校验
    • GPUImage源码解读(二十二)
    • GPUImage源码解读(二十三)
    • 从零开始的机器学习 - Machine Learning(一)
    • 从零开始的机器学习 - Machine Learning(二)
    • GPUImage源码解读(二十四)
    • Objective-C消息转发机制
    • iOS 程序 main 函数之前发生了什么
    • MMKV--基于 mmap 的 iOS 高性能通用 key-value 组件
    • Objective-C 消息发送与转发机制原理
    • 谈Objective-C block的实现
    • GPUImage源码解读(二十五)
    • podfile语法
    • 轻量级低风险 iOS 热更新方案
    • 使用objection来模块化开发iOS项目
    • swift 中delegate的使用注意
    • 使用appledoc自动生成api文档
    • UITextChecker的使用
    • ARKit 如何给SCNNode贴Gif图片
    • Unity与iOS平台交互和原生插件开发
    • SceneKit编程珠玑
Powered by GitBook
On this page
  • 前言
  • 回归(Regression)
  • 回归问题相关概念
  • 正文
  • 线性回归LR(Linear Regression)
  • 梯度下降法
  • 损失函数(Loss Function)
  • 梯度下降算法(Gradient descent algorithm)
  • 实践
  • 环境
  • 背景
  • 代码及注释
  • 结果
  1. 每周阅读

从零开始的机器学习 - Machine Learning(一)

PreviousGPUImage源码解读(二十三)Next从零开始的机器学习 - Machine Learning(二)

Last updated 7 years ago

前言

这篇文章的主角是线性回归,也就是LR(Linear Regression)。不过高中生肯定不知道回归是什么吧?我现在前言里面简单介绍一下。

回归(Regression)

回归(Regression)问题是机器学习里面很大的一块。

统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。

不玩定义,直接上例子,设想一下这样的场景: 如果我现在有了一组(身高, 体重)的数据集,可以令身高为x值,体重为y值将其画在纸上,就和下图一样。

图1

那么现在问题来了,假设我身高为1.8m,能不能预测出我的体重?这就是回归要解决的问题,我希望得到一个函数,我输入我的身高之后他能够帮我预测出我的体重。 在这个例子里,我假设身高和体重的关系是线性关系,所以假设模型是y=kx+b这种一次函数,为了确定变量k和b,我需要利用之前的数据去学习出这两个参数。 尽管上面的例子误差很大。因为体重的函数肯定不单单由身高这一个特征(feature)决定,而且即使只有身高一个特征,最佳函数也很可能不是一次函数。

回归问题相关概念

通常,这类预测问题可以用回归(regression)模型进行解决,回归模型定义了输入与输出的关系,输入即现有知识,而输出则为预测。

一个预测问题在回归模型下的解决步骤为: 1.积累知识: 我们将储备的知识称之为训练集(Training Set),毕竟预测是需要过去的数据作为参考的,这个很好理解。 2.学习:当我们有了数据的时候,我们就需要去学习这些数据,为什么说机器学习智能?因为当我告诉计算机我的模型是线性(一次函数)或其他类型的函数然后把数据直接倒进去之后它就能返回给我最后的函数(参数都训练好了)。 3.预测:学习完成后,当接受了新的数据(输入)后,我们就能通过学习阶段获得的对应关系来预测输出。

kaggle上有个给萌新练习的比赛(competition),关于泰坦尼克号的。 主要内容就是给出几千个人的个人信息(性别、年龄,船舱登记,登船口等信息)以及他们是否存活的数据,然后给出一些测试数据,即上面说的个人信息,让你去预测他们是否会存活下来。 有兴趣可以了解一下: 斯坦福 Machine Learning:

正文

这篇博客主要讲的是线性回归(Linear regression),经过前言后大家也知道了,回归里面用到的函数有多种多样的,这个需要开发者自己去选择,这次先介绍最简单的线性回归(Linear regression)。

线性回归LR(Linear Regression)

从数学上来说,给定由d个属性描述的示例x=(x1;x2;...;xd),其中xi是x在第i个属性上的取值,线性模型试图学得一个通过属性的线性组合来进行预测的函数,即

现在我们知道了线性回归模型的基本形式了,那么我们现在的任务就是要去学习出这个w向量和b这些参数的值,有了这个值我们才能去做预测。 一般来说,我们会给w和b一个初始值,然后我们去修正这些值来让这些值符合预期,那么我们怎么去修正这些值呢?我们需要一个损失函数(loss function),这个函数用来指明我的预测值和训练数据实际值的差别。 那么这个损失函数(loss function)是什么,以及我们怎么用它来修正我们的参数w和b,看下面。

梯度下降法

这里我只讲一个梯度下降法,如果以后有需要我会再回来补充。

不知道大家知不知道启发式搜索(Heuristically Search)?

启发式搜索(Heuristically Search)又称为有信息搜索(Informed Search),它是利用问题拥有的启发信息来引导搜索,达到减少搜索范围、降低问题复杂度的目的,这种利用启发信息的搜索过程称为启发式搜索。——百度百科

举个例子,大一大二在大学里面的时候我是有单车的,晚上下课的时候在停车场里面经常忘记自己的车停在哪,要找半天才能找得到,这种就叫盲目搜索,广度优先搜索(BFS)和宽度优先搜索(DFS)都是盲目搜索。

那么如果我手里有个黑科技,能够告诉我我现在距离我的爱车多远,那么我是不是可以以此为依据,往距离逐渐减少的方向去搜索呢?这就是启发式搜索(Heuristically Search),Astar(A*)寻路算法等就是启发式搜索。 启发式搜索与机器学习有一些概念是共通的,那么对于机器学习来说,我也同样需要一个和“距离我爱车多远”这样一个指标来判断我现在参数距离我最优参数有“多远”。我们可以统一的把这种东西叫做损失函数(loss function)

损失函数(Loss Function)

我们给之前例子里的函数一个名字,叫假设函数(hypothesis function),意为预估值函数。损失函数则是用来衡量假设函数(hypothesis function)的准确性,具体衡量指标有很多,这里我们和吴恩达教程里面一样采用平方差的方式计算。

其中函数J就是损失函数(为什么是J我好好奇),函数h是假设函数,可以看到后面是平方差的平均值然后除以了个2。

公式里面的2其实就是为了后面求偏导的时候可以把分数消掉,没什么太大的实际意义。

梯度下降算法(Gradient descent algorithm)

既然我们现在知道了当前怎么评价当前参数的好坏,那么我怎么去修正参数让参数更好(损失函数的最小值)呢? 高中生都知道,在一元函数里面,导数的几何意义就是函数变化增加最快的方向。梯度其实类似,也是类似的,说白了就是一个向量,表示上升最快的方向。

梯度、偏导数部分的补充大家可以自己去看高数书或者网上的一些资料。

那么我们就可以得到一个修正的公式,我们迭代这个公式许多次来修正参数。

这里是减号是因为梯度表示上升最快,所以用的是负梯度。 然后其中其中α表示学习速率(learning rate),这个值越大每次修正的就越多,不过这个不是越高越好,如果太高了可能会一直在最低点“摆动”而无法收敛。也有的使用可变的学习速率,一开始设置较高,接近最低点的过程中逐渐降低。

接下来我们看一下求导之后的结果:

这里有一点值得注意的是,在这个梯度下降中我们每次迭代都使用了所有的m个训练数据,这种也叫批量梯度下降法Batch Gradient Descent,BGD 这样每次迭代都将对m个样本进行计算,计算量大。所以有些优化方案,有兴趣的可以去看一下

现在我们知道了如何去修正参数了,但我们实际上修正之后得到的是损失函数(loss function)的极小值而不一定是最小值

由于起始点(起始参数)的不同,最后可能得到的并不是全局的最优解(损失函数最小)。我说一下从西瓜书上看到的几个优化方法。

1.以多组不同的参数值初始化,反正就是找多个起点选最好的结果。 2.使用“模拟退火”(Simulated Annealing)技术,模拟退火在每一步都以一定概率接受比当前解更差的结果,从而有助于“跳出”局部极小。在每步迭代过程中,接受“次优解”的概率会随着时间的推移而逐步降低,从而保证算法的稳定。 3.使用随机梯度下降,它在计算梯度的时候加入了随机因素,所以即使陷入了局部极小值,它计算出来的梯度仍然可能不为0,这样就有机会跳出局部极小继续搜索。

实践

环境

如果你不想被配环境烦死的话,我真的推荐装Anaconda,除此之外要说的就是我用的都是Python3.x。

背景

在这个练习中,我们要用简单线性回归实现预测食物卡车的利润。我们现在已经有了(城市人数,城市利润)这样的许多对数据,现在我要做的就是用线性回归模型并训练出参数来预测我如果给另一个城市(城市人数),那么卡车的利润是多少。

代码及注释

# 参考http://www.johnwittenauer.net/machine-learning-exercises-in-python-part-1/
import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 计算损失,用了矢量化编程而不是for循环
def computeLoss(X, y, theta):
inner = np.power(((X * theta.T) - y), 2)
return np.sum(inner) / (2 * len(X))

# 梯度下降部分
def gradientDescent(X, y, theta, alpha, iters):
temp = np.matrix(np.zeros(theta.shape))
parameters = int(theta.ravel().shape[1])
cost = np.zeros(iters)

for i in range(iters):

error = (X * theta.T) - y
for j in range(parameters):
term = np.multiply(error, X[:,j])
temp[0,j] = theta[0,j] - ((alpha / len(X)) * np.sum(term))

theta = temp
cost[i] = computeLoss(X, y, theta)

return theta, cost

# 读入训练数据
# windows用户路径可能需要修改下,后期有时间可能会做统一
def loadData(path):
trainingData = pd.read_csv(path, header=None, names=['Population', 'Profit'])

trainingData.head()

trainingData.describe()

trainingData.plot(kind='scatter', x='Population', y='Profit', figsize=(12,8))
plt.show()
return trainingData

trainingData = loadData(os.getcwd() + '/../data/ex1data1.txt')

# 在数据集前插入一列Ones作为常数系数,也就是y=k*x+b*1这种形式
trainingData.insert(0, 'Ones', 1)

# 将输入X以及输出y从数据集中分割
cols = trainingData.shape[1]
X = trainingData.iloc[:,0:cols-1]
y = trainingData.iloc[:,cols-1:cols]

# 把pandas的DataFrames转换成numpy的矩阵
X = np.matrix(X.values)
y = np.matrix(y.values)
# 初始化参数为全0的,当然也可以初始化成其他的
theta = np.matrix(np.array([0,0]))

# 各向量的维度
X.shape, theta.shape, y.shape

# 初始损失函数值
computeLoss(X, y, theta)   # 32.07,后面可以看看训练完后的损失函数值

# 设置学习速率以及迭代次数
alpha = 0.01
iters = 2000

# 使用梯度下降得到模型参数
theta_fin, loss = gradientDescent(X, y, theta, alpha, iters)
theta_fin

# 计算训练后的参数的损失值
computeLoss(X, y, theta_fin)  # 4.47

# 为了画线用的,画出训练好后的直线
x = np.linspace(trainingData.Population.min(), trainingData.Population.max(), 100)
f = theta_fin[0, 0] + (theta_fin[0, 1] * x)

fig, ax = plt.subplots(figsize=(12,8))
ax.plot(x, f, 'r', label='Prediction')
ax.scatter(trainingData.Population, trainingData.Profit, label='Traning Data')
ax.legend(loc=2)
ax.set_xlabel('Population')
ax.set_ylabel('Profit')
ax.set_title('Predicted Profit vs. Population Size')
plt.show()

# 损失随着迭代次数的变化
fig, ax = plt.subplots(figsize=(12,8))
ax.plot(np.arange(iters), loss, 'r')
ax.set_xlabel('Iterations')
ax.set_ylabel('Loss')
ax.set_title('Error vs. Training Epoch')
plt.show()

结果

图2

一般用向量形式 图3

图4

图5

图6

图7

图8 图9

说了那么多理论,是时候写一些代码了。我打算使用Python来做一下斯坦福Machine Learning课程里面关于线性回归的练习。pdf以及数据都可以在我的GitHub库 上下载到. GitHub地址:

图 10

图 11图12

原文链接:

https://github.com/lwyj123/re-machine-learning
https://juejin.im/post/5a37b4cf6fb9a045023bbe25
https://www.kaggle.com/c/titanic
https://www.coursera.org/learn/machine-learning