博客八月 12, 2020hexo 进阶设置指南(持续更新)让hexo渲染MathJax复杂公式(默认的渲染引擎复杂公式会报错)Problem对复杂公式的支持不够好,简单公式可以显示,复杂编译错误,验证表明,问题不是mathjax.js导致,是默认hexo引擎编译导致html文本转义错误。ReasonHexo默认使用”hexo-renderer-markedHexoBlog
强化学习笔记八月 11, 2020强化学习笔记7:策略梯度 Policy Gradient之前的策略优化,用的基本都是ϵ\epsilon-greedy的policyimprove方法,这里介绍policygradient法,不基于v、q函数1.introduction策略梯度是以P(a∣s)P(a|s)入手,概率π(s,a)\pi(s,a)的形式,同样是modelfree的πθ(s,a)强化学习 RL策略梯度 Policy gradient
博客八月 8, 2020从0 -> 1,拥有你的免费个人博客之“打个前站”为什么想写个博客耍?我们在生活和工作中会遇到的各种问题,现在基本都能从互联网上找到答案,因为个体相较于群体,所能接触到的面,太窄,也太小了。以前常去“百度知道”去搜答案,上网的门槛逐步降低之后,“知道”也不知道了,碎片化的问答里总是充斥着各种水军、广告,令人窒息。现在,你询问搜索引擎的问题,大多会在Blog
工具八月 7, 2020ios黄页:可算让iPhone好用了点儿张小跳-ios黄页分享一个ios黄页工具,领取方式见文末黄页是什么说白了,可以理解为指电话号码簿,几乎世界每一个城市都有过这种纸张为载体所印制的电话号码本。【百度百科】定义:黄页是国际通用按企业性质和产品类别编排的工商企业电话号码簿,以刊登企业名称、地址、电话号码为主体内容,相当于一个城市或地区的工ios黄页iPhone
笔记八月 5, 2020为什么数值仿真里要用RK4(龙格库塔法)一年级的时候搬砖搬多了,数分课也没好好上,回头一看,这么简单的东西,当时竟然整的稀里糊涂的。为什么要用RK4先po一张图,直观感受一下仿真的误差。对于给定线性常微分方程x˙=x\dotx=x易得,其解是x(t)=Cetx(t)=Ce^tRK4是龙格库塔法曲线,None是一阶解法x(t+dt)=x(tRK4数值仿真
强化学习笔记八月 5, 2020强化学习笔记6:值函数估计Value function Approximationintroductionv、q表的问题解决离散化的s,a,导致q-table存储量、运算量大解决连续s、a的表示问题solution用带权重估计函数,估计vorqv^(s,w)≈vπ(s)orq^(s,a,w)≈qπ(s,a)\begin{aligned}\hat{v}(s,\mathbf{w})&强化学习 RL值函数估计 value function approximation
机器学习笔记八月 3, 2020深度学习22张精炼图笔记总结深度学习精炼图笔记总结本文转自知乎(Sophia)公众号【计算机视觉联盟】笔记图片由TessFerrandez整理,这套信息图优美地记录了深度学习课程的知识与亮点。因此它不仅仅适合初学者了解深度学习,还适合机器学习从业者和研究者复习基本概念。这不仅仅是一份课程笔记,同时还是一套信息图与备忘录。从深度深度学习DL
机器学习笔记八月 3, 2020Keras & Tensorflow 笔记Keras是一个高层神经网络API,Keras由纯Python编写而成并基于Tensorflow、Theano以及CNTK后端。Keras为支持快速实验而生,能够把你的idea迅速转换为结果,如果你有如下需求,请选择Keras:简易和快速的原型设计(keras具有高度模块化,极简,和可扩充特性)支持机器学习 MLkerastensorflow
强化学习笔记八月 1, 2020强化学习笔记5:无模型控制 Model-free control适用于:MDPmodel未知:经验的采样可以获取MDPmodel已知:无法使用(e.g.原子级动力学),采样可以使用策略、非策略学习:On-policy:动作采样来自policyπ\piOff-policy:采样来自采样μ或来自于其他策略π\pi,On-policyMCcontrol贪婪策略梯度法如强化学习 RL无模型控制 model-free control
机器学习笔记七月 23, 2020深度学习-Coursera笔记AI->机器学习分类图分类几种网络结构分类NN——回归预测CNN(convolutionNN)卷积神经网络——图片RNN(RecurrentNeuralNetwork)递归神经网络——声音、语言处理LSTM长短期记忆网络——激活函数sigmoidReLU——rectifiedlinearunit修正深度学习 DL机器学习 MLCoursera
机器学习笔记七月 15, 2020卷积神经网络CNN(convolutional)卷积神经网络CNN(convolutional)卷积运算:原图像*卷积核=新图像,经常用来做边缘检测人造核:手动指定权重,改善效果指定核权重为变量,通过反向传播,学习卷积核的权重补白和步幅决定了卷积后的补白PaddingValidconvolution:p=0n×n∗f×f−>(n−f+1)×(n−深度学习CNN卷积神经网络
强化学习笔记七月 15, 2020强化学习笔记4:无模型预测 model-free predictionIntroduction这一章,解决的是用prediction的方法,来评估策略π\pi的问题。对于Env来说,不是参数已知的MDP比如元组中a、s、P的关系不确定or未知Prediction->ControlEvaluation->Optimization蒙特卡洛法Monte-Carlolearn强化学习 RL无模型预测 model-free prediction
强化学习笔记七月 10, 2020强化学习笔记3:动态规划 planning by dynamic programming(DP)规划,适用于MDP模型参数已知学习,适用于Env未知或部分未知概述动态规划分为两步,Prediction、Control(Prediction)Valueπ\pi的评价<s,Pπ,Rπ,γ>,π→Vπ<s,P^\pi,R^\pi,\gamma>,\pi\rightarrowV_\强化学习 RL动态规划 dynamic programming
笔记七月 8, 2020MBSE 基于模型的系统工程MBSE根据国际系统工程协会(INCOSE)在2007年发布的《SE愿景2020》中的定义,MBSE是建模方法在系统工程中的形式化应用,用以支持在系统全生命周期内开展需求、设计、分析、验证和确认相关的活动。从定义可以看到,MBSE是基于文档的传统系统工程工作模式的演进,力求以多视角的系统模型做为桥梁系统工程MBSE