r****c 发帖数: 1494 | 1 如题。
写个watcher脚本去自动清空状态然后重启service还是如何?
一般这种问题是如何解决的?(对service进行debug当然是一个方法了。) |
z****e 发帖数: 54598 | |
w**z 发帖数: 8232 | 3 啥操作系统?啥语言写的?试试能不能找到原因。不行可以用 runsv 或upstart 不同
操作系统不一样。
【在 r****c 的大作中提到】 : 如题。 : 写个watcher脚本去自动清空状态然后重启service还是如何? : 一般这种问题是如何解决的?(对service进行debug当然是一个方法了。)
|
c*********e 发帖数: 16335 | 4 我也碰到类似的问题,service会某天突然挂掉,没有人察觉,后来出问题了才被发现
。不知道怎么解决,os是windows.
【在 r****c 的大作中提到】 : 如题。 : 写个watcher脚本去自动清空状态然后重启service还是如何? : 一般这种问题是如何解决的?(对service进行debug当然是一个方法了。)
|
w**z 发帖数: 8232 | 5 这是op 的事,要有起码的monitoring and alerting.
【在 c*********e 的大作中提到】 : 我也碰到类似的问题,service会某天突然挂掉,没有人察觉,后来出问题了才被发现 : 。不知道怎么解决,os是windows.
|
c*********e 发帖数: 16335 | 6 怎么做?大侠说说?
【在 w**z 的大作中提到】 : 这是op 的事,要有起码的monitoring and alerting.
|
c*********e 发帖数: 16335 | 7 service挂了,能让它自动重新运行吗? monitoring/alerting你指的是挂了给某人发个
email ?
【在 w**z 的大作中提到】 : 这是op 的事,要有起码的monitoring and alerting.
|
B********e 发帖数: 1062 | 8 支持IO 吗? 支持的, 最简单的就是加log了。
然后下次service退出, 看看log能不能帮助找到问题?
【在 r****c 的大作中提到】 : 如题。 : 写个watcher脚本去自动清空状态然后重启service还是如何? : 一般这种问题是如何解决的?(对service进行debug当然是一个方法了。)
|
p**r 发帖数: 5853 | 9 #1
如果service update不频繁,
可以用publish成static让人pull,
publish的时候做一个检测,如果fail就不overwrite+alert相关人,
这样至少能保持之前的old data
#2
如果service update很频繁,
写一个monitor异地定期检测,1分钟,1秒钟,顺便你
检测到error,就alert |
c*********e 发帖数: 16335 | 10 我現在就是用#2,单独写个monitor,用php,java,c#写都无所谓,用php写最简单,一
个php文件就够,如果service不运行了,就给某人发个email.
最好是多个web server上都检测这一个service,如果这个service很重要的话。这样如
果其中一个monitor的server断电了不运行了,其它monitor还在monitor.
【在 p**r 的大作中提到】 : #1 : 如果service update不频繁, : 可以用publish成static让人pull, : publish的时候做一个检测,如果fail就不overwrite+alert相关人, : 这样至少能保持之前的old data : #2 : 如果service update很频繁, : 写一个monitor异地定期检测,1分钟,1秒钟,顺便你 : 检测到error,就alert
|
|
|
w**z 发帖数: 8232 | 11 windows 不知道, linux 有 runsv 或 upstart. os specific .
【在 c*********e 的大作中提到】 : service挂了,能让它自动重新运行吗? monitoring/alerting你指的是挂了给某人发个 : email ?
|
k**n 发帖数: 3989 | 12 看eventsview有发现吗?
有时是没catch的错误太多,service会死掉。 |
r****c 发帖数: 1494 | 13 当然我正在加log了,不过考虑程序总是有bug的,所以希望知道在运维方面的常用做法。
【在 B********e 的大作中提到】 : 支持IO 吗? 支持的, 最简单的就是加log了。 : 然后下次service退出, 看看log能不能帮助找到问题?
|
r****c 发帖数: 1494 | 14 其实应该是没有catch好。
【在 k**n 的大作中提到】 : 看eventsview有发现吗? : 有时是没catch的错误太多,service会死掉。
|
c*********e 发帖数: 16335 | 15 把整个code给用try包起来,然后catch,难道还不能catch ?
【在 k**n 的大作中提到】 : 看eventsview有发现吗? : 有时是没catch的错误太多,service会死掉。
|
r****c 发帖数: 1494 | 16 有时可能是是某个process或者thread的没有catch好....
【在 c*********e 的大作中提到】 : 把整个code给用try包起来,然后catch,难道还不能catch ?
|
g*****g 发帖数: 34805 | 17 常见做法是 tracer, counter, 把重要的 call和出错都 monitor, 超过 threshold就
alert. charting tool可以很直观地看历史信息。
法。
【在 r****c 的大作中提到】 : 当然我正在加log了,不过考虑程序总是有bug的,所以希望知道在运维方面的常用做法。
|
r****c 发帖数: 1494 | 18 果然是有经验的。
多谢。
就
【在 g*****g 的大作中提到】 : 常见做法是 tracer, counter, 把重要的 call和出错都 monitor, 超过 threshold就 : alert. charting tool可以很直观地看历史信息。 : : 法。
|
s********i 发帖数: 145 | 19 Windows Service 除了LOG, 一种常用的处理方法是生成 dump..., 然后 investigate
dumps... |
g*******t 发帖数: 7704 | |
N********n 发帖数: 8363 | 21
SERVICE一定要有LOG,LOG里再分级。轻量的算WARNING,严重的算ERROR,
最厉害的报CRITICAL。通通记下来包括THREAD号,这样事后崩了查起来也
多一点线索。
【在 r****c 的大作中提到】 : 如题。 : 写个watcher脚本去自动清空状态然后重启service还是如何? : 一般这种问题是如何解决的?(对service进行debug当然是一个方法了。)
|